Email Spam Filter. Както говорихме, програмата ще се самоубочава въз основа на някаква база от emails. Вероятно ще има някакъв inport/export към gmail. Главната идея на проекта ще се съсредоточи върху изкуствения интелект и алгоритъма за разбиване на mail-ите на изречения, думи и анализирането им. Не съм сигурен, колко време ще ми отнеме цялата работа. Нещо подобно е изцяло ново за мен и ще ми трябва много време за research. Ако се справя бързо, ще добавя и други неща.
[Проект] Spam Filter
Какъв интерфейс мислиш да има?
Не съм мислил за интерфейс. Вдъхновението дойде от една задача свързана с изчисляването на шанса за печалба, като интересната част е когато имаме комбиниран залог. Не съм мислил как ще реализирам рулетка в Go, а по-скоро за алгоритъм изчисляващ вероятности.
Сега като се замисля, може да напиша библиотека за изчисляване на вероятности, като освен класическа вероятност ще включа дискретни случайни величини, математическо очакване, дисперсия, ковариация, коефицент на корелация, пораждаща функция, дискретни разпределения и т.н.
Мнения ???
Аз като страничен наблюдател бих те посъветвал да направиш "литературен обзор". Какво съществува написано вече? По-точно, доколкото гледам се интересуваш от библиотеки за статистическо моделиране (например тук).
И вече като разбереш колко е, нагаждаш го според колко време ти сам имаш. Така ми казаха на мен в GW2 API, общо взето! :)
Пз!
Hi!
Понеже крайния срок за избиране на проект наближава, ми се иска да получа отговор, има ли смисъл да сядам да пиша нещо подобно или имате по-добри предложеняи?
Поздрави!
Честно казано аз не се чувствам способен да преценя какво трябва да има една библиотека за пресмятане на вероятности. Мисля си, че ще е нещо твърде малко за да запълни цял проект. Можеш ли малко по - точно да напишеш какво ще има в библиотеката (без "и т.н."). Така ще ни е по - лесно да преценим. Кратко обяснение как си представяш, че ще се използва също ще е полезно.
Мисля да включа всичко, което сметна за полезно от учебника по ТВМС с цел лесно да се смятат различните видове задачи.
Основни неща като комбинации, вариации, пермутации сечения обединения и т.н. (без тях, няма как да мина) Класическа вероятност, безкрайно вероятностно пространство, независимост и условна вероятност, формула за пълна вероятност, теорема на Бейс и формула за вероятност на произведение от събития, произведение на вероятностни пространства, случайни величини и разпределения - дискретни и непрекъснати, функция на разпределение, схема на Бернули, биномно разпределение, геометрично разпределение, хипергеометрично разпределение, поасоново разпределение , деверителен интервал за вероятност, математическо очакване и дисперсия и евентуално свойствата... числови характеристики на случайни величини, съвместно разпределение на две случайни величини, многомерна функция на разпределение , независими случайни величини, условно разпределение и условно математическо очакване, нормално разпределение и разпределение свързани с нормалното, пораждащи функции, сходимост на редици от случайни величини (евентуално) (ако остане време ще включа неща от статистика, които биха били полезни) Параметрична статистика и точкови оценки на параметри. Свойства: неизместеност, състоятелност и ефективност. Определения. Извадкови статистики от нормално разпределени случайни величини Проверка на хипотези. Грешки от първи и втори род. Хипотези за средната на популацията при известна дисперсия. Връзка с построяване на доверителни интервали.
Не ми се струва никак малко. За тестове мисля да ползвам задачи, които вече съм решавал.
Ако не - дайте предложение за проект.
Нещата, които си изброил, съвсем не изглеждат малко, даже точно обратното :) Проектът като scope изглежда доста впечатляващ, но ме притесняват следните неща:
- Не разбирам или съм забравил голяма част от нещата, които мислиш да правиш. Доколкото знам и другите колеги от екипа също не са много изявени статистици :). Така че проверката на подобен проект от наша страна ще се концентрира върху неща като стил, документация, архитектура, тестове и т.н. Просто имай предвид, че ти може да си написал най-брилянтната математическа библиотека и има шанс да не го разберем заради незнание от наша страна...
- Не съм сигурен, че подобна библиотека би имала нужда дори от минимално concurrency или някоя от другите по-интересни възможности на Go освен може би slices. Това не го казвам като нещо лошо, защото очевидно мислиш да правиш нещо, което вероятно е полезно за доста хора. Нищо чудно, ако се справиш добре, дори да почнат да ти ползват библиотеката за важни сметки :). В същото време обаче не съм сигурен доколко този проект ще тества и разшири познанията ти по Go.
- Не съм сигурен дали вече няма направени една част от нещата, които си планирал. Виж в секциите "Science and Data Analysis" и "Machine Learning" тук: https://github.com/avelino/awesome-go
Затова първото ми предложение беше рулетка. Там идеята ми беше да включа някаква част комбинаторика и да я използвам конкретно за рулетката. В играта има доста нетривиални неща. Интересна е частта с залагането, времето за залагане, паралелното залагане между играчите, многото варианти за залози и вероятната печалба при определено число и сякакви други дребни простотии за които не съм мислил. Без интерфейс.
Как ще се играе без интерфейс? Какво си представяш да е играта? Някакъв сървър към който играчите да пращат команди или нещо, което се играе локално на някоя машина? Command line програмка, на която ще се задават параметри/входни файлове и ще ти връща резултат?
Без интерфейс ми звучи твърде малко за проект.
Email Spam Filter. Както говорихме, програмата ще се самоубочава въз основа на някаква база от emails. Вероятно ще има някакъв inport/export към gmail. Главната идея на проекта ще се съсредоточи върху изкуствения интелект и алгоритъма за разбиване на mail-ите на изречения, думи и анализирането им. Не съм сигурен, колко време ще ми отнеме цялата работа. Нещо подобно е изцяло ново за мен и ще ми трябва много време за research. Ако се справя бързо, ще добавя и други неща.
Стана доста объркващо като редактира старата тема с новото заглавие и идея, но както и да е :)
Ето за това ти бях разправял като говорихме на лекцията: http://www.paulgraham.com/spam.html и http://www.paulgraham.com/antispam.html
Предполагам има и по-нови и по-добри статии, ще трябва да се поровиш.
Трябва да сте влезли в системата, за да може да отговаряте на теми.