Американские учёные разрабатывают «фильтр глупости»
Команда американских учёных занимается разработкой программы под названием «StupidFilter» («Фильтр глупости»). «Фильтр глупости», программное обеспечением с открытым исходным кодом, будет определять «тупой» веб-контент на английском языке. Подобно тому, как антиспам фильтры отсеивают подозрительные электронные письма, «Фильтр глупости» будет распознавать слова или смысловые комбинации, имеющие определённую степень глупости. Каждому слову будет приписываться вес на основании того насколько часто это слово встречается в отобранных примерах идиотских on-line комментариях. Для эффективности распознавания глупых сообщений разработчики при создании фильтра используют анализ Bayesian наряду с обработкой данных по правилам.
Главная трудность для разработчиков заключается в разграничении глупого или непонятного контента и преднамеренного искажения фраз, что может быть средством создания сарказма или эмфазы. «Глупость - это не бинарная характеристика, а определённая степень» - говорят разработчики. Например, такой комментарий как «this video is amazingggggg» не будет отфильтрован, несмотря на неправильное написание слова (так как повторение буквы g в данном примере - средство эмфазы), но фраза типа «im firrsstt» будет помечена «Фильтром глупости», и перед тем как запостить коммент, автор получит сообщение с просьбой изменить фразу. Пилотная версия фильтра глупости будет способна отфильтровывать комментарии, характеризующиеся наличием большого количества слов, написанных с использованием заглавных букв, большого количества аббревиатур, чрезмерным употреблением «LOL», восклицательных знаков и т. д.
Проект всё ещё находится в процессе разработки. Учёные уже собрали свыше 255 000 комментариев, оставленных пользователями, в основном комментарии берутся с YourTube. Эти комментарии ранжируются по пятибальной шкале с помощью системы ранжирования, базирующийся на Интернет-технологиях; результаты «вставляются» в базу данных «Фильтра глупости». Основываясь на этой базе данных, «Фильтр глупости» будет производить анализ входящих компонентов, принимая во внимание не содержание высказываний, а исключительно формальные признаки слов. Выпуск исходного кода на альфе планируется в декабре 2008 года.
Как только исследование будет закончено, разработчики также планируют выпустить основной движок исходного кода для внедрения в системы управления контентом, блоги, электронные словари и т.п. Кроме этого девелоперы планируют разработку плагина «Фильтр глупости» для FireFox и Wordpress.
По мотивам StupidFilter - Time to Fight Back the Imbeciles

10 May 2008 в 7:14 pm
Хм… Если они в этот фильтр глупости отнечли ещё и рекламные рассылки (спам) было бы очень даже неплохо…
14 July 2009 в 2:41 pm
Спасибо, интерестно было почитать