Компьютер научили определять «пьяные» твиты

17/03/2016 - 14:55 (по МСК)

Ученые создали систему машинного обучения, которая научилась находить «пьяные» записи в твиттере, и вычислять по их тексту, где в данный момент пользователи пьют.  Об этом в четверг, 17 марта, сообщает N+1.

Фото: depositphotos.ru

В течение года ученые из Рочестерского университета собирали в Нью-Йорке и округе Монро твиты с геотегами. Среди них исследователи выбрали твиты, в которых упоминается алкоголь и относящиеся к нему по контексту слова, такие как «вечеринка», «пиво», «пьяный» и другие. После этого отобранные посты отфильтровали, оставив только те, которые имели непосредственное отношение к употреблению алкоголя.

Твиты отбирались по трем категориям: делает ли твит ссылки на употребление алкоголя, если да, то относится ли этот твит непосредственно к автору поста, и если да, вероятно ли то, что пост был написан во время и в месте распития спиртных напитков. Всего было проанализировано около 11 тысяч твитов. На основе этих данных ученые обучили машину опорных векторов (SVM) распознавать «пьяные» посты по содержанию.

Затем исследователи решили определить, где находятся пользователи во время написания своих твитов — дома или, например, в баре. Для этого ученые скомбинировали несколько методов, использующих геолокацию в твиттере. Так, они учитывали, откуда пользователь пишет чаще всего, откуда был отправлен последний пост за день и где находится место, откуда пользователь обычно пишет между часом ночи и шестью утра.

Но этих данных оказалось недостаточно, чтобы точно определить, где пишутся твиты. Поэтому ученые составили список слов и фраз, которые бы могли точно указывать на то, что твит был отправлен пользователем,  когда он находился дома. В список «домашних» признаков попали такие фразы как «Ура, я дома!» и слова «ванна», «телевизор» или «диван».

После этого твиты были отфильтрованы по геолокации, а сотрудники Amazon Mechanical Turk определили, откуда были написаны посты. На основе этих данных ученые обучили SVM распознавать «пьяные» твиты. В итоге она смогла определить, откуда написаны твиты, с точностью до 70%. Кроме того, исследователям удалось составить карту наиболее популярных мест употребления алкоголя.

В будущем ученые планируют научить систему определять по твитам возраст, пол, этническую принадлежность и другие характеристики пользователей. 

Также по теме
    Другие новости
    FT: российские власти планируют устроить серию диверсий в Европе Сегодня в 16:25 В аннексированном Бердянске взорвали машину сотрудника ФСИН. Он погиб на месте Сегодня в 16:23 Российская армия атаковала Украину беспилотниками. В Харькове пострадали шесть человек Сегодня в 16:23 Один из крупнейших банков Турции ужесточил условия открытия счетов для россиян Вчера в 13:38 В Свердловской области начались перебои с электричеством из-за аномального майского снегопада Вчера в 13:36 Армия РФ нанесла удар по Харькову. Пострадали четыре человека, в том числе один ребенок Вчера в 13:36 В Ставропольском крае задержали подростков, которые сожгли Библию в мангале. СК возбудил дело об оскорблении чувств верующих В Финляндии арестовали трех студентов из России по подозрению в вывозе из страны товаров двойного назначения Комитет Госдумы поддержал запрет «иноагентам» участвовать в выборах Мэр Орска заявил, что уйти в отставку во время наводнения было бы «не по-государственному»