Бывший глава «Яндекс.Новости» Гершензон: не «Яндекс» в эти игры играет
Эта пятница стала непростым днем для российского интернет-пространства. Утром «Яндекс» нашёл новость об отставке Владимира Якунина на сайте правительства.
По запросу «Дмитрий Медведев, Александр Мишарин» поисковик первой же ссылкой выдавал сайт government.ru — и новость о том, что премьер уволил главу РЖД. Чем поставил под сомнение версию о хакерской атаке или злой шутке над Владимиром Якуниным – это как кому нравится.
Скриншоты запроса сразу разошлись по сети. Его приняли за удалённую страницу на сайте правительства, которая осталась в памяти «Яндекса». Блогеры объявили: вот доказательство реальности увольнения шефа РЖД. Но в «Яндексе» обвинения опровергли. Объяснили, что во всём виноват «робот» и «сниппеты». Действительно ли президента РЖД подставил робот, и зачем вообще нужна такая система, – спросили об этом у нашего гостя IT-эксперта, бывшего руководителя «Яндекс.Новости» Льва Гершензона.
Макеева: Получается, что робот такой умный, что сам ищет первоисточник и примерно определяет его местонахождение и этим может в итоге подставить Яндекс.
Гершензон: В двух словах расскажу, что было на самом деле. Сниппет – это текст в результатах поиска между зеленым «урлом» внизу и заголовком статьи наверху. Обычно сниппет – это фрагмент текста найденной страницы с подсвеченными словами запроса. В сниппете к результату government.ru и были слова о том, что Медведев назначил Мишарина и уволил Якунина, и из этого сделали неправильный вывод о том, что этот текст был на этой странице. Есть такой класс запросов как свежие новостные запросы. У них есть особенность, чтобы любому поисковику хорошо искать результаты, им нужно много знать про сайты: нужно анализировать тексты, линки, поведение пользователей. Со свежими запросами сложность такая, что очень мало данных, потому что они только появились, и часто к новостям привязаны какие-то сайты. Например, американский Forbes выпускает очередной рейтинг, про него пишут российские журналисты свои новости. Года два назад, когда я еще работал в Яндексе, мы придумали способ, как эти новые документы вытащить на страницу выдачи. Если есть какая-то группа экспертов, в данном случае новостные сайты, которые пишут и указывают пальцем на какой-то объект, давайте его тоже покажем. Поскольку этот механизм разрабатывали, когда я был главой Яндекс-новостей, я имею к этому отношение. Это и моя вина, что вышла такая реализация. Сайты мы вытаскиваем, но дальше был технический вопрос: а что же писать в сниппете. Например, в случае с американским рейтингом Forbes люди спрашиваю по-русски рейтинг миллиардеров, а в английском документе вообще нет этих слов. Или выходи реестр запрещенных сайтов. Блоггеры, жители интернета его знают, начинают его искать, а там нет никаких слов, по которым его можно найти: его можно найти только по ссылкам, которые поставили на него журналисты. Было принято техническое решение использовать в качестве сниппетов заголовки сообщений, которые вошли в соответствующий сюжет Яндекс-новостей, в которых были ссылки на этот сайт. Если вы посмотрите на скриншоты… Какие-то журналисты это поняли. Моя задача была как можно скорее об этом рассказать, чтобы волну паранойи снять. Этого текста на сайте не было. Этот текст – это заголовки сообщений, которые написали об отставке Якунина и поставили ссылку на сайт Правительства. Отдельный вопрос – почему так долго эта информация не обновилась. Это некоторая ошибка отображения, представления, за нее я прошу прощения. Нехорошо писать текст и не показывать, что этот текст не с сайта страницы, а с другой. Я надеюсь, что все коллеги, пострадавшие примут мои извинения, а коллеги улучшат механизм.
Макеева: Как часто сотрудникам Яндекса приходится «подчищать» за роботом?
Гершензон: Я год как не руковожу Яндекс-новостями. Я могу рассказать только про то, что было в мое время. Мы очень гордимся тем, что Яндекс-новости – это полностью автоматическая система. Конечно, там много ошибок. О принцип полностью автоматического сервиса был очень важен, потому что только так можно сохранить его объективность вместе с прозрачностью. Поэтому всякие огрехи мы использовали как некоторый звонок, как повод дорабатывать алгоритм. Мы занимались крупнейшим новостным сайтом рунета, при этом у нас в редакции не было ни одного журналиста, редактора – это команда только программистов. Мы старались максимально быстро модифицировать алгоритмы. Мы много сил потратили, чтобы рассказать, как он работает, мы всегда были открыты с журналистами и со всеми. Если есть ситуация, что какие-то данные не обновились и где-то нужно в ручном режиме обновить, такие вещи возможны. Никакого ручного изменения контента, подтасовывания результатов не было.
Макеева: И такого рода ошибок робота, громких историй я не припоминаю.
Гершензон: Ошибки робота случаются все время. Все время ньюзмейкеры с разных сторон спектра не довольны тем, как представляются новости о них. Конечно, нам все время звонили, писали разные люди, и мы со всеми старались разговаривать. Бывают разные недовольства: например, недовольны тем, какой заголовок выбран в каком-то сюжете. Но мы говорили, что алгоритм так-то выбрал. В чем ошибка в этой истории? В том, что текст для аннотирования сайта Правительства выглядит, как будто это текст сайта, а он им не является. Это ошибка представления. Если бы там было написано «найдет по ссылкам» или указаны ссылки на эти источники, никакой ошибки бы не было. Это единственная проблема. Почему так случилось? Не надо забывать, что самые авторитетные издания написали, выпустили сообщения с этой новостью. Яндекс всегда старался быть зеркалом медиасферы. Этот механизм работал два года, и никто на него не обращал внимания. Довольно много текстов, которые в сниппетах пишутся и не являются текстами сайта. Есть так называемое описание из каталогов. Если в Яндексе запросить Гугл, вы увидите текст, которого нет на главной странице Гугла - это текст из каталога. Так что то, что сегодня произошло, не что-то сверхъестественное. Не Яндекс во все эти игры играет. Мне что жалко: Игнатьев рассказывает про уведенные 450 миллиардов рублей, и никто про это не знает, никто не пишет, и в топе Яндекса этого нет. Это прошла где-то в Ведомостях статья, и никто к ней интереса не проявил.