To reset your password, please enter your email address or username below.

Ловля уток по-научному …или… Сможет ли искусственный интеллект отличить правду от лжи?

Одно из самых популярных сейчас направлений в разработке искусственного интеллекта — это его использование как преграды для распространения «фейк ньюс» (лживых новостей или газетных уток, как говорили когда-то). С одной стороны — цель похвальная и ничем не хуже других, а с другой… как-то очень уж резко взялись за это дело гиганты IT-индустрии.

И дело тут не только в моде. Интерес к борьбе со лживыми сообщениями в интернете — явление гораздо более многоплановое … и тревожное.

Ведь скажем честно — фейковым новостям лет примерно столько же, сколько и самим средствам массовой информации. В свое время автору этих строк довелось читать сборник «Иностранные известия о восстании Степана Разина», в котором похожих на правду сообщений практически не наблюдалось.
Особо же запомнилось письмо в Лондон какого-то клерка Московской компании, в котором этот очевидец событий подробно и красочно описывал сражение царских войск с бунтовщикамикоторого никогда не было.

Разумеется, можно все списать на то, что в XVII веке телеграфа не было, что любая информация при передаче по длинной устной цепочке неминуемо искажается – сломанный телефон во всей красе. Но есть пример и относительно современный – «бархатная революция» в Чехословакии в 1989 году приобрела размах после сообщений о том, что в столкновениях с полицией погиб некий студент Мартин Шмид. Потом, правда, оказалось, что такого студента не было, а роль «жертвы» сыграл офицер госбезопасности Людвик Зифчак. Результатом стала революция — и фиктивность повода никого не смутила, даже когда вся афера стала известной.

Так что фейк-то он фейк… но последствия от вовремя выпущенной «утки» могут быть очень даже реальными. И коль скоро серьезные люди в серьезных компаниях готовы тратить большие деньги на разработки по отстрелу этих уток, то это значит только одно — что-то такое носится в воздухе… что заставляет думать о том, как бы вовремя загасить все информационные искорки, от которых может заняться большой пожар. Хвороста для которого уже хватает — тут тебе и проблемы с мигрантами, тут и нарастающее социальное неравенство и перспектива очередного экономического кризиса со всеми его прелестями. Одним словом — спрос на что-то такое, что не даст «фейковым новостям» сыграть свою черную роль, имеется.

Насколько «отстрел уток на взлете» поможет предотвратить социальные потрясения (особенно, если для них есть реальные основания) — судить не беремся. Но о чисто технической стороне борьбы с «фейк ньюс» поговорить стоит — благо, что «программы-фильтры» уже существуют и предлагаются интернет-пользователям как некий ай-ти продукт… стоящий денег.

Но вот стоящий ли реально? Насколько реально сегодня отличить правду от лжи на машинном уровне?

Начнем с довольно простеньких плагинов, которых в интернет-магазине расширений для браузера Chrome уже сейчас можно найти десятки. В основном они работают по довольно простому принципу «ключевых слов» – если в тексте присутствуют термины «пресс-конференция», «брифинг», «сказал», даты и фамилии говорящих, то программа просто перебирает аналогичные сообщения и сравнивает результаты. Если сообщений о пресс-конференции уникально — то оно определится как «фейк-ньюс» (потому что на пресс-конференциях пишущего народу собирается много — и все потом с них что-то публикуют).
По такому принципу работает, например, плагин NewsCracker – он оценивает материал на предмет достоверности по трем параметрам – точность, нейтральность текста и нейтральность заголовка.

Оценка происходит по «рейтингу надежности сайтов», количеству и источникам цитат, числу «предвзятых слов или фраз», длине и структуре предложений.
Разумеется, что какую-то часть «уток» этот NewsCracker, может быть, и выловит, особенно, если их источником определится сайт, специализирующийся на производстве как раз-таки «фейк-ньюс». Но… тот же самый плагин вполне может определить как фейк и вполне достоверное сообщение, если оно написано недостаточно толерантным слогом и содержит «предвзятые слова и фразы».

Ну так что ж… Чтобы избежать таких казусов можно воспользоваться плагином FactoidL, который работает на основе алгоритма Anaxagoras. Этот алгоритм позволяет FactoidL выделять из текста некие блоки фактов-утверждений, которые разработчики плагина называет термином «factoids». А дальше алгоритм Anaxagoras удаляет из каждого «factoid»-а, «неглавные слова», после чего для проверки фактов обращается к …«Википедии». Что уже смешно — ведь новости на то и новости, что про них в энциклопедиях (пусть даже и таких несерьезных, как Вики) статей нет.

В общем, «чисто машинные» подходы против фейк-ньюс работают плохо… Во всяком случае, в Массачусетском технологическом институте выяснили, что «утки» по-прежнему разлетаются по социальным сетям быстрее достоверных новостей.

Но ведь есть еще и искусственный интеллект, который… тоже мало чем может помочь.

Машинного алгоритма, который проверял бы новости «на лету», все еще нет, – говорит директор по исследовательским разработкам корпорации Social Discovery Ventures Андрей Михайлюк.

Нет никакой сложности в том, чтобы определить, откуда взялась первоначальная новость. Но как можно выяснить, настоящая она или нет? Очень часто какие-то важные сообщения впервые появляются на локальных сайтах с очень маленьким «информационным весом». Соответственно, метод определения достоверности по авторитетности источника здесь не сработает.

С ним согласен управляющий партнер портала Fishki.net Михаил Гуревич:
Как вы можете определить, сообщает ли вам хороший приятель выдуманную байку, или же он действительно откуда-то узнал сенсационную новость? Реально такой возможности нет. Можно только доверять другу другу… или не доверять.

Однако на самом деле вопрос о доверии принципиально решаем. Если у вас в стране есть нечто похожее на китайскую систему социального кредита, то не составит особого труда присвоить каждому человеку и «рейтинг правдивости», который будет уменьшаться, если имярек окажется автором (или хотя бы распространителем) очередной утки.

Но… и тут есть сложности — причем политического характера. Ведь некоторые выдумки долгое время функционируют как достоверные на самом высоком уровне (в СовБезе ООН, например), а потом вдруг оказывается, что у Ирака не было запасов химического оружия, а фейк — это как раз знаменитая «пробирка Пауэлла».

И что в таком случае делать? Как определить степень правдивости (или лживости) … ну хотя бы в сообщениях о применении кровавым тираном Асадом химического оружия против отважных сирийских повстанцев? Возможно ли это не «после того, как…», а вот прямо по ходу дела? Оказывается — да, возможно. По крайней мере — теоретически.

Распознавание лжи в текстах — новый, но быстро растущий сегмент в компьютерной лингвистике. Допустим, что у нас есть набор из 150-200 новостных текстов по какой-то теме, про которые точно известно, правдивые они или лживые. Кроме того, есть набор данных об их авторах: пол, возраст, уровень и профиль образования и т.д.
Эти тексты можно проанализировать: выявить эмоционально окрашенные слова, имена (в том числе известных людей), зафиксировать связи между частями речи – и всё это посчитать. В этом случае в фокусе внимания окажутся не отдельные элементы текста (слова или предложения), а сама его структура.

Создатели «теории риторических структур» У. Манн и С. Томпсон определили исходный набор риторических отношений (свидетельство, уступка, детализация, обоснование, условие, антитезис, цель, резюме и пр.), которые в честном и лживом текстах связываются друг с другом по-разному — и эти различия искусственный интеллект вполне способен заметить.

Российские исследователи Б.Галицкий и Д.Писаревская утверждают, что алгоритм, обученный на примере размеченных данных отличать лживые тексты от правдивых, будет способен в дальнейшем различать их с точностью с точностью от 68 до 80%.
Это очень высокий показатель, но … Проверили этим алгоритмом текст заметки телеканала Раша Тудей о том, как в Брюсселе важные люди общались с сирийцами, утверждавшими, что никакой «химической атаки» весной 2018 года в городке Дума не было — и что? Его Величество Искусственный Интеллект пришел к выводу, что заметка лживая. Хотя сейчас уже все признают — не было в Думе никакой боевой химии, а вся «атака» была инсценировкой исламистов, желавших еще раз поднять крик про Асада-отравителя и получить новую порцию военной помощи.

Как говорится — ну и? Как мы сможем быть уверены, что «алгоритм для борьбы с фейками» сам не станет информационным оружием, призванным отметать неугодные и неподходящие новости как «фейки»? Очень будет удобно — мы ни при чем, это все искусственный интеллект беспристрастный так рассудил. В такое дело и Гуглу, и Фэйсбуку вложиться не грех…

И вот именно поэтому не надо слишком уж надеяться на искусственный интеллект. В таких материях, как ложь и правда, добро и зло, честность и подлость на него полагаться не приходится.

Так что поговорка «доверяй, но проверяй» по-прежнему остается в силе. Именно проверяй. Причем сам. Даже самый продвинутый искусственный интеллект в деле ловли уток – плохой помощник.

Андрей Михайлов

Автор публікації

Коментарі: 3
Публікації: 6
Реєстрація: 14.08.2019