Дипфейкам верят: как научный эксперимент доказал силу убеждения искусственного интеллекта

Когнитивные психологи Вышки создали фейковые записи голосов знаменитостей, чтобы ввести в заблуждение участников научного эксперимента и доказать, что люди с разным уровнем критического мышления, потребности в познании и конформизма подвержены дезинформации. Также учёные выяснили, какая взаимосвязь есть между внутренними установками и степенью доверия к подобным материалам.

Дипфейкам верят: как научный эксперимент доказал силу убеждения искусственного интеллекта

Unsplash

С развитием навыков медиаграмотности и насмотренности всё меньше людей доверяют фейк-новостям и псевдодокументальным фильмам. Уже известно, что когнитивные процессы склоняют общество чаще полагаться на видео- и аудиоматериалы, нежели на текст, ведь они воспринимаются как более детальное и правдоподобное отражение происходящих событий. 

Недавнее исследование учёных из НИУ ВШЭ также показало, что студенты с разным опытом анализа медиаконтента и отличающимся уровнем аналитического мышления едва ли поверили содержанию видеороликов о конспирологических теориях. 

А что, если погрузиться в мир фейков и изучить их глубже — на уровне дипфейков — технологии реалистичного синтеза видео или речи, которая набирает популярность не только в развлекательной сфере? Это и сделали учёные из Института когнитивных нейронаук в рамках Стратегического проекта «Успех и самостоятельность человека в меняющемся мире».

В.А. Ключарёв, А.Н. Шестакова, В.В. Моисеева, О.Е. Кускова и Э. Монахова обучили нейронные сети синтезировать фейковые записи, используя аудиоматериалы известных людей, выступающих за вакцинацию от коронавируса в России или против неё. Для создания дипфейк-материалов использовались аудиозаписи героев, взятые из открытых источников. Модель преобразования текста в аудио-формат состояла из четырёх нейронных сетей для разных стадий: ​​обработки текста, синтеза, кодирования спикера и вокодера. 

«Для кодирования речи дипфейк-героев применялась предварительно обученная модель CorentinJ (Real-Time-Voice-Cloning), а для техники G2P — переученная русская версия (Russian_G2P). Для качественной реализации синтеза спектрограмм была использована модель Tacotron 2. Он основан на сети seq2seq с механизмом внимания и состоит из предварительной записи коротких аудио-фрагментов, которые впоследствии объединяются для создания связной речи», — комментируют исследователи.

В получившихся дипфейк-дорожках озвучивалась точка зрения известных личностей, которая не соответствовала реальной — таким образом участники вводились в заблуждение. В исследовании приняло участие 50 человек в возрасте от 18 до 35 лет, обладающих разными внутренними установками по вопросу вакцинации от ковида. Они были заведомо знакомы с публичной позицией героев дипфейков, но не были осведомлены об искусственном характере их речи в ходе эксперимента. Во время прослушивания аудио-дипфейков велась запись электроэнцефалограммы (ЭЭГ). Также участникам требовалось отвечать на вопросы о доверии к представленным материалам. В исследовании было также задействовано несколько тестов и шкал, позволяющих оценить уровень аналитического мышления испытуемых, их потребность в познании и склонность к конформизму.

На основе данных ЭЭГ, позволяющих следить за изменениями в электрической активности мозга участников во время прослушивания дипфейков, а также с учётом результатов тестирования людей на способность анализировать информацию с позиций логики исследователи пришли к важному выводу: «Не все участники с достаточно высоким уровнем аналитического мышления и потребности в познании смогли распознать, что им были представлены дипфейковые материалы, а не записи голосов реальных людей. В связи с этим, доверие к представленным материалам было довольно высоким». Выяснилось, что уровень доверия испытуемых к дипфейк-материалам сильно зависит от спикера и их уровня конформизма. Внутренние установки и уровень аналитического мышления, в свою очередь, не оказали столь значимого влияния, как ожидалось.

Также среди факторов доверия участники отмечали авторитетность спикера, связность и последовательность изложения, надежность аргументации, а также форму и манеру речи. Учёные предполагают, что именно авторитетность оратора, а не внутренние установки участников, могли сыграть ключевую роль в определении доверия к материалам, и планируют исследовать это в будущем.  

Несмотря на растущий уровень осведомлённости и скепсиса относительно фейк-новостей, практика показывает, что большинство людей все же готовы поверить в дезинформацию, если она имеет выглядит реалистичной и содержит небольшое количество деталей, за которые можно зацепиться. Таким образом, технология дипфейка способна эффективно сформировать ложное впечатление о человеке или явлении и породить массовые заблуждения, которые, в свою очередь, могут представлять серьёзную опасность локально, дискредетируя отдельных людей, и глобально, угрожая безопасности всего общества.