Дипфейки: кто и зачем создает искусственные изображения и видео

Entry posted by admin in Нейронные сети May 19, 2020

34,695 views

Барак Обама ругает Дональда Трампа последними словами, а спикер палаты представителей конгресса США Нэнси Пелоси, кажется, пьяна. Оба случая, вызвавшие политические скандалы, зафиксированы на видео, но эти видео — подделки. Сейчас каждый такой фейк вызывает волну обсуждений, но через 10–15 лет изображения и видео, сгенерированные нейросетями, станут частью нашего повседневного опыта. Сможем ли мы защитить себя от недобросовестного использования своих образов? Захотим ли знать, какое из окружающих лиц настоящее, а какое сгенерировано искусственным интеллектом? Как создаются дипфейки и какое будущее их ждет?

Что такое дипфейки и как их создают

Дипфейками называют фотореалистичные изображения и видео, созданные глубокими нейросетями. Этот термин применяют журналисты, исследователи пользуются им гораздо реже.

Нейросети уже способны генерировать реалистичные человеческие лица и голоса. Яркий тому пример — проекты GAN 2.0 и Deep Style GAN от Nvidia. На их основе был создан сайт This Person Does Not Exist, который при обновлении странички каждый раз генерирует новое, несуществующее лицо. Эти изображения с трудом можно отличить от реальных фотографий людей. То же самое можно сказать и о речи Барака Обамы, сгенерированной нейросетью и представленной на конференции SIGGRAPH 2017 года: распознать в ней подделку на глаз практически невозможно.

С точки зрения математических операций нейросети, которые создают статичные картинки и видео, не отличаются друг от друга. Однако они решают разные задачи. При создании видео необходимо создавать последовательность изображений: движущаяся рука человека не должна резко дергаться от кадра к кадру, а освещение — меняться (кроме случаев, когда это задумано режиссером). Связность переходов обеспечивают модификации алгоритма, которые при формировании нового кадра учитывают то, что было в предыдущем.

Чтобы человек на видео был трехмерным, необходимо загрузить в нейросеть фотографии объекта, сделанные с разных ракурсов. Снимки должны быть максимально качественными и более-менее одинаковыми: если взять фотографии одного и того же человека с бородой и без, результат окажется плачевным. Поэтому опасаться, что злоумышленники создадут дипфейк на основе вашего образа, взяв фото из соцсетей, не стоит. Для того чтобы создать качественное искусственное изображение на основе фотографий, придется сделать несколько снимков, снятых с разных ракурсов, вручную создать 3D-модель, синтезировать множество отдельных изображений этой 3D-модели и загрузить их в нейросеть.

Когда дипфейки нужны

Производители современных чат-ботов и антропоморфных роботов сознательно избегают полного сходства робота с человеком.

Во-первых, чтобы робот мог починить холодильник, ему не нужно человеческое лицо. Японский робототехник Хироси Исигуро, который создает идеально похожих на людей роботов, заявляет, что он это делает лишь для того, чтобы продемонстрировать возможности современных технологий. Никакой полезной нагрузки это сходство не несет.

Во-вторых, системы генерации изображений пока неидеальны: имитации всегда рано или поздно выдают себя. Дипфейки обладают отличной от человека мимикой и двигаются не совсем так, как это делает реальный человек, — например, слишком часто моргают или крутят головой. Любому, кто это замечает, становится жутко. Этот психологический эффект называется uncanny valley («зловещая долина»). Чтобы пользователи с ним не сталкивались, производители уходят от попыток полной имитации человеческой внешности.

Нейроаватары — трехмерные цифровые модели объектов, создающиеся при помощи нейронных сетей на основе одного изображения.

Однако существуют отрасли, где визуальное сходство необходимо: кинематограф, спецэффекты, приложения телеприсутствия и нейроаватары. Даже FaceTime, популярное приложение для видеозвонков, работает в этом направлении. Подобные технологии ждет большое будущее и в индустрии видеоигр.

Системы искусственного интеллекта позволяют создать цифрового клона на основе данных, оставшихся после смерти человека. Существуют фирмы, которые используют разговоры и тексты умерших для генерации чат-ботов, разговаривающих как погибшие, а прижизненные видео и фотографии позволяют создать их цифровые аватары.

Эти возможности порождают множество этических дилемм. Имеем ли мы право использовать образ умершего человека так, чтобы его образ мог выполнять функции, для которых ему было необходимо биологическое тело, например общаться? Можно ли таким образом «доснять» фильм, если актер погиб до завершения съемок? Или использовать 3D-аватар умершей знаменитости для создания совершенно нового фильма, а после использовать его образ в рекламе? С юридической точки зрения право распоряжаться образом человека посмертно переходит к родственникам — это они разрешают или не разрешают использовать образ погибшего. Но не затрагивает ли это фундаментальные права личности? Эти и многие другие вопросы пока остаются открытыми.

Когда дипфейки опасны

Технология не может самостоятельно решать, что хорошо, а что плохо. Действия технологии напрямую зависят от того, для достижения каких целей она была запрограммирована. Например, искусственный интеллект IBM Project Debater участвует в дебатах. По уровню мастерства он не уступает чемпионам мира по дебатам, программе под силу убедить многих. Это не может не пугать, ведь цель компьютера задана другим человеком.

Основной страх, связанный с дипфейками, заключается в возможности менять на видео изображение одного человека на изображение другого. Высокореалистичные фейковые фото и видео могут использоваться для дезинформации, мошенничества, провокаций и кибербуллинга. Злоумышленник может заменить лицо человека на видео и обвинить его в правонарушении, шантажировать родственников пропавшего без вести сгенерированным фото или видео, влиять на решения избирателей вбросами фейковых видео в Сеть.

В 2019 году дипфейки впервые вызвали геополитические потрясения. В конце мая Дональд Трамп опубликовал ролик с председателем конгресса США Нэнси Пелоси, в котором она выглядела пьяной. Скорость видео была уменьшена на 25% по сравнению с оригиналом, а голос изменен так, чтобы казалось, будто она говорит скомканно. После появления этого видео конгресс США запустил расследование и заявил, что такие видео могут нанести непоправимый ущерб выборам 2020 года. С развитием технологий ситуация может стать хуже.

Можно ли отличить фейковое изображение на глаз

Первые несколько секунд человек не может сказать, какая перед ним картинка: сгенерированная или реальная. Но если присмотреться, отличить сгенерированные изображения от реальных на глаз пока еще возможно.

В первую очередь надо обращать внимание на размер изображения. Создавать реалистичные картинки высокого разрешения гораздо сложнее, чем маленькие, поэтому большим изображениям все еще можно доверять. Во-вторых, присматривайтесь к лицам, чтобы найти ненатуральные асимметрии. Например, разрез левого глаза может не соответствовать разрезу правого. В-третьих, одежда или украшения даются нейросетям гораздо хуже, чем лица. В-четвертых, дипфейки часто выдает нереалистичный или слишком абстрактный и размытый фон.

Отдельный класс дипфейковых подходов включает в себя замену изображения лица одного человека на другое. Это явление называют еще faceswap. Присмотревшись, можно заметить шов или несоответствие освещения лица освещению всего снимка.

А на видео нужно следить за тем, как меняется лицо человека с течением времени. Странное моргание, к примеру, — это признак дипфейка.

Помимо вышеперечисленных способов, дипфейк можно отследить по родословной файла. Для этого можно использовать стандартные методы верификации — например, статистику шумов изображения, которая позволяет вычислить модель фотоаппарата, с помощью которого был сделан кадр.

Как распознать дипфейк с помощью нейросети

Но уже сейчас некоторые фейковые картинки низкого разрешения неотличимы от реальных. Прогресс идет быстро, через 10–15 лет и высокореалистичные видео в формате 4К и выше не будут нас удивлять. Более того, при помощи генеративных нейросетей мы сможем, например, побродить в виртуальной реальности по фотореалистичному миру, где происходят разные события. Насколько быстро развиваются технологии создания фейков, настолько же — или даже еще быстрее — должны развиваться технологии, которые их разоблачают.

Для простых пользователей специалисты разрабатывают примитивные анализаторы видео, которые будут ориентироваться на моргание и движения кадыка. Но пока все попытки создать систему распознавания приводят к тому, что очень много реальных видео опознаются как дипфейковые, потому что некоторые люди обладают чертами, свойственными искусственно созданным изображениям. Это может быть нетипичное моргание, борода странной формы, асимметричные черты лица. Кажется, это лучший пример из мира постправды: данные, которыми мы располагаем, пока не позволяют обучить хорошую антифейковую программу, несмотря на то что самих фейков становится все больше.

Распознавание дипфейков — это в первую очередь задача нейросетей. Чтобы научить их это делать, необходимо загрузить в нейросеть обучающую выборку, где будут и подлинные изображения, и искусственно созданные. Это позволит нейросетям научиться определять сложные признаки, которые отличают фейки от настоящих изображений. В наши дни все проекты такого типа классифицируют реальные изображения как фейки, и эту проблему специалистам еще предстоит преодолеть.

Чтобы научить нейросети отличать фейки от реальных изображений, необходимо загрузить в них очень много данных. Только в 2019 году началось создание репозиториев — наборов изображений для оценки качества распознавания фейков. Процесс обучения нейросетей небыстрый, поэтому отличать фейки от настоящих изображений они научатся только через два года.

Существует и проблема переобучения. Дело в том, что нейросети, как правило, учатся на качественных изображениях, а работать в полях зачастую приходится с менее качественным контентом. В таких случаях специалисты запускают в работу сразу несколько нейросетей, которые вместе принимают участие в распознавании, а затем выносят «коллегиальное решение». Теоретически исследователи могли бы обучать нейросети и на некачественных изображениях, но как это правильно делать — будет понятно только через 5–10 лет.

Интересно, что каждое новое эффективное решение для распознавания фейков будет приводить к их улучшению. В некотором смысле получается метасостязательная сеть, работающая на уровне сообщества.

Дипфейки и закон

Чтобы защититься от дипфейков, распознавать их недостаточно. Нужно создать безопасные механизмы передачи данных с помощью индивидуальной цифровой подписи, которая позволит подтвердить или опровергнуть реальность той или иной информации. Но подлинность цифровой подписи — это еще одна нерешенная задача.

Соцсети уже сейчас начинают бороться с распространением дипфейков. Одни удаляют ролики, созданные нейросетями, другие сокращают им охваты. Люди, чей образ без их ведома использовали, апеллируют к законам о защите авторских прав, но в ответ создатели дипфейков говорят о нарушении свободы слова.

В будущем нас могут ожидать интересные правовые коллизии. Регуляторы защитят права пользователей, но вместе с тем их представления о правомочности будут меняться под действием технологий. Например, государство может решить, что пользователь должен знать, видит он перед собой изображение настоящего объекта или сгенерированный образ. А пользователь может запротестовать, ведь, например, в видеоигре неважно, сгенерированы фоновые пейзажи или нет. Право и вообще нормативная сфера всегда немного не успевают за техническими изменениями.

Sign In

Нейронные сети

Дипфейки: кто и зачем создает искусственные изображения и видео

Что такое дипфейки и как их создают

Когда дипфейки нужны

Когда дипфейки опасны

Можно ли отличить фейковое изображение на глаз

Как распознать дипфейк с помощью нейросети

Дипфейки и закон

0 Comments

Recommended Comments

Create an account or sign in to comment

Create an account

Sign in

Main

Blogs

About Us