Создатели нашумевшего ролика с Путиным в виде «гей-мамы» — о технологии Deepfake

Сделанное при помощи искусственного ума видео, на котором у актрисы Дженифер Лоуренс — лицо актера Стива БушемиYouТube.com

Недельку вспять вирусную популярность в соц сетях заполучил пародийный ролик, в каком лицом президента РФ (Российская Федерация — государство в Восточной Европе и Северной Азии, наша Родина) Владимира Путина поменяли лицо карикатурного гея из ролика в поддержку поправок к Конституции. В уникальном ролике, выполненном медиагруппой «Патриот» (связана с прокремлевским предпринимателем Евгением Пригожиным — прим. ред.) малыша конфискует из детдома гей-пара. В освеженном ролике мальчугану представляют не «маму» мужского пола, а «обнуленного» Путина, который отрадно указывает ребенку Конституцию. Znak.com побеседовал с Марией Чмир основоположницей и генеральным директором стартапа Dowell — компании, развивающей технологию Deepfake.  

— Разработка Deepfake дозволяет созодать убедительные подделки видео с подменой лиц. Не могли бы вы очень упрощенно разъяснить, как работает эта разработка? 

— Глобально зрительные дипфейки можно поделить на два огромных класса — face-swap (трансфер наружности от «донора» к «дублеру») и reenactment (перенос мимики и чувств). В рамках этих направлений есть несколько подходов к обработке видео, которые разрешают модифицировать контент. Я расскажу о том, которым углубленно занимается Dowell. Наша команда исторически практикуется на компьютерном зрении: мы учили методы «читать» фото и видео как текст, обучаться определять объекты и связи меж ними на изображениях. 

Это позволило нам натренировать наши искусственные нейронные сети с высочайшей точностью распознавать, где на лице находятся глаза, нос и рот, куда ориентирован взор, даже если голова двигается, как падают тени и где лежат морщинки. Такому въедливому анализу подвергаются и видео с «донором», и видео с «дублером». 

Последующий шаг — методы обучаются воссоздавать донорское лицо поверх лица дублера, сохраняя позы, освещение и мимику дублера. Далее подключаются методы обработки — они стабилизируют видео, избавляют несовершенства и сглаживают цвет. В нашем случае в 8 из 10 случаев выходит неотличимое от оригинала лицо. На данный момент мы способны сделать до 50 видео за 72 часа. 

— Как такие технологии доступны? В сети много дипфейк-роликов, сделанных различными блогерами. Их может созодать хоть какой желающий?

— На данный момент вправду есть несколько открытых библиотек, также приложений и веб-сервисов, при помощи которых можно произвести фото- и видеофейки. Большая часть из их ориентированы на создание веселительных маленьких роликов в низком качестве — они непревзойденно вписываются в ваши соцсети, но на их базе не создать высококачественный сюжет для киноэкранов. Те решения, которые владеют высочайшим реализмом результата, требуют, во-1-х, суровых технологических мощностей (для обучения нейросетей употребляются графические микропроцессоры с высочайшей производительностью), также нуждаются в суровой ручной постобработке в редакторах: вы могли созидать итог такового симбиоза человека и алгоритмов в «Ирландце» Скорсезе. 

— Как смотрится процесс обучения нейросети? Необходимо «скормить» ей огромное количество видеороликов и фото? Можно ли заменять лица в настоящем времени? Как это трудозатратная задачка? 

— Работа с генеративными технологиями — это постоянно баланс 3-х компонент: прирастить скорость, сохранив высочайший реализм при наименьшем объеме входящих данных. Мы, к примеру, научились создавать по-настоящему неотличимые от оригинала копии лиц и даже голов, и на данный момент колдуем над убыстрением нашей модели, также снижаем ее «прожорливость» по части требуемых для генерации материалов. Существенного прогресса мы достигнули, когда начали работу с пасмурным обслуживанием Hostkey из Нидерландов. Некие наши коллеги по цеху, напротив, могут весьма стремительно — за пару секунд — производить трансфер лиц, но бьются над неувязкой улучшения свойства генерируемого лица. Броский пример — команда стартапа AI Factory, основоположники которого, к слову, наши земляки, челябинцы Александр Машрабов и Григорий Ткаченко, продавшие свою разработку пересадки лиц в настоящем времени Snapchat за $166 млн. 

— От чего же зависит свойство сделанного «фейка»? От чего же зависит его стоимость?

— Если мы говорим про cinema production quality, когда принципиально сделать очень похожую и живую копию, то в этом кейсе методы вправду чувствительны ко почти всем чертам контента: в эталоне условия съемки в видео, для которого мы имитируем лицо, и в видео, из которого лицо извлекаем, должны быть идентичны по цветокоррекции, иметь высочайшее разрешение, а лица не должны перекрываться предметами. Но мы обучаемся нивелировать эти «капризы». К примеру, за счет глубочайшей сегментации видео обнаруживаем кадры, в каких перед лицом машут руками, и автоматом удаляем их из обучающей подборки, чтобы минимизировать «шум» в итоговой работе. С некачественными контентом мы работаем при помощи алгоритмов, восстанавливающих изображения до наиболее высочайшего разрешения. И чем больше манипуляций с контентом нам приходится создавать, тем выше стоимость работы. Самое сложное — сгенерировать 1-ые 30 секунд новейшего лица, а далее модель, познакомившись с ним, будет реагировать на новейшие задачки (кадры) все лучше и лучше. 

— За которую сумму ваша компания вставит лицо известной личности (либо неведомой) в порноролик либо во что-то схожее? Либо вы откажетесь от таковой работы? 

— Мы в Dowell на старте условились о том, что этичное внедрение технологии — главная ценность нашей команды. У нас глобальные амбиции, потому даже в наших пародийных роликах для YouТube мы верно заявляем о фейковости контента, даем ссылки на первоисточники и сопровождаем особо экстравагантные сюжеты дисклеймерами. 

— Про этичность и законность — как на данный момент регулируется эта сфера? Есть ли какие-то звучные прецеденты? 

— Обычно пионерами в данной нам сфере выступают Штаты: в октябре 2019-го губернатор Калифорнии подписал законопроект, запрещающий применять фейки (в любом виде — голосовые, текстовые, зрительные) в политических целях. При всем этом есть обмолвка, которая допускает создание материалов, раскрывающих свою «подражательную» природу. Подобные инициативы есть в Англии и Канаде. В то же время в феврале перед выборами в индийский парламент один из кандидатов употреблял замену движения губ на видео, чтобы «заговорить» с электоратом на диалекте хариани, которым он не обладает. В западной прессе последовала волна обеспокоенных публикаций, но на родине санкций к бюрократу не применили. 

Непременно, мы подходим к новенькому шагу определения норм относительно воззвания с индивидуальными данными. Понятие «кражи личности», возникшее полста лет вспять в англосаксонском праве, разумеется, просит расширения значения и включения individual visual identity (неповторимой наружности человека) в список охраняемых категорий.

— Выходит, на данный момент видео совершенно недозволено веровать? Человек может сказать — я этого не гласил, не делал, это все Deepfake. Либо, напротив, образ человека могут применять, чтоб от его лица наговорить всякого. Как с сиим биться? Есть ли метод вычислять фейки? Как он действенный?

— Кибербезопасность в плоскости дипфейков — одна из самых жарких тем, как для стран, так и для компаний, который сталкиваются со шквалом критики из-за собственной неспособности предупредить распространение неверной инфы. Microsoft, Гугл и Facebook выделяют млрд на сбор данных и исследования. Техногигант Марка Цукерберга две недельки вспять окончил собственный масштабный челлендж по детекции дипфейков на видео с призовым фондом в миллион баксов (одолел инженер по машинному обучению из Белоруссии). 

Нейросети участников демонстрировали точность угадывания подделок равную 83% на тренировочных данных, но когда их методам давали незнакомые видео и фото, свойство понижалось до 65%. Видите ли, точность определения дипфейков на данный момент лежит кое-где в области подкидывания монетки. И это как и раньше колоссально непростая задачка. 

— Технологию уже употребляли в кино и разных веселительных видео. А не так давно она посодействовала поменять истинные лица героев кинофильма BBC о преследуемых в Чечне геях. Для чего же еще она может употребляться? Может, есть какие-то неочевидные примеры?

— Чемодан с подменой лиц героев кинофильма «Добро пожаловать в Чечню» на представителей ЛГБТ-активистов — мой возлюбленный. По-моему, это по-настоящему человечное внедрение технологии, и таковых кейсов пока мало, к огорчению. Из арт-мира увлекательным смотрится проект музея Дали в Санкт-Петербурге, Флорида: нейросети воскресили отца сюрреализма, с которым любой гость экспозиции мог поменяться парой фраз. 

Цифровое воскрешение погибших звезд, создание нарративов с естественным старением героев (заместо дублеров и грима), возможность фанатов оказаться снутри киновселенной, загрузив фото на стриминговую платформу, перенос собственных мимики и чувств для управления возлюбленными персонажами  — это уже не будущее, это наше реальное завтра, в приближении которого команда Dowell принимаем активное роль. 

Мне же любознательным видится социально-ответственное направление развития дипфейков, связанное с исцелением и реабилитацией. VR-технологии уже сейчас начинают применяться для работы с фобиями и психотравмами, и возможность моделирования при помощи генерации лица и голоса важной для пациента личности — ценный инструмент для терапии (терапия — процесс, для снятия или устранения симптомов и проявлений заболевания). Таковой подход сейчас кажется экстремальным, и он нуждается в масштабных клинических исследовательских работах, но 1-ые шаги уже делают, скажем, наши корейские коллеги. 

— Про ролик с Путиным. Как он создавался? Как развивались действия позже, просили ли его удалить? 

— Около года мы вели наши научно-исследовательские разработки в области генеративных сетей, время от времени отвлекаясь на коммерческие проекты, и не без боли (переживание, связанное с истинным или потенциальным повреждением ткани) наблюдали за тем, как набирают популярность создатели, создающие дипфейки при помощи открытых алгоритмов — опосля видео с Маском, которое, кажется, не переслал мне лишь сам Маск, мы тоже решили действовать. Нам не весьма любопытно пересаживать актеров из одной картины в другую, как делает большая часть, потому мы избрали вектор драматичности над повесткой: поначалу был ролик, в каком Собянин ввел пропуски в Хогвартсе, а последующим стала пародия на нашумевшую пропаганду в поддержку поправки в Конституцию о семье как о союзе мужчины и дамы. 

Публикации данной нам работы медиагруппы «Патриот» вызвала у меня такую сильную фрустрацию, что попытка переосмысления стала естественной реакцией. Мы собрали высококачественный датасет с Владимиром Путиным из общественных источников и пофантазировали в творческом ключе о том, как будет смотреться Наша родина опосля поправок. Честно, мы страшились его публиковать. Длительно спорили. И даже опосля того, как отважились, закрыли доступ к ролику на YouТube через 10 часов опосля публикации. «Басманный трибунал для вас тоже чего-нибудть сгенерирует», — отдал оборотную связь на наше предложение опубликовать ролик админ 1-го известного паблика в телеграме. Но видео успели скачать, и оно попало в телеграм, твиттер и «ВК» без нашей воли, собрав там, по моим подсчетам, около 100 тыс. просмотров. На данный момент доступ к нему опять открыт: мы не желаем страшиться гласить о том, что нас тревожит, оставаясь при всем этом корректными и используя язык пародии.  

— Поведайте конкретно о вашем стартапе, как он зарождался и к чему в итоге вы желаете придти?

— На данный момент мы параллельно разрабатываем два продукта: в конце лета планируем окончить автоматизацию нашего метода переноса наружности и упаковать его в решение для подмены лиц в настоящем времени (большенный пул возможных клиентов в рекламе и потоковых медиа ожидают этого релиза), а уже в июле мы запустим сервис, оживляющий фото, — как в Гарри Поттере, помните? Можно будет загрузить портрет собственного шефа и анимировать его различными чувствами, а из приобретенных гифок создать стикерпак либо поделиться ими в соцсетях. Гифки стали сейчас всепригодным средством коммуникации — в мае Facebook купил Giphy за $400 млн, что подчеркивает энтузиазм широкой аудитории к созданию и обмену маленькими зрительными сообщениями. В этом направлении мы лицезреем потенциал для масштабирования. 

Источник: www.znak.com

Тоже будет интересно