Мы в Telegram
Добавить новость
ВСЕ новости СЕГОДНЯ
BigPot.News — википедия новостей News24 с календарным архивом. Все самые быстрые 24/7 новости в ежеминутном тематическом обновлении Life24 — на русском, и не только + Today24, а также тексты с озвучкой — в авторском разделе #123ru.net
Ria.city

Модель искусственного интеллекта VLOGGER от Google может создавать видео-аватары из фотографий — что может пойти не так?

Hleb.asia
36
google-2024-vlogger-spalsh-image.png

VLOGGER может сделать одну фотографию человека и создать клипы с высоким разрешением различной длины, с точным выражением лица и движениями тела в мгновение ока, выходя за рамки предыдущих типов программного обеспечения «говорящей головы».

Google

Сообщество искусственного интеллекта (ИИ) настолько хорошо научилось создавать фальшивые гифки (взгляните на Sora от OpenAI, представленную в прошлом месяце, с ее фантастическим полетом фантазии), что приходится задаться интеллектуальным и практическим вопросом: «Что?» Что нам делать со всеми этими видео?

также: OpenAI представляет свою модель преобразования текста в видео, и результаты потрясающие.

Управляйте ими с помощью нашего инструмента VLOGGER, ответили на этой неделе исследователь Google Энрике Корона и его коллеги. VLOGGER может создавать HD-видео разговаривающих людей на основе одного изображения. Самое главное, что VLOGGER может анимировать видео на основе образца речи, то есть технология может анимировать видео как контролируемое подобие человека – «аватар» высокого разрешения.

Этот инструмент дает возможность реализовать все виды творчества. На более простом уровне команда Corona предполагает, что VLOGGER может оказать большое влияние на аватары службы поддержки, поскольку более реалистично выглядящие искусственно говорящие люди могут «вырабатывать эмпатию». Они отмечают, что эта технология может «открыть совершенно новые варианты использования, такие как улучшение онлайн-коммуникации, образования или личных виртуальных помощников».

VLOGGER также может открыть новые горизонты в создании дипфейков, реалистичных изображений, которые говорят и делают то, чего реальный человек никогда бы не сделал. Команда Corona намерена учесть влияние VLOGGER на общество в дополнительных вспомогательных материалах. Однако этот материал недоступен На странице проекта на GitHub. ZDNET обратился в Corona с просьбой предоставить вспомогательные материалы, но на момент публикации не получил ответа.

также: Ученые говорят, что по мере распространения агентов ИИ риски также возрастают.

Как описано в официальном документе «ВЛОГГЕР: мультимодальное распространение для синтеза воплощенных аватаров», команда Corona стремится выйти за рамки неточностей современных аватаров. «Создание реалистичных видеороликов с участием людей по-прежнему сложно и пронизано артефактами», — пишет команда Corona.

Команда заметила, что аватары в видео часто отрезают тело и руки, показывая только лицо. VLOGGER может показывать полный торс движениями рук. Другие инструменты обычно имеют ограниченные вариации выражений лица и поз, обеспечивая лишь элементарную синхронизацию губ. VLOGGER может создавать «видео высокого разрешения движений головы и верхней части тела». […] Он демонстрирует широкое разнообразие выражений лица и жестов» и является «первым способом создания говорящих, анимированных людей с помощью речевого ввода».

Как объяснила исследовательская группа: «Именно автоматизация и поведенческий реализм [are] К чему мы стремимся в этой работе: VLOGGER — это мультимодальный интерфейс для воплощенного диалогового агента, оснащенный аудио- и анимированным визуальным представлением, отличающийся сложной мимикой и повышенным уровнем движений тела и предназначенный для поддержки естественного общения с человеком. пользователь.»

пример google-2024-vlogger

На основе одного изображения слева VLOGGER предсказывает, какие видеокадры справа должны сопровождать каждый момент аудиофайла говорящего человека, используя процесс, известный как «диффузия», а затем создает эти видеокадры с высокой скоростью. — качество определения.

Google

VLOGGER объединяет некоторые последние тенденции в глубоком обучении.

Мультимедиа объединяет множество режимов, которые инструменты искусственного интеллекта могут обрабатывать и синтезировать, включая текст, аудио, изображения и видео.

Большие языковые модели, такие как GPT-4 от OpenAI, позволяют использовать естественный язык в качестве входных данных для управления всеми видами действий, будь то создание абзацев текста, песни или изображения.

В последние годы исследователи также нашли множество способов создания реалистичных изображений и видео за счет улучшения «распространения». Этот термин пришел из молекулярной физики и описывает, как при повышении температуры молекулы вещества переходят от высокой концентрации в определенной области к более рассредоточенным. По аналогии, биты цифровой информации можно рассматривать как «разбросанные», чем больше они становятся некогерентными с цифровым шумом.

также: Перейдя к Gemini, вы обнаружите, что у искусственного интеллекта с открытым исходным кодом есть свои собственные видео-трюки.

ИИ развертывания вводит в изображение шум и реконструирует исходное изображение, чтобы обучить нейронную сеть находить правила, по которым оно было создано. Диффузия лежит в основе создания великолепных изображений в Stable Diffusion от Stability AI и DALL-E от OpenAI. Точно так же OpenAI создает отличные видеоролики в Sora.

Для VLOGGER команда Corona обучила нейронную сеть связывать голос говорящего с отдельными видеокадрами этого говорящего. Команда объединила процесс развертывания для восстановления видеокадра из звука, используя еще одну недавнюю инновацию — преобразователь.

Конвертер использует метод внимания для прогнозирования видеокадров на основе кадров, произошедших в прошлом, в сочетании со звуком. Прогнозируя действия, нейронная сеть учится отображать точные движения рук и тела, а также выражения лица, кадр за кадром, синхронно со звуком.

Последний шаг — использовать прогнозы этой первой нейронной сети для последующей генерации видеокадров высокого разрешения с использованием второй нейронной сети, которая также использует диффузию. Этот второй шаг также представляет собой высокую оценку в данных.

также: Генеративный ИИ не справляется с этой слишком распространенной способностью человеческого мышления.

Для создания изображений с высоким разрешением команда Corona собрала MENTOR — набор данных из 800 000 «личностей» из видео говорящих людей. MENTOR состоит из 2200 часов видео, которое, по утверждению команды, является «самым большим набором данных, использованным на сегодняшний день с точки зрения личности и длины», и в десять раз больше, чем предыдущие аналогичные наборы данных.

Авторы обнаружили, что они могут улучшить этот процесс с помощью последующего шага, называемого «тонкая настройка». Отправляя полное видео в VLOGGER, будучи «предварительно обученными» на MENTOR, они могут более реалистично уловить особенности движения головы человека, например моргание: «Путем точной настройки нашей модели диффузии с использованием большего количества данных в одном Видео». Для субъекта VLOGGER может научиться лучше фиксировать личность, например, когда на эталонном изображении закрыты глаза — процесс, который команда называет «персонализацией».

google-2024-vlogger-архитектура

Нейронная сеть VLOGGER представляет собой комбинацию двух разных нейронных сетей. Первый использует «замаскированное внимание» через преобразователь, чтобы предсказать, что должно произойти в видеокадре, на основе звука, исходящего из записанного усилителем аудиосигнала. Вторая нейронная сеть использует диффузию для создания статической последовательности видеокадров, используя движения тела и подсказки выражения лица из первой нейронной сети.

Google

Важнейший смысл этого подхода — соединения прогнозов в единой нейронной сети с изображениями с высоким разрешением — и что делает VLOGGER интересным — это то, что программное обеспечение не просто создает видео, как это делает Сора. ВЛОГГЕР ассоциирует это видео с контролируемыми действиями и выражениями лиц. Реалистичными видео можно манипулировать по мере их появления, как марионетками.

также: Генеральный директор Nvidia Дженсен Хуанг представляет семейство чипсетов нового поколения Blackwell на выставке GTC

«Наша цель — преодолеть разрыв между недавними усилиями по синтезу видео, которые позволяют создавать динамические видеоролики без контроля личности или позы, и контролируемыми методами генерации изображений», — написала команда Corona.

ВЛОГГЕР может быть не только голосовым аватаром, но также выполнять функции редактирования, например, изменять рот или глаза говорящего. Например, человека по умолчанию, который часто моргает в видео, можно изменить на моргающего мало или вообще не моргать. Способ разговора с широким ртом можно сузить до более отчетливых движений губ.

google-2024-vlogger-edited-videos.png

Достигнув способа управления видео высокой четкости с помощью аудиосигналов, VLOGGER открывает путь для манипуляций, таких как изменение движений губ говорящего в каждом сегменте видео, чтобы они отличались от исходного исходного видео.

Видеоблогер

Теперь, когда мы достигли нового уровня прогресса в моделировании человека, вопрос, на который команда Corona не ответила, заключается в том, чего миру следует ожидать от любого неправильного использования технологий. Легко представить, например, что политические деятели говорят что-то совершенно катастрофическое по поводу надвигающейся ядерной войны.

Предположительно, следующим этапом в этой аватарской игре станут нейронные сети, такие как 'Тест Войта-Кампфа«В фильме «Бегущий по лезвию» это может помочь сообществу выяснить, кто из них настоящие ораторы, а кто — просто фальшивки с удивительно живой моралью.



Все новости по теме на сегодня

Google в новостях



Музыкальные новости
Оркестр

Оркестр сыграет под окном. Как встретит День Победы ветеран Жорес Артёмов



Все новости 24/7

Game News

Arrow GO 1.64


Бизнес

Весь бизнес

Культура

Спорт

Политика

Общество

Авторы

Новости тенниса

WTA

WTA огорчила Елену Рыбакину после турнира в Мадриде



BigPot.Newsреально независимые новости по темам (энциклопедический систематизированный навигатор "Википедия новостей 24/7" c ежеминутным тематическим мониторингом интернет-пространства) в форме аполитичного просветительского интернет-журнала на русском языке, без цензуры, на многоязычной международной веб-платформе 123ru.net в содружестве с более чем 20 000 источников информации во всём мире, сайтом News-Life.pro, глобальными гео-проектами Russian.City и Moscow.Media под патронажем Russia24.pro с уникальным персонифицированным новостным разделом "Региональная власть РФ" без купюр и модерации, а также "VIP-скандалы" в двух цветовых вариантах "День - Ночь" (кнопка справа вверху). Эти новости увидят Ваши внуки (наша система обеспечивает вечное хранение опубликованной информации 24/7). Будьте честными сегодня, чтобы было не стыдно завтра.

Опубликовать свою новость в любом городе и регионе, а также на любом языке мира можно мгновенно — здесь


Ria.city

Певец Сергей АРУТЮНОВ и солистка группы Демо - встречаются, или просто выпустили совместный хит “Солнышко”? Разлад АРУТЮНОВА и Маши Малиновской?

Врач Тяжельников: во время магнитных бурь нужно отказаться от фастфуда и кофе

Анна Данилова дала старт Всероссийской акции "Синий платочек Победы" 2024 на станции метро Курская

К.ВАЛИЕВА, 23 КИТАЙЦА, WADA помогают раскрыть сеть секретных преступных отделов. Дело Скрипалей можно дополнить с пользой.

Новости России

В 6-м туре женского «командника» в Сочи шахматная сборная Москвы разгромила краснодарок, а «Сима-ленд» справилась с Татарстаном

Актер Кирилл Сафонов после возвращения жены в РФ уехал к дочери от первого брака

Яков Радченко: Выборы абсолютно объективно показали мощную народную поддержку Владимира Путина

Рука и лапа помощи. Спасатели Москвы закончат подготовку к 20 мая

Экология в России и мире

Аналитическое исследование «585*ЗОЛОТОЙ» показало, сколько тратят на обручальные кольца в 2024 году в разных городах России

Российский турист напился и улегся спать на карнизе второго этажа музея, шокировав прохожих

Техник СЛД «Сольвычегодск» филиала «Северный» ООО «ЛокоТех-Сервис» Алина Леготина стала участником проекта ОАО «РЖД» «Управленческое наставничество»

Концерт ко Дню Победы проведут в Культурном центре «Интеграция» на Лазо

Спорт в России и мире

Рублев о победе на "Мастерсе" в Мадриде: у меня нет слов

Российский теннисист поднялся на две позиции в топ-10 рейтинга ATP

Павлюченкова официально аккредитовала на турнир в Риме двух своих собак

После победы в Мадриде Рублев поднялся с 8-го на 6-е место в рейтинге ATP

Moscow.media

Hybrid открывает собственную школу обучения программатик - специалистов Hybrid AdOps School

Росгвардия приняла участие в обеспечении безопасности при проведении футбольных матчей в Москве

Анна Данилова дала старт Всероссийской акции "Синий платочек Победы" 2024 на станции метро Курская

Готовность дороги от Краснодара до Тамани превысила 50%

Новости Крыма на Sevpoisk.ru

Сотрудники библиотеки №12 им. А.К. Толстого Брянска провели музыкально-литературный вечер к 100-летию со дня рождения поэта Булата Окуджавы

Жанна Агузарова начала петь в подземных переходах

Певица Кристина Орбакайте показала фото с мужем из путешествия по Италии

Певица Айсылу Чижевская передумала разводиться со своим приемным сыном

Губернаторы России

СМИ: Россиян обяжут согласовывать банковские переводы с родственниками

Врач призвала беременных не красить волосы до конца первого триместра

Александр Симонов: С таким Президентом, который чтит, сохраняет и укрепляет веру и силу духа своего народа, хочется учить и воспитывать мощное будущее поколение

Найти золото Ивана Грозного. Что обнаружили археологи в центре столицы?


Все города России от А до Я

Персональные новости
Владимир Путин

Посвященную инаугурации Путина марку начали продавать в главпочтамте Москвы


BigPot.News — быстрые и самые свежие тематические новости об известных личностях в России, в Украине, в Беларусии, в Казахстане и за их пределами в календарном формате 24/7 на основе авторской технологичной информационно-поисковой системы Smi24.net с элементами искусственного интеллекта, гео-отбора и возможностью мгновенной публикации авторского контента в категориях News и Life в режиме Free Public



Больше новостей СЕГОДНЯ


BigPot.News — СРОЧНЫЕ новости. Неоспоримое преимущество BigPot.News — максимальная скорость публикаций 24/7. Быстрее нас, СЕЙЧАС, лишь только — ВЕТЕР)

Опубликовать свою новость в любом городе и регионе, а также на любом языке мира можно мгновенно — здесь