Содержание
как работает и как его включить
Артем Мазанов
переведется все
Профиль автора
Нейросети «Яндекса» больше года переводят на русский язык и озвучивают видео. Они умеют различать разных спикеров в одном ролике и знают пять языков.
Прототип технологии машинного перевода видео и закадровой озвучки в реальном времени «Яндекс» представил в июле 2021 года. Тогда он работал только с отобранными видео на английском языке. Спустя полтора года эта функция — одна из самых полезных в «Яндекс-браузере». Технология позволяет переводить видео уже с пяти языков: английского, французского, испанского, немецкого и итальянского.
Расскажу, как активировать функцию, как она работает и какие проблемы пришлось преодолеть для создания качественной закадровой озвучки нейросетями.
Что вы узнаете из материала
- Зачем нужен закадровый перевод видео
- Как включить закадровый перевод видео
- Как включить перевод прямых трансляций
- Как именно нейросети переводят видео
- Как работает перевод прямых трансляций
Зачем нужен закадровый перевод видео
Контента на русском языке значительно меньше, чем на английском. В ноябре 2022 года во всем интернете насчитывалось больше 1,1 млрд сайтов. Из них на русском — меньше 10%. Англоязычных видео намного больше, чем русскоязычных.
На YouTube можно встретить целые проекты, которые занимаются озвучками иностранных роликов. Но это долго, много видео так не переведешь, к тому же переведенные ролики периодически удаляют за нарушение авторских прав. Англоязычные блогеры и образовательные проекты редко добавляют российскую озвучку — можно вспомнить разве что самого популярного ютубера в мире Mr.Beast. Закадровый перевод от «Яндекс-браузера» решает многие из этих проблем.
Не все даже знают, что на YouTube можно загружать несколько звуковых дорожек
Некоторого полезного контента на русском языке нет вообще. Например, видеороликов, помогающих учиться, развиваться, решать рабочие и профессиональные задачи. Фотографы могут выбрать объектив после просмотра видео, а дизайнеры — графический планшет. Большинство обзоров техники сначала появляется как раз на английском языке.
Некоторые темы вообще трудно найти в русскоязычном сегменте YouTube. Я столкнулся с этим, когда искал сравнение двух фотоаппаратов моментальной печати Polaroid.
/list/youtube-classics/
Фейнман, Канеман и Ростропович: 13 образовательных плейлистов на «Ютубе»
Также в открытом доступе есть много уникального и полезного контента. Например, курсы или лекции от ведущих мировых университетов. Авторы редко переводят такие видео на русский язык. Обычно их можно смотреть максимум с субтитрами. Некоторые наиболее популярные лекции переводят энтузиасты. Но таких видео мало.
Помогает смотреть видео в фоновом режиме. На том же YouTube неплохо обстоит ситуация с субтитрами: они даже генерируются автоматически, в том числе и русскоязычные. Но так сложнее воспринимать видео на незнакомом языке во время готовки или занятий спортом.
К тому же, согласно исследованию Morning Consult, 86% опрошенных россиян предпочитают смотреть контент на стриминговых платформах в дубляже, а не с субтитрами или полностью в оригинале. Это самый высокий показатель среди 15 стран — участниц опроса.
/films-without-dubbing-pros-cons/
За и против: стоит ли смотреть фильмы и сериалы в оригинале
Как включить закадровый перевод видео
В «Яндекс-браузере» на компьютере. Работает сразу же на всех популярных площадках, включая YouTube, Vimeo, TikTok, Twitter, Facebook и «Вконтакте». Заходить на сайты не обязательно — ролики можно переводить прямо в поисковой выдаче. А недавно браузер научился делать закадровую озвучку для курсов на образовательной платформе Coursera.
Соцсеть Facebook принадлежит Meta — организации, деятельность которой признана экстремистской и запрещена на территории РФ
Для пользователя процесс выглядит очень просто. Достаточно открыть ролик в браузере и навести курсор на видео — сразу появится кнопка с предложением активировать озвучку. Сгенерированный перевод можно включать и выключать на любом отрезке видео.
Иконка быстро пропадает и не мешает смотреть видео. Источник: youtube.com
Технология приглушает оригинальную озвучку и поверх накладывает сгенерированную речь. Мужские голоса озвучиваются мужским голосом, женские — женским. Технология умеет распознавать нескольких спикеров на одном видео, у каждого из них будет свой голос озвучки, чтобы зрители не запутались.
В настройках, которые доступны рядом с иконкой перевода, можно регулировать громкость оригинальной дорожки и включить субтитры. Некоторые видео технология переводит сразу же, потому что другие пользователи переводили их раньше. Для перевода других роликов придется подождать несколько минут. Когда ролик с русской озвучкой будет готов к просмотру, пользователю придет уведомление.
/my-smart-house-with-alice/
Сам написал код и распечатал гаджеты на 3D-принтере: как я организовал работу умного дома
Примерное время перевода видео указывается в плеере. Если этой информации нет, то видео уже перевелось
Продолжительность выбранного видео не должна превышать четыре часа. Перевод работает только на платформах, где не требуется лицензирование контента. Например, перевести сериал на «Нетфликсе» не получится.
В приложении «Яндекса» на смартфоне. Здесь все то же самое, что и на компьютере. Встроить закадровый перевод прямо в приложение YouTube нельзя, но ролик можно открыть в браузере «Яндекса».
Иконка с переводом появится сразу под видео, если пропадет — нажмите на ролик.
На смартфонах настроек меньше: например, нельзя регулировать громкость оригинальной дорожки
В других браузерах на компьютере. Официально закадровый перевод «Яндекса» не поддерживается в других браузерах. Но есть неофициальные способы перенести функцию в Google Chrome или Safari.
Мы не приводим ссылки, так как скрипты разработаны третьими лицами — используйте на свой страх и риск.
Как включить перевод прямых трансляций
Перевод прямых трансляций запустили в августе 2022 года. Он работает в тестовом режиме: технология синхронного перевода и озвучки сложнее, чем в случае с готовыми роликами.
Переводить можно только стримы на некоторых ютуб-каналах. Например, запуски SpaceX и NASA, анонсы от Apple и выступления с конференций TED.
Для пользователя перевод прямых трансляций не отличается от перевода видео. Нужно нажать на ту же кнопку во всплывающем окне, и спикеры начнут разговаривать на русском языке.
Как именно нейросети переводят видео
Как именно работает технология и какие проблемы пришлось решать, мне рассказал руководитель перевода видео в «Яндекс-браузере» Сергей Корбан.
Когда началась работа над переводом видео, у браузера уже были нейросети, которые умеют переводить речь в текст и озвучивать текст с помощью синтеза речи. Они используются в других продуктах: например, голосовой помощник «Алиса» слушает человека и распознает его слова, а модуль для распознавания речи конвертирует слова в текст.
/yandex-station2-review/
Обзор «Яндекс-станции 2» с Алисой: пока что лучшей колонки для управления умным домом
Эти технологии и взяли за основу при разработке перевода видео. Но время работы над первой версией технологии команда столкнулась с некоторыми проблемами:
- Нейросети при переводе не очень хорошо улавливали контекст, поэтому их дополнительно обучали на корпусах текстов разных тематик. Первая версия лучше всего переводила экономические, литературные темы и научные статьи. Сейчас технология хорошо справляется с биологией и физикой, но с другими темами периодически возникают сложности, например с игровыми стримами — в них особенная лексика.
- Нейросети умели только определять пол спикера — и то не всегда. В новой версии технология уже может распознавать голоса разных спикеров в одном видео и их пол. Благодаря этому несколько спикеров одного пола озвучиваются разными голосами. Это голоса реальных людей, на которых нейросеть научилась синтезировать озвучку.
- Перевод нужно было уместить на ту же звуковую дорожку, что и оригинал. При этом длина одной и той же фразы, произнесенной на разных языках, может различаться. Например, в русском языке фразы обычно длиннее, чем в английском. Чтобы озвучка попала в слова, нейросеть, которая отвечает за синтез речи, ускоряет или замедляет речь и делает паузы.
Пример спектрограммы человеческого голоса. Источник: «Яндекс»
Все эти проблемы решены в текущей версии технологии перевода видео. За это отвечают сразу шесть нейросетей.
Первая нейросеть на стороне переводчика определяет язык спикеров. Если они говорят на языке, который поддерживается, браузер предложит перевести видео.
Вторая нейросеть переводит речь спикеров в текст. Модель получает аудиодорожку, из нее она должна вычистить все посторонние звуки. Модель умеет избавляться от слов-паразитов. После всех обработок остается последовательный набор слов — с ним будут работать другие нейросети.
/chatgpt/
ChatGPT: как пользоваться нейросетью и что она умеет
Пример того, как нейросеть переводит речь в текст. Источник: «Яндекс»
Третья нейросеть нормализует текст и расставляет знаки препинания. Нормализация — это преобразование текста в одну нормальную словарную форму.
Например, расшифровка сокращений. На этом этапе последовательность слов также нарезается в предложения. При их составлении модель должна сохранить изначальный смысл.
Сверху показано, какой текст нейросеть получает на входе, а снизу — как она делает из этого набора слов предложения. Источник: «Яндекс»
Четвертая нейросеть определяет, сколько спикеров на видео и какой у них голос — мужской или женский. Это нужно, чтобы на другом этапе каждому спикеру присвоить свой голос.
Определить пол можно по частоте голоса: у мужчин это 80—150 Гц, у женщин — 150—250 Гц. Также помогают и местоимения, которые произносит другой спикер.
Источник: «Яндекс»
Пятая нейросеть переводит полученный текст на русский язык. Вместе с текстом модель получает информацию о спикерах, чтобы правильно расставить местоимения.
Шестая нейросеть синтезирует речь. На этом этапе нужно избежать рассинхрона, потому что перевод предложения может оказаться в несколько раз длиннее оригинала. Иногда помогают паузы спикеров, в эти моменты можно уложить перевод. Но иногда приходится ускорять речь.
Как работает речевой синтез. Источник: «Яндекс»
Как работает перевод прямых трансляций
С точки зрения технологий перевод стрима и перевод записанного видео — две принципиально разные задачи. Перевод потоковых видео построен на другой архитектуре, но работает с теми же моделями.
Переводить потоковые видео сложнее. Нужно одновременно решать две противоречивые задачи — поддерживать качество перевода и не отставать от речи спикеров. При переводе обычных роликов нейросети получают аудиодорожку сразу целиком. У них есть время ее проанализировать, разбить речь на предложения и синтезировать озвучку на русском языке.
Во время работы с прямыми трансляциями такого запаса времени нет — технология работает почти как синхронный переводчик. Чтобы задержка в переводе была небольшой, на помощь приходит нейросеть, которая расставляет в тексте знаки препинания. Это помогает понять, где начинается и заканчивается предложение, найти составные части сложносочиненного предложения, вводные фразы, перечисления и так далее.
/video-support/
Какое видео вам нужно посмотреть прямо сейчас?
После того как знаки препинания расставлены, нейросеть выделяет из текста части, содержащие законченную мысль. Именно они отправляются на перевод, который затем синтезируется и накладывается поверх оригинальной аудиодорожки. Так браузер находит оптимальный баланс между скоростью перевода и его качеством.
Задержка перевода ютуб-трансляций составляет от 30 до 50 секунд. Также в переводе стримов пока используются только два голоса — мужской и женский. Поддержки мультивойса нет.
Что в итоге
- Перевод и закадровая озвучка видео в «Яндекс-браузере» — полезный инструмент для тех, кто плохо знает иностранные языки и не хочет смотреть видео с субтитрами, даже если они есть.
- Нейросеть генерирует закадровую озвучку для роликов на пяти языках и некоторых прямых трансляций на YouTube. Технология не только переводит речь, но и различает спикеров на видео, а также синтезирует разную озвучку для участников видео одного пола.
- Если смотреть на технологию изнутри, то озвучкой в «Яндекс-браузере» занимается не одна нейросеть, а целых шесть. Все они дополняют друг друга.
- Функция работает только в «Яндекс-браузере», но есть способы перенести ее в Chrome или Safari с помощью скрипта.
Мы постим кружочки, красивые карточки и новости о технологиях и поп-культуре в нашем телеграм-канале. Подписывайтесь, там классно: @t_technocult.
Страница не найдена
Как получить компенсацию по советскому вкладу
30 подмосковных усадеб, в которых вам стоит побывать
Как должна приходить повестка по новым правилам
Какие страны открыты для туристов из России
Всем интересно
См. все
Дневники трат
Инвестиции для начинающих
Финансовая подушка
Льготы от государства
Как снять квартиру
Как погасить кредит
Дневники трат
Инвестиции для начинающих
Финансовая подушка
Льготы от государства
Как снять квартиру
Как погасить кредит
См. все
Сколько стоят монеты в вашем кошельке
Плохая медицина и сложности с социализацией: почему мы решили уехать из Канады
Как выйти на пенсию раньше
Куда можно уехать из России
Купить новостройку: как выбрать надежного застройщика
Как пользоваться Midjourney для генерации рисунков и правильно составлять запросы
Шорты
12 городов мира, в которых дешевле всего жить
Посылка застряла на таможне. Что делать?
541691+00:00″ itemprop=»datePublished»>14.02.23
Как оформить договор купли-продажи автомобиля
Жильцы больше не должны сообщать о поверке счетчиков в УК и ТСЖ. Так решил Верховный суд
Как мужчина пришел за пенсией, которую не снимал много лет. Но получать было нечего
Как рисуют нейросети: 12 интересных сервисов
Лучшее за полгода
См. все
Правила въезда в Турцию для россиян в 2023 году
945185+00:00″ itemprop=»datePublished»>16.01.23
Как получить грин-карту США
Как меня обманули на 15 000 ₽ с «Авито-доставкой»
Как правильно подобрать презерватив: подробная инструкция
Как рассчитать декретные выплаты
Как я заказал машину из Японии
Единое пособие на детей до 17 лет в 2023 году: условия, размер выплат
667367+00:00″ itemprop=»datePublished»>05.12.22
Нейросеть рисует аниме: как обработать фото с помощью Different Dimension Me
Как стать почетным донором крови
Куда можно уехать из России
Как зарегистрировать автомобиль в ГИБДД
Что такое кредитная история
Как получить компенсацию по советскому вкладу
967545+00:00″ itemprop=»datePublished»>25.01.23
Как пользоваться Midjourney для генерации рисунков и правильно составлять запросы
Сколько стоят монеты в вашем кошельке
Подозрительно: массовые смс с кодами активации от разных сервисов
Курсы помогут
См. все
Озеленить дом
Победить выгорание
Выбрать квартиру
Улучшить жизнь с помощью «Экселя»
Заработать на акциях
Начать инвестировать
Разобраться в благотворительности
Путешествовать безопасно
Зарабатывать на кредитке
673391+00:00″ itemprop=»datePublished»>14.08.20
Не прогадать с ипотекой
Защититься от мошенников
Не разориться на здоровье
Сортировать мусор
Рулить тачкой
Завести собаку
Быть самозанятым
330958+00:00″ itemprop=»datePublished»>14.08.20
Жить в России
Практическое руководство по нейронному машинному переводу
За последние два года нейронные модели, основанные на последовательном преобразовании внимания, стали последним достижением в области машинного перевода, намного превосходя по точности системы фразового перевода во многих сценариях. . Однако эти системы нейронного машинного перевода (NMT) не лишены своих трудностей: обучение модели на крупномасштабном наборе данных часто может занять недели, и они, как правило, намного медленнее во время декодирования, чем хорошо оптимизированная фразовая система. Кроме того, надежное обучение этих моделей часто опирается на определенные «рецепты», которые недостаточно хорошо объяснены или обоснованы в литературе. В докладе я опишу ряд приемов и приемов, позволяющих существенно ускорить обучение и декодирование крупномасштабных систем NMT. Эти методы, которые варьируются от алгоритмических до инженерных, сократили время, необходимое для обучения крупномасштабного NMT, с двух недель до двух дней, и повысили скорость декодирования, чтобы она соответствовала скорости хорошо оптимизированной системы фразового машинного перевода. Кроме того, я попытаюсь дать эмпирическое и интуитивное обоснование многим решениям, касающимся архитектуры, оптимизации и гиперпараметров. Хотя этот доклад в первую очередь будет посвящен NMT, описанные здесь методы следует обобщить на ряд других моделей, основанных на последовательных и рекуррентных нейронных сетях, таких как генерация титров и агенты диалога.
- Серия:
Обсуждение исследований Microsoft
- Дата:
- Динамики:
- Джейкоб Девлин
- Принадлежность:
- Майкрософт
Панель карьеры WiDS: Габриэла де Кейрос, Джульетта Хоугланд и Саманта Сифлит
Динамики:
- Габриэла де Кейрос,
- Джульет Хогленд, 9 лет0044
- Саманта Силфлит
[PDF] Перевод видео на естественный язык с помощью глубоких рекуррентных нейронных сетей0044
@inproceedings{Venugopalan2014TranslatingVT, title={Перевод видео на естественный язык с помощью глубоких рекуррентных нейронных сетей}, автор = {Субхашини Венугопалан, Хуэйцзюань Сюй, Джефф Донахью, Маркус Рорбах, Рэймонд Дж. Муни и Кейт Саенко}, booktitle={Североамериканское отделение Ассоциации компьютерной лингвистики}, год = {2014} }
Решение проблемы заземления визуальных символов долгое время было целью искусственного интеллекта. Похоже, что эта область приближается к этой цели благодаря недавним прорывам в области глубокого обучения для естественного языка, основанного на статических изображениях. В этой статье мы предлагаем переводить видео непосредственно в предложения, используя единую глубокую нейронную сеть как со сверточной, так и с рекуррентной структурой. Описанных наборов видеоданных мало, и большинство существующих методов применялись к игрушечным доменам с…
Посмотреть в ACL
arxiv.org
Богатое визуальное и языковое представление с дополнительной семантикой для видеотитров естественные описательные предложения, основанные на видеоконтенте.
Система создания субтитров к видео на основе внимания для хинди
- Алок Сингх, Тудам Дорен Сингх, Шиваджи Бандйопадхьяй
Информатика
Мультим. Сист.
- 2022
В этой работе используется гибридный механизм внимания, расширяющий механизм мягкого временного внимания семантическим вниманием, чтобы система могла решать, когда сосредоточить внимание на векторе визуального контекста и семантическом вводе.
SibNet: одноуровневый сверточный кодировщик для создания субтитров к видео
- Шэн Лю, Чжоу Рен, Джунсун Юань
Информатика
ACM Multimedia
- 2018
В этой работе представлен новый Sibling Convolutional Encoder (SibNet) для визуальных субтитров, который использует двухветвевую архитектуру для совместного кодирования видео и демонстрирует, что предлагаемый SibNet последовательно превосходит существующие методы по различным показателям оценки.
Иерархические и мультимодальные субтитры к видео: обнаружение и перенос мультимодальных знаний для зрения на язык
- Анан Лю, Н. Сюй, Юнкан Вонг, Джуннан Ли, Ютин Су, М. Канканхалли
Информатика
Вычисл. Вис. Изображение Понимание.
- 2017
Обучение обобщению новых композиций при понимании образов
- Ю. Ацмон, Джонатан Берант, Вахид Кезами, А. Глоберсон, Галь Чечик
Информатика 30 Xiv
44
- 2016
Утверждается, что структурированные представления и композиционные разделения являются полезным эталоном для подписей к изображениям и поддерживают композиционные модели, которые отражают языковую и визуальную структуру.
Семантическая расширенная сеть кодировщика-декодера (SEN) для видеотитров
Семантическая расширенная сеть кодировщика-декодера, которая реализует стратегию слияния трех путей на стороне кодировщика, которая сочетает в себе дополнительные функции и использует идею обучения с подкреплением для расчета вознаграждения на основе семантические расчеты.
Обучение обобщенной видеопамяти для автоматического создания видеотитров
- Пу-Хи Чанг, А. Тан
Информатика
MIWAI
- 2018
Основанная на классе самоорганизующихся нейронных сетей модель GVM способна постепенно изучать новые функции видео и демонстрирует свою конкурентоспособность по сравнению с другими современными методами.
Сверточные подписи к изображениям
В этом документе разрабатывается метод сверточных подписей к изображениям, который демонстрирует эффективность на сложном наборе данных MSCOCO и демонстрирует производительность на уровне базового уровня LSTM, но при этом имеет более быстрое время обучения по ряду параметров.
Описание видео на естественном языке с использованием NetVLAD и Attentional LSTM
С помощью достижений в области технологии глубокого обучения была разработана модель для создания описаний действий в видео на естественном языке путем извлечения ключевых функций для машинного понимания о видео. видеоконтент с использованием 2D и 3D CNN.
Преобразование видео в команды для роботизированных манипуляций с помощью глубоких рекуррентных нейронных сетей
Продемонстрировано, что точность перевода можно повысить, обеспечив плавную транзакцию между двумя уровнями RNN и используя современное средство извлечения признаков.
Покажи и расскажи: нейронный генератор подписей к изображениям
В этой статье представлена генеративная модель, основанная на глубоко рекуррентной архитектуре, которая сочетает в себе последние достижения в области компьютерного зрения и машинного перевода и может использоваться для создания естественных предложений, описывающих изображение.
Объединение визуально-семантических вложений с мультимодальными нейронными языковыми моделями
- Райан Кирос, Р. Салахутдинов, Р. Земель
Информатика
ArXiv
- 2014
В этой работе представлена нейроязыковая модель структура-содержание, которая отделяет структуру предложения от его содержания в зависимости от представлений, создаваемых кодировщиком, и показывает, что с линейными кодировщиками изученное пространство встраивания фиксирует мультимодальные закономерности в термины арифметики векторного пространства.
Последовательное обучение с помощью нейронных сетей
- Илья Суцкевер, Ориол Виньялс, Куок В. Ле
Информатика
NIPS
- 2014
В этом документе представлен общий сквозной подход к изучению последовательностей, который делает минимальные предположения о структуре последовательности и обнаруживает, что изменение порядка слов во всех исходных предложениях улучшило производительность LSTM. заметно, потому что это вводило много краткосрочных зависимостей между исходным и целевым предложением, что облегчало задачу оптимизации.
Интеграция языка и видения для создания описаний видео на естественном языке в дикой природе
- Джесси Томасон, Субхашини Венугопалан, С. Гуадаррама, Кейт Саенко, Р. Муни
Информатика
COLING
- 2014
для объединения визуальных обнаружений с языковой статистикой и использует современные системы визуального распознавания для получения достоверной информации об объектах, действиях и сценах, присутствующих в видео.
Перевод видеоконтента в описания на естественном языке
Этот документ создает богатое семантическое представление визуального контента, включая, например. маркирует объекты и действия и предлагает сформулировать генерацию естественного языка как задачу машинного перевода, используя семантическое представление в качестве исходного языка и сгенерированные предложения в качестве целевого языка.
Долгосрочные рекуррентные сверточные сети для визуального распознавания и описания
Новая рекуррентная сверточная архитектура, подходящая для крупномасштабного визуального обучения, которая поддается сквозному обучению и показывает, что такие модели имеют явные преимущества по сравнению с современными моделями. художественные модели для распознавания или генерации, которые определяются и/или оптимизируются отдельно.
Объяснение изображений с помощью мультимодальных рекуррентных нейронных сетей
- Цзюньхуа Мао, В. Сюй, И Ян, Цзян Ван, А. Юйлле
Компьютерные науки
ArXiv
- 2014 9004 9004 Модель RNN напрямую моделирует распределения вероятностей генерации слова с учетом предыдущих слов и изображения, а также обеспечивает значительное улучшение производительности по сравнению с современными методами, которые напрямую оптимизируют целевую функцию ранжирования для поиска.
Тысяча кадров всего в нескольких словах: языковое описание видео с помощью скрытых тем и сшивки разреженных объектов
В этом документе предлагается гибридная система, состоящая из низкоуровневой мультимодальной модели скрытой темы для начальной аннотации ключевых слов и среднего уровня детекторов понятий. и модуль высокого уровня для создания окончательных языковых описаний, который фиксирует наиболее релевантное содержание видео в описании на естественном языке.
Совместное моделирование глубокого видео и композиционного текста для объединения видения и языка в единой структуре
- Ran Xu, Caiming Xiong, Wei Chen, Jason J.
- Ran Xu, Caiming Xiong, Wei Chen, Jason J.