Содержание
«Яндекс» запустил функцию закадрового перевода для всех англоязычных видео
«Яндекс» запустил функцию закадрового перевода для всех англоязычных видео — Российская газета
Свежий номер
РГ-Неделя
Родина
Тематические приложения
Союз
Свежий номер
Рубрика:
ТехнологииЯндекс
07.09.2021 10:00
Иван Черноусов
iStock
Пользователям «Яндекс.Браузера» и в мобильных приложениях стал доступен закадровый перевод видео с английского языка. Поддерживаются как мужской, так и женский голос, сообщается в пресс-релизе «Яндекса».
Перевод происходит в несколько этапов. Сначала ИИ распознает речь, превращает ее в текст и с помощью нейросетей разбивает на предложения. Потом определяет пол говорящего, переводит предложения на русский язык и синтезирует голос. Остается совместить перевод с видеорядом. Это совсем не тривиальная задача, потому что в русском языке предложения длиннее, чем в английском. Здесь на помощь снова приходят нейросети.
Поэтому процесс перевода занимает несколько минут — для этого нужно поставить видео на паузу и подождать. Как только все будет готово, пользователю придет соответствующее уведомление.
Согласно заявлению компании, поддерживаются любые англоязычные видео на YouTube, Vimeo и других популярных платформах. Перевод доступен в «Яндекс.Браузере» для Windows, macOS, Linux и Android и в мобильном приложении для Android и iOS.
Поделиться:
13:18Происшествия
Почему злоумышленники стали массово использовать мессенджеры
05:30Digital
Владельцы смартфонов сталкиваются со сбоями в навигации. В чем причина и как с этим справиться
05.11.2022Digital
Битва с боссом-колобком: опубликовано 10 минут геймплея Atomic Heart
04.11.2022Digital
Вышел русский трейлер God of War Ragnarok со Стиллером и Траволтой
04.11.2022Digital
Apple дарит два месяца подписки Apple TV+ к премьере фильма Селены Гомес
04. 11.2022Digital
Игра Assassin’s Creed Valhalla может появиться в Steam
04.11.2022Digital
Представлен трейлер кооперативного шутер-хоррора Sker Ritual
04.11.2022Digital
Игру Sonic Frontiers полностью слили на пиратские ресурсы
04.11.2022Digital
В Сеть утекло видео геймплея Overdose — новой игры Хидэо Кодзимы
04.11.2022Digital
Вышел релизный трейлер психологического хоррора The Chant
04.11.2022Digital
В EGS снова бесплатно и навсегда раздают сразу две игры
04.11.2022Digital
Хидэо Кодзима «открестился» от игры Abandoned
04.11.2022Digital
Создатели Sonic Frontiers показали новый геймплейный трейлер
04.11.2022Digital
Авторы Forspoken в отдельном видео показали способности главной героини
04. 11.2022Digital
Игру Warhammer: Vermintide 2 бесплатно раздают в Steam
03.11.2022Digital
Вышел трейлер «мультяшного» хоррора Bendy and the Dark Revival
Главное сегодня:
«Яндекс Браузер» теперь предлагает видео на иностранных языках по запросу на русском и сразу их переводит / Хабр
denis-19
Поисковые технологии *Работа с видео *Браузеры Машинное обучение *IT-компании
Поисковый сервис «Яндекса» научился обогащать выдачу видеороликами на иностранных языках сразу с голосовым переводом на русский язык. Если ввести запрос на сайте по-русски, то помимо русскоязычных видео в результатах поиска появятся и релевантные зарубежные ролики.
Опция поиска по-русски контента на иностранном языке и просмотра его с закадровым переводом доступна в «Яндекс Браузере» и в приложении «Яндекса».
Допустим, пользователь хочет найти рецепт гратена в исполнении французского шеф-повара. Ранее нужно было перевести запрос на французский, ввести его в поиске, а потом преодолеть трудности перевода и разобраться, какой из результатов выдачи лучше подходит. Теперь с этим поможет Яндекс. По запросу в поиске или в поиске по видео, например «рецепт лазаньи видео», в выдаче появится специальный блок — «Нейросети переведут и озвучат». Там можно найти ролики на иностранных языках с закадровым переводом. Это позволит смотреть видеоконтент, которого просто нет на русском языке, например, обзор свежих продуктов Apple или смартфона Nothing Phone (1).
В разделе «Видео» в «Яндекс Браузере» появился фильтр для иностранных роликов с закадровым переводом. Там можно выбрать только видео на иностранных языках, которые переведёт браузер. Названия всех роликов можно перевести с помощью нейросетей – для этого также нужно выбрать соответствующую настройку в фильтрах. У всех переведенных роликов появится дисклеймер.
«Мы продолжаем стирать языковые границы в интернете. Яндекс становится проводником в мир качественного и разнообразного иностранного контента: от реалити-шоу до познавательных лекций. Уже сейчас видео на пяти языках можно смотреть с русским закадровым переводом в Яндекс Браузере. Теперь же мы упростили и поиск видео за пределами рунета», — пояснил директор бизнес-группы Поиска и рекламных технологий Яндекса Пётр Попов.
5 августа «Яндекс» запустил синхронный перевод прямых трансляций в собственном браузере. Функция пока работает в режиме открытого бета-тестирования и доступна только для некоторых каналов с трансляциями на YouTube.
Теги:
- яндекс
- перевод
- видео
- трансляция
- закадровый перевод
- яндекс браузер
Хабы:
- Поисковые технологии
- Работа с видео
- Браузеры
- Машинное обучение
- IT-компании
Всего голосов 6: ↑4 и ↓2 +2
Просмотры
1. 2K
Комментарии
1
Денис
@denis-19
Информационная служба Хабра
Комментарии
Комментарии 1
Яндекс запускает голосовой перевод с помощью нейросетей
7 сентября Яндекс представил новый инструмент — автоматизированный голосовой перевод англоязычных видео с YouTube, Vimeo, Facebook и других сайтов на русский язык. Он доступен через Яндекс.Браузер, что позволяет работать с видео, размещенными на любом сайте.
Перевод занимает всего пару минут: нейросети Яндекса обрабатывают речь, превращают ее в текст, синтезируют русский перевод и синхронизируют с видео. Они также умеют определять пол говорящего с помощью биометрии и выбирать соответствующий голос. При этом такие характеристики речи, как эмоции, интонации, паузы, членение фраз, должны оставаться прежними.
ИТМО.NEWS взяли интервью у Законова Андрея, экс-руководителя проектов Яндекса «Алиса» и «Умные устройства», выпускника факультета информационных технологий и программирования Университета ИТМО (бывший факультет компьютерных технологий — -е изд. ), который придумал идею для переводчика озвучивания и запустил проект в Яндекс.
Я был главой команды Alice and Smart Devices, и этот новый продукт тоже родился там. Сначала мы создали первоначальный прототип, а затем стали приглашать коллег из других отделов для формирования новой команды. Я был его частью до его пилотного запуска в июле 2021 года. Сейчас проект взяла на себя команда Яндекс.Браузера, а я занят новым проектом в другой компании. Так что могу рассказать об идее продукта и процессе работы над ним вплоть до запуска бета-версии — не знаю, что планируется по проекту дальше.
Аналогичные задачи мы решали при работе над Алисой — нужно было научить ее распознавать человеческую речь и делать это быстро. За доли секунды он должен распознать речь, обработать, обобщить, интерпретировать ее и понять вопрос, а также найти ответ в сети и затем поделиться им вслух. Задача очень сложная, мы работали над ней несколько лет и в итоге сумели выйти на общение почти в реальном времени — это очень похоже на общение с человеком.
Тем временем команда Яндекс.Переводчика научилась переводить с английского на русский и делает это хорошо. Нейросеть не переводит отдельные слова, а распознает контекст, фразы и абзацы.
Итак, когда мы начали думать о том, как развивать нашу технологию, мне пришла в голову идея автоматического перевода видео. В принципе, необходимые технологии у нас уже были: мы умеем распознавать текст и голос, хорошо его переводить, а также синтезировать речь, чтобы сделать ее более человечной, эмоциональной и с правильными интонациями.
Осталось решить, как сделать инструмент максимально удобным для пользователей и разработать конечный продукт так, чтобы им не нужно было заходить на отдельный сайт, вставлять ссылку и ждать результата. Именно тогда к нам присоединилась команда Яндекс.Браузера, потому что браузер был лучшим решением, позволившим нам объединить все наши технологии.
Достаточно большая проблема, которую мы только начали разрабатывать. Изначально мы хотели, чтобы он повторял интонации оригинального трека, как это делают профессиональные переводчики и актеры озвучивания. Цель — сделать процесс просмотра видео приятным и комфортным. Эмоции, интонации, паузы и так далее должны оставаться в переводе.
Эмоции через текст не понять – это речь, которая содержит иронию, сарказм, радость, раздражение и т.д. и поэтому для определения эмоций приходится использовать оригинальный трек. Но это больше похоже на планы на будущее.
Дело не только в том, чтобы просто прочитать все слова, это сложнее. В противном случае актеру пришлось бы записывать все русские слова — это огромный объем работы. Более того, постоянно появляются новые слова, термины и названия. Или, к примеру, Яндекс.Навигатор — там бесчисленное множество названий сел, улиц, топонимов и т. д.
Поэтому мы поступаем иначе – используем фонемы или даже их фрагменты, а затем формируем из них слова и предложения. Эмоции также добавляются во время постобработки. Одну и ту же фразу можно генерировать с разными эмоциями, а также с разной скоростью, чтобы она соответствовала звучанию видео — это тоже делается при постобработке.
Возьмем, к примеру, технологию переноса стиля — она очень популярна в области обработки изображений. Любую фотографию можно превратить в картину, похожую на картину Ван Гога или Сальвадора Дали, за счет наложения определенного стиля на изображение. То же самое можно сделать и с голосом: можно обучать модели на наборе данных фразами, произносимыми с радостью или грустью, и в итоге получить возможность передавать определенную эмоцию в синтезированную речь. Это очень интересная область речевых технологий, но пока она только начинает развиваться.
В текущей версии биометрия используется только для определения пола говорящего и выбора мужского или женского голоса. Следующий шаг — добавить больше типов голосов и научить модель их различать. Каждый голос, как и лицо, уникален и имеет узнаваемые черты.
Мы запустили интересную сопутствующую функцию в наших умных колонках: Алиса понимает, разговаривает ли с ней ребенок, и автоматически вводит возрастные ограничения, выбирает более смешные ответы и менее формальна.
Я много экспериментировал с разными видео. Есть жанры, в которых эта технология еще не работает должным образом. Хорошо работает, когда один спикер представляет что-то в формате лекции или несколько спикеров говорят в интервью. Но хуже работает, если много сленговых слов или эмоций. Например, популярный нынче жанр стриминга видеоигр часто включает в себя множество специфических слов и резкие бессвязные выкрики. Или какие-то влоги, где люди склонны говорить очень эмоционально.
Также плохо работает, когда несколько человек разговаривают одновременно. Перевод будет прочитан вслух в один голос, поэтому несколько говорящих сольются в один.
Факторов много. Во-первых, в англоязычных странах эта технология менее востребована, потому что контента на английском гораздо больше, чем на любом другом языке. Во-вторых, сейчас подходящий момент для появления такой технологии. Пять лет назад пользовательского контента было значительно меньше. Десять лет назад в таком инструменте не было необходимости, потому что большая часть видеопроизводства была профессиональной, что требовало больших денег, поэтому также был предоставлен профессиональный перевод.
В наше время ежедневно появляются тысячи отличных видео на разных языках и перевести их быстро и недорого невозможно. Это трудоемкая и сложная задача.
В России большой спрос на англоязычный контент. Меня лично больше всего интересует образовательная информация, а в любой сфере, будь то IT, искусство или что-то еще, контента на английском гораздо больше.
При этом около 5% населения России свободно владеет английским языком, по данным ВЦИОМ. Поэтому немногие люди могут слушать лекции в Гарварде или Стэнфорде без перевода. Субтитры тоже не лучший вариант — гораздо приятнее слушать лекции с закадровым переводом.
И еще один важный момент — для создания такого инструмента с нуля требуется множество технологий. Вам нужно распознавание голоса, синтез, биометрия и перевод. К счастью, у Яндекса все это уже есть. Более того, они находятся в эксплуатации и готовы к применению на полную мощность. В мире мало компаний с таким развитым набором технологий.
Вернуться к началу
Перевод прямых трансляций через Яндекс Браузер: принципы и отличия от дубляжа видео по запросу | Сергей Дуканов | Яндекс
Мы уже говорили о том, как работает автоматический перевод и озвучивание видео в Яндекс.Браузере. Пользователи просмотрели 81 миллион видеороликов с озвученным переводом за первые десять месяцев после релиза. Механизм работает по запросу: как только пользователь нажимает на кнопку, нейросеть получает всю звуковую дорожку, а дублированный перевод на язык пользователя появляется через несколько минут.
Но этот способ не подходит для прямых трансляций, где нужно переводить практически в реальном времени. Именно поэтому мы просто запустили отдельный, более сложный механизм трансляции прямых трансляций в Яндекс.Браузере. Анонсы устройств, спортивные соревнования, вдохновляющие космические запуски — все это и многое другое теперь можно смотреть на целевом языке в прямом эфире. Производственная версия в настоящее время поддерживает перевод только на русский язык, а английский язык появится этой осенью. Также на данный момент озвучка доступна для ограниченного набора потоков YouTube: вы можете найти полный список в конце этой статьи. В будущем мы, конечно же, откроем эту функцию для всех прямых трансляций YouTube. Нам пришлось перестраивать всю архитектуру с нуля, чтобы адаптировать механизм трансляции для потоков.
С инженерной точки зрения перевод и дублирование прямых трансляций — сложная задача. Здесь сталкиваются два противоречивых требования. С одной стороны, вам нужно скормить модели как можно больше текста за раз, чтобы нейронная сеть понимала контекст каждой фразы. С другой стороны, необходимо минимизировать задержку; иначе «прямой эфир» перестанет быть таковым. Поэтому мы должны начать переводить как можно скорее: не в режиме настоящего синхронного перевода, но очень близко к нему.
Мы разработали новую услугу на основе существующих алгоритмов для быстрого и качественного перевода и дублирования прямых трансляций. Новая архитектура позволила уменьшить задержку без потери качества.
Вкратце принцип работы прямой трансляции сводится к пяти моделям машинного обучения. Одна нейросеть отвечает за распознавание речи звуковой дорожки и преобразует ее в текст. Второй движок определяет пол говорящих. Третий разбивает текст на предложения, расставляя знаки препинания и определяя, какие части текста содержат законченные мысли. Четвертая нейросеть переводит полученные куски. Наконец, пятая модель синтезирует речь на целевом языке.
На бумаге все выглядит просто, но если копнуть глубже, можно обнаружить множество подводных камней. Давайте рассмотрим этот процесс более подробно.
На начальном этапе нужно точно понимать, о чем идет речь в эфире, и определить, когда произносятся слова. Мы не просто переводим речь, но и накладываем результат обратно на видео в нужные моменты.
Глубокое обучение — идеальное решение проблемы ASR (автоматического распознавания речи). Архитектура нейронной сети должна допускать сценарий использования прямой трансляции, когда необходимо обрабатывать звук по мере его поступления. Такое ограничение может повлиять на точность предсказания, но мы можем применить модель с некоторой задержкой (несколько секунд), что придает модели некоторый контекст.
Видео могут содержать посторонние шумы и музыку. Кроме того, люди могут иметь разную дикцию или говорить с разным акцентом и скоростью. Говорящих может быть много, и они могут кричать, а не говорить на умеренной громкости. И, конечно же, нужно поддерживать богатый словарный запас, ведь возможных тем видео очень много. Таким образом, сбор данных, необходимых для обучения, играет ключевую роль.
На вход алгоритм получает последовательность звуковых фрагментов, берет N из них с конца, извлекает акустические признаки (спектрограмму MEL) и подает результат на вход нейронной сети. Он, в свою очередь, выдает набор последовательностей слов (так называемых гипотез), из которых языковая модель — текстовая часть нейронной сети — выбирает наиболее правдоподобную гипотезу. Когда поступает новый фрагмент аудио, процесс повторяется.
Полученную последовательность слов необходимо перевести. Качество пострадает, если вы будете переводить слово за словом или фразу за фразой. Если вы дождетесь длинной паузы, означающей конец предложения, произойдет значительная задержка. Поэтому необходимо группировать слова в предложения, чтобы избежать потери смысла или слишком длинных предложений. Одним из способов решения этих проблем является использование модели восстановления пунктуации.
С появлением трансформеров нейронные сети стали намного лучше понимать смысл текста, отношения между словами и закономерности языковых конструкций. Вам нужен только большой объем данных. Для восстановления пунктуации достаточно взять корпус текстов, подать текст без знаков препинания на вход нейронной сети и научить сеть исправлять его обратно.
Текст поступает на вход нейросети в токенизированном виде; обычно это токены BPE. Такое разбиение не слишком мало, чтобы предотвратить удлинение последовательности, но и не слишком велико, чтобы избежать проблемы отсутствия словарного запаса, когда токен отсутствует в глоссарии. На выходе модели каждое слово имеет последующую метку, которая отмечает, какой знак препинания следует поставить.
Необходимо установить некоторый ограниченный контекст, чтобы обеспечить правильную работу в условиях прямой трансляции. Размер этого контекста должен найти компромисс между качеством и задержкой. Если мы не уверены, нужно ли разбивать предложения в данном конкретном месте, мы можем немного подождать, пока не появятся новые слова. Тогда мы либо лучше определим разбиение, либо превысим контекстный предел и будем вынуждены разбиваться там, где мы лишь немного Конечно.
Для корректного перевода и качественного озвучивания необходимо определить пол говорящего. Если вы используете классификатор пола на уровне предложения, в сценарии прямой трансляции не будет различий по сравнению со сценарием по запросу. Хранение истории голосовых линий каждого говорящего помогает нам более точно классифицировать половую принадлежность. Это снижает количество ошибок в полтора раза. Мы не только можем определить пол человека всего по одной фразе, но и рассматриваем результаты гендерной классификации по фразам, произнесенным ранее. Для этого нам нужно на лету определить, кому принадлежит линия, тем самым уточнив пол говорящего.
С точки зрения машинного перевода ничего не изменилось по сравнению с переводом готовых видео, поэтому сейчас не будем в это углубляться. В прошлом мы рассмотрели внутреннюю работу перевода.
Базовая технология синтеза в Алисе, умном помощнике Яндекса, аналогична той, которую мы используем в видеопереводе. Разница в том, как осуществляется применение (вывод) этих нейронных сетей. Говорящий в ролике может очень быстро произнести реплику, либо перевод предложения может получиться в два раза длиннее оригинала. В этих случаях вам придется сжимать синтезированный звук, чтобы не отставать от времени. Этого можно добиться двумя способами: на уровне звуковой волны, например, с помощью PSOLA (Pitch Synchronous Overlap and Add) или внутри нейронной сети. Второй метод обеспечивает более естественное звучание речи, но требует возможности редактирования скрытых параметров.
Важно не только доводить длительности синтезируемых фраз до нужной длины, но и разлагать их в нужные моменты. Не всегда будет идеально: придется либо ускорять запись, либо сдвигать тайминги — за это отвечает алгоритм стекирования. В прямом эфире нельзя изменить прошлое, поэтому может возникнуть ситуация, когда нужно озвучить фразу в два раза быстрее, чем она произносится в исходном видео. Для справки: ускорение более чем на 30% существенно влияет на человеческое восприятие.
Решение следующее: резервируем время заранее. Мы не торопимся складывать голосовые линии и можем дождаться новых, чтобы учесть их продолжительность. Мы также можем позволить накапливаться небольшому временному сдвигу, поскольку рано или поздно в видео будет несколько секунд тишины, и сдвиг будет сброшен до нуля.
Полученная звуковая дорожка разрезается на фрагменты и оборачивается аудиопотоком, который будет микшироваться локально в самом Браузер-клиенте.
При просмотре трансляции Браузер опрашивает стриминговый сервис (например, YouTube) на наличие новых фрагментов видео и аудио; если они есть, он загружает и воспроизводит их последовательно.
Когда пользователь нажимает на кнопку живого перевода, Яндекс.Браузер запрашивает ссылку на поток с переведенным звуком из своего бэкенда. Браузер накладывает этот трек поверх основного, соблюдая тайминги.
В отличие от готовых видео, прямая трансляция обрабатывается машинным переводом каждый момент своего существования. Stream Downloader считывает аудиопоток и отправляет его в конвейер обработки ML, компоненты которого мы разобрали выше.
Существует несколько способов организации взаимодействия между компонентами. Мы остановились на варианте с очередями сообщений, где каждый компонент оформлен как отдельный сервис:
- Запускать все модели на одной машине проблематично: они могут просто не помещаться в памяти или требовать очень специфической аппаратной конфигурации.
- Требуется для балансировки нагрузки и возможности горизонтального масштабирования. Например, сервисы машинного перевода и синтеза голоса имеют разную пропускную способность, поэтому количество фраз может отличаться.
- Службы иногда аварийно завершают работу (графическому процессору не хватает памяти, утечке памяти или отключению электроэнергии в центре обработки данных), а очереди предоставляют механизм повторных попыток.
Поток не привязан к одному экземпляру, но для обработки может потребоваться некоторый контекст (фон). Например, синтезатору необходимо хранить записи, которые еще не были помещены на окончательную звуковую дорожку. Следовательно, необходим глобальный репозиторий контекста для всех потоков. На схеме он обозначен как Global Context — по сути, это просто хранилище ключ-значение в памяти.
Наконец, полученный аудиопоток должен быть доставлен пользователю. Здесь за дело берется Stream Sender: он оборачивает аудиофрагменты в потоковый протокол, а клиент читает этот поток по ссылке.
В настоящее время мы предоставляем прямую трансляцию со средней задержкой 30–50 секунд. Иногда мы вылетаем из этого диапазона, но ненамного: стандартное отклонение около 5 секунд.
Основная трудность при переводе прямых трансляций заключается в обеспечении того, чтобы задержка не колебалась слишком сильно. Простой пример: вы открываете прямую трансляцию и через 15 секунд начинаете получать трансляцию. Если вы продолжите смотреть, рано или поздно одной из моделей понадобится больше контекста — например, если говорящий произносит длинное предложение без пауз, нейронный движок попытается получить его целиком. Тогда задержка увеличится, возможно, еще на десять секунд. Естественно, предпочтительна небольшая задержка в начале, чтобы этого не произошло.
Наша глобальная цель — сократить задержку примерно до 15 секунд. Это немного больше, чем в настоящем синхронном переводе, но достаточно для прямых трансляций, где ведущие взаимодействуют с аудиторией, например, на Twitch.