Нейросети яндекса переведут и озвучат видео: Яндекс представил технологию, позволяющую смотреть видео на английском языке с закадровым переводом

«Яндекс Браузер» теперь предлагает видео на иностранных языках по запросу на русском и сразу их переводит / Хабр

denis-19

Время на прочтение
2 мин

Количество просмотров

1.4K

Поисковые технологии *Работа с видео *Браузеры Машинное обучение *IT-компании

Поисковый сервис «Яндекса» научился обогащать выдачу видеороликами на иностранных языках сразу с голосовым переводом на русский язык. Если ввести запрос на сайте по-русски, то помимо русскоязычных видео в результатах поиска появятся и релевантные зарубежные ролики.


Опция поиска по-русски контента на иностранном языке и просмотра его с закадровым переводом доступна в «Яндекс Браузере» и в приложении «Яндекса».

Допустим, пользователь хочет найти рецепт гратена в исполнении французского шеф-повара. Ранее нужно было перевести запрос на французский, ввести его в поиске, а потом преодолеть трудности перевода и разобраться, какой из результатов выдачи лучше подходит. Теперь с этим поможет Яндекс. По запросу в поиске или в поиске по видео, например «рецепт лазаньи видео», в выдаче появится специальный блок — «Нейросети переведут и озвучат». Там можно найти ролики на иностранных языках с закадровым переводом. Это позволит смотреть видеоконтент, которого просто нет на русском языке, например, обзор свежих продуктов Apple или смартфона Nothing Phone (1).

В разделе «Видео» в «Яндекс Браузере» появился фильтр для иностранных роликов с закадровым переводом. Там можно выбрать только видео на иностранных языках, которые переведёт браузер. Названия всех роликов можно перевести с помощью нейросетей – для этого также нужно выбрать соответствующую настройку в фильтрах. У всех переведенных роликов появится дисклеймер.

«Мы продолжаем стирать языковые границы в интернете. Яндекс становится проводником в мир качественного и разнообразного иностранного контента: от реалити-шоу до познавательных лекций. Уже сейчас видео на пяти языках можно смотреть с русским закадровым переводом в Яндекс Браузере. Теперь же мы упростили и поиск видео за пределами рунета», — пояснил директор бизнес-группы Поиска и рекламных технологий Яндекса Пётр Попов.

5 августа «Яндекс» запустил синхронный перевод прямых трансляций в собственном браузере. Функция пока работает в режиме открытого бета-тестирования и доступна только для некоторых каналов с трансляциями на YouTube.

Теги:

  • яндекс
  • перевод
  • видео
  • трансляция
  • закадровый перевод
  • яндекс браузер

Хабы:

  • Поисковые технологии
  • Работа с видео
  • Браузеры
  • Машинное обучение
  • IT-компании

Всего голосов 6: ↑4 и ↓2 +2

Комментарии
1

Денис
@denis-19

Информационная служба Хабра

Комментарии
Комментарии 1

Поиск «Яндекса» при запросе на русском начал показывать видео на иностранных языках с переводом

Продолжение сюжета от

Новости СМИ2

Новости

09 августа 2022

Новости

09 августа 2022

Анастасия Марьина

Руководитель новостного отдела RB. ru

Анастасия Марьина

«Яндекс» обогатил выдачу поиска видеороликами на иностранных языках с мгновенным голосовым переводом на русский.

Так, при запросе на русском языке помимо русскоязычных видео появятся подходящие по теме зарубежные, которые можно будет посмотреть с закадровым переводом.

Анастасия Марьина

Функцией можно воспользоваться в браузере и приложении «Яндекса», говорится в сообщении компании.

По запросу в поиске или в поиске по видео в выдаче будет доступен специальный блок — «Нейросети переведут и озвучат». Там собраны ролики на иностранных языках с закадровым переводом, что позволит смотреть видео, которого нет на русском языке.

В разделе «Видео» также появился фильтр для иностранных роликов с закадровым переводом. Можно выбрать только видео на иностранных языках, которые переведет браузер. Названия всех роликов переводят нейросети.

  • Ранее «Яндекс» добавил в свой браузер технологию автоматического закадрового перевода прямых трансляций для некоторых YouTube-каналов, в том числе TED, Google, Apple, SpaceX.
  • В марте в «Яндекс Браузере» появились интерактивные субтитры к видео на английском, французском, немецком и испанском языках. Компания также добавила опцию подсветки по словам — кликнув на неизвестное слово, пользователь получит мгновенный перевод. 

Фото на обложке: Unsplash

Подписывайтесь на наш Telegram-канал, чтобы быть в курсе последних новостей и событий!

  • Интернет
  • Машинное обучение
  • Медиа
  • Технологии
  • Яндекс

Нашли опечатку? Выделите текст и нажмите Ctrl + Enter

Материалы по теме

  1. 1

    Куда движутся «облака» в России: три долгосрочных тренда на рынке

  2. 2

    Конференция Data Fusion 2023 по машинному обучению, анализу данных и технологиям ИИ пройдет 13-14 апреля

  3. 3

    ML и AI — что они могут привнести в фудтех сегодня

  4. 4

    Продолжается соревнование по распознаванию произведений искусства по фотографии от Codenrock

  5. 5

    Machine Learning или Operations Research — что лучше использовать для роста бизнеса?

ВОЗМОЖНОСТИ

09 апреля 2023

FOSS Kruzhok

10 апреля 2023

Программа стажировок в «Лаборатории Касперского»

10 апреля 2023

Бесплатная упаковка бизнеса во франшизу

Все ВОЗМОЖНОСТИ

Истории

Почему Финляндия — самая счастливая страна в мире

Истории

Как сделать презентацию в СhatGPT: пошаговая инструкция

Аналитика

Нейросеть ChatGPT: новый бесплатный чат-бот с искусственным интеллектом

Новости

Названы топ-5 привычек, которые мешают накопить

Списки и рейтинги

Самые интересные нейросети: топ-14 сервисов для раскрашивания изображений, генерации текста и не только

Яндекс запускает голосовой перевод с помощью нейросетей

7 сентября Яндекс представил новый инструмент — автоматизированный голосовой перевод англоязычных видео с YouTube, Vimeo, Facebook и других сайтов на русский язык. Он доступен через Яндекс.Браузер, что позволяет работать с видео, размещенными на любом сайте.

Перевод занимает всего пару минут: нейросети Яндекса обрабатывают речь, превращают ее в текст, синтезируют русский перевод и синхронизируют с видео. Они также умеют определять пол говорящего с помощью биометрии и выбирать соответствующий голос. При этом такие характеристики речи, как эмоции, интонации, паузы, членение фраз, должны оставаться прежними.

ИТМО.NEWS взяли интервью у Законова Андрея, экс-руководителя проектов Яндекса «Алиса» и «Умные устройства», выпускника факультета информационных технологий и программирования Университета ИТМО (бывший факультет компьютерных технологий — -е изд. ), который придумал идею для переводчика озвучивания и запустил проект в Яндекс.

Я был главой команды Alice and Smart Devices, и этот новый продукт тоже родился там. Сначала мы создали первоначальный прототип, а затем стали приглашать коллег из других отделов для формирования новой команды. Я был его частью до его пилотного запуска в июле 2021 года. Сейчас проект взяла на себя команда Яндекс.Браузера, а я занят новым проектом в другой компании. Так что могу рассказать об идее продукта и процессе работы над ним вплоть до запуска бета-версии — не знаю, что планируется по проекту дальше.

Аналогичные задачи мы решали при работе над Алисой — нужно было научить ее распознавать человеческую речь и делать это быстро. За доли секунды он должен распознать речь, обработать, обобщить, интерпретировать ее и понять вопрос, а также найти ответ в сети и затем поделиться им вслух. Задача очень сложная, мы работали над ней несколько лет и в итоге сумели выйти на общение почти в реальном времени — это очень похоже на общение с человеком.

Тем временем команда Яндекс.Переводчика научилась переводить с английского на русский и делает это хорошо. Нейросеть не переводит отдельные слова, а распознает контекст, фразы и абзацы.

Итак, когда мы начали думать о том, как развивать нашу технологию, мне пришла в голову идея автоматического перевода видео. В принципе, необходимые технологии у нас уже были: мы умеем распознавать текст и голос, хорошо его переводить, а также синтезировать речь, чтобы сделать ее более человечной, эмоциональной и с правильными интонациями.

Осталось решить, как сделать инструмент максимально удобным для пользователей и разработать конечный продукт так, чтобы им не нужно было заходить на отдельный сайт, вставлять ссылку и ждать результата. Именно тогда к нам присоединилась команда Яндекс.Браузера, потому что браузер был лучшим решением, позволившим нам объединить все наши технологии.

Достаточно большая проблема, которую мы только начали разрабатывать. Изначально мы хотели, чтобы он повторял интонации оригинального трека, как это делают профессиональные переводчики и актеры озвучивания. Цель — сделать процесс просмотра видео приятным и комфортным. Эмоции, интонации, паузы и так далее должны оставаться в переводе.

Эмоции через текст не понять – это речь, которая содержит иронию, сарказм, радость, раздражение и т. д. и поэтому для определения эмоций приходится использовать оригинальный трек. Но это больше похоже на планы на будущее.

Дело не только в том, чтобы просто прочитать все слова, это сложнее. В противном случае актеру пришлось бы записывать все русские слова — это огромный объем работы. Более того, постоянно появляются новые слова, термины и названия. Или, к примеру, Яндекс.Навигатор — там бесчисленное множество названий сел, улиц, топонимов и т. д.

Поэтому мы поступаем иначе – используем фонемы или даже их фрагменты, а затем формируем из них слова и предложения. Эмоции также добавляются во время постобработки. Одну и ту же фразу можно генерировать с разными эмоциями, а также с разной скоростью, чтобы она соответствовала звучанию видео — это тоже делается при постобработке.

Возьмем, к примеру, технологию переноса стиля — она очень популярна в области обработки изображений. Любую фотографию можно превратить в картину, похожую на картину Ван Гога или Сальвадора Дали, за счет наложения определенного стиля на изображение. То же самое можно сделать и с голосом: можно обучать модели на наборе данных фразами, произносимыми с радостью или грустью, и в итоге получить возможность передавать определенную эмоцию в синтезированную речь. Это очень интересная область речевых технологий, но пока она только начинает развиваться.

В текущей версии биометрия используется только для определения пола говорящего и выбора мужского или женского голоса. Следующий шаг — добавить больше типов голосов и научить модель их различать. Каждый голос, как и лицо, уникален и имеет узнаваемые черты.

Мы запустили интересную сопутствующую функцию в наших умных колонках: Алиса понимает, разговаривает ли с ней ребенок, и автоматически вводит возрастные ограничения, выбирает более смешные ответы и менее формальна.

Я много экспериментировал с разными видео. Есть жанры, в которых эта технология еще не работает должным образом. Хорошо работает, когда один спикер представляет что-то в формате лекции или несколько спикеров говорят в интервью. Но хуже работает, если много сленговых слов или эмоций. Например, популярный нынче жанр стриминга видеоигр часто включает в себя множество специфических слов и резкие бессвязные выкрики. Или какие-то влоги, где люди склонны говорить очень эмоционально.

Также плохо работает, когда несколько человек разговаривают одновременно. Перевод будет прочитан вслух в один голос, поэтому несколько говорящих сольются в один.

Факторов много. Во-первых, в англоязычных странах эта технология менее востребована, потому что контента на английском гораздо больше, чем на любом другом языке. Во-вторых, сейчас подходящий момент для появления такой технологии. Пять лет назад пользовательского контента было значительно меньше. Десять лет назад в таком инструменте не было необходимости, потому что большая часть видеопроизводства была профессиональной, что требовало больших денег, поэтому также был обеспечен профессиональный перевод.

В наше время ежедневно появляются тысячи отличных видео на разных языках и перевести их быстро и недорого невозможно. Это трудоемкая и сложная задача.

В России большой спрос на англоязычный контент. Меня лично больше всего интересует образовательная информация, а в любой сфере, будь то IT, искусство или что-то еще, контента на английском гораздо больше.

При этом около 5% населения России свободно владеет английским языком, по данным ВЦИОМ. Поэтому немногие люди могут слушать лекции в Гарварде или Стэнфорде без перевода. Субтитры тоже не лучший вариант — гораздо приятнее слушать лекции с закадровым переводом.

И еще один важный момент — для создания такого инструмента с нуля требуется множество технологий. Вам нужно распознавание голоса, синтез, биометрия и перевод. К счастью, у Яндекса все это уже есть. Более того, они находятся в эксплуатации и готовы к применению на полную мощность. В мире мало компаний с таким развитым набором технологий.

Вернуться к началу

Прибытие автоматического дублирования

В 2021 году в коммерческом мире появился перевод речи в речь.

Ученые работают над тем, чтобы сделать базовую технологию более плавной и точной, инженеры интегрируют ее в практические варианты использования. В то же время происходит взрыв нейронных голосов. В период с июля по сентябрь получили финансирование три компании в этой области: Murf.ai, Wellsaid Labs и Lovo.ai. В результате специалисты по локализации теперь могут выбирать из более чем 20 поставщиков готовых голосов или даже клонировать свой собственный голос для создания персонализированных речей.

Перевод речи на полную катушку

В последнее время крупные технологические поставщики и другие важные игроки представили некоторые серьезные изменения в своих технологиях преобразования речи в речь. Среди прочего, Amazon AI продемонстрировали часть своей работы на конференции MT Summit в августе. В презентации, проведенной Марчелло Федерико, просодическое выравнивание было важным аспектом работы. Компания Google представила в августе «Транслатотрон-2», превосходящий по своим характеристикам оригинальную модель. Итерации привели к лучшему качеству перевода и более естественному предсказанию речи. Новая модель также позволяет сохранять исходный голос в переведенной речи. В академической среде проект ELITR, которым руководит Ондрей Бояр из Карлова университета в Праге и финансирует Horizon Europe 2020, завершается в декабре.

Нейронные голоса в продукты

В сценарии живого закадрового голоса источник может исходить от MT. В сценарии «автоматического дублирования» инженер может редактировать текст и произношение нейронного голоса, чтобы улучшить качество. По мере того, как технологии выходят на рынок, этот тип предложений начал кристаллизоваться в «голос за кадром» со средней ценой 20 долларов за минуту.

В сентябре российский технический гигант Яндекс представил бесплатный автоматический англо-русский переводчик для Youtube (а также других сервисов потокового видео). С помощью кнопки «Перевести», добавленной в Яндекс Браузер (совместимый с Chrome), он переводит и дублирует видео с узнаваемым приветствием Алисы, родственной системы Яндекса для Amazon Alexa. Под капотом переводчик объединяет несколько нейронных сетей, чтобы он звучал более естественно.

В Custom.MT мы попробовали переводчик!

В целом функция оставила приятное впечатление: мы могли следить за выступлениями на TED и озвучивать видео с четкой дикцией на русском языке. Несмотря на то, что перевод был дословным, он был достаточно ясен, чтобы понять говорящего. В более специализированном видео с хардкорной терминологией движок МТ предсказуемо спотыкался. Вот что заметила наша команда:

  • Youtube-переводчик лучше работает с короткими видео. На рендеринг 30-минутного клипа ушло 8 минут.
  • Он понимает потребность в скорости. Русские предложения могут быть длиннее английских. Чтобы компенсировать это, цифровые рассказчики меняют свою подачу. Иногда они распыляют слова с комической скоростью, чтобы не отставать от скорострельной болтовни.
  • Просодия готова! Голос менялся по высоте в зависимости от исходной высоты и тона. На более коротких отрезках он был близок к человеческому голосу.

    This entry was posted in Популярное