Распознавание речи в видео и создание субтитров: Создание субтитров с помощью преобразования речи в текст — служба «Речь» — Azure Cognitive Services

Содержание

Преобразование речи в текст: четыре способа | Статьи

Те, кто планирует конференции, семинары и прочие мероприятия с наличием зрителей и слушателей, сталкиваются с растущим спросом на транскрибирование, то есть субтитры в реальном времени. В прошлом такие субтитры были дорогостоящим предложением, требующим от организаторов включать в бюджет мероприятия расходы на профессионального транскрибера.

К счастью, достижения в области автоматического преобразования речи в текст предоставили более широкий выбор способ создания субтитров в реальном времени. Но как выбрать наиболее подходящий вам вариант? В этой статье мы расскажем о плюсах и минусах четырёх разных способов:

1. Нанять транскрибера-человека

В прошлом найм профессионального транскрибера был единственным вариантом для субтитров в реальном времени. Этот подход предполагает человека, который на месте или удалённо слушает выступление и на лету преобразует его в текст.

У транскриберов есть свои преимущества. Человек может может правильно разобрать тихую или не совсем внятную речь, в то время как система на основе искусственного интеллекта может оказаться не в состоянии достичь того же уровня точности. Медицинские, научные или юридические мероприятия могут потребовать от транскрибера наличия определённых профессиональных знаний. Хотя опытный специалист может заранее проанализировать отраслевую терминологию или сленг, с которыми ему придётся столкнуться.

Но транскриберы-люди могут сильно различаются по качеству и надёжности. Тот, кто расшифровывает одну 20-минутную речь, может быть очень точным, но этот показатель точности может измениться, если придётся записывать четыре часа лекций. Точно так же этот транскрибер может быть выведен из строя из-за неожиданной болезни или личных чрезвычайных ситуаций. Наконец, не все транскриберы имеют оборудование, необходимое для обмена субтитрами в режиме реального времени. Помимо того, что вы забронируете кого-то с оборудованием, которое может подключиться к аудио-видео оборудованию, вам, скорее всего, придётся найти способ трансляции расшифровки речи в режиме реального времени.

Цена:

Сильно колеблется и может доходить до десятков долларов в час в случае самых опытных и квалифицированных транскриберов. В случае длительных мероприятий придётся также оплачивать сверхурочную работу, что ещё больше увеличивает расходы.

ЗА

  • Люди лучше понимают звук низкого качества
  • Опытные транскриберы лучше работают с отраслевыми терминами, сленгом или неформальный языком

ПРОТИВ

  • Дорого, особенно со специализированными навыками
  • Переменная надёжность
  • Вывод субтитров на аудиторию потребует отдельного оборудования
  • Низкая доступность, высокий спрос
Вывод:

Несомненно, есть случаи, где требуется транскрибер-человек, но цена может оказаться непомерно высокой. Высокий спрос на услуги транскрибирования в реальном времени только продолжает повышать эту цену, и это может означать, что профессиональный транскрибер окажется недоступен на время вашего мероприятия.

2. Купить аппаратное решение

Не так давно на рынке появились специализированные устройства для автоматического транскрибирования. Устройство включает в себя систему захвата и записи звука, преобразования речи в текст в режиме реального времени и вывода этого текста на экран. Как правило, эти устройства подключаются напрямую к локальному источнику звука, что обеспечивает максимально возможное звука, что улучшает распознавание, а также имеют стандартный видеовыход для вывода результата на внешние мониторы.

Специализированное устройство также устраняет возможные «точки отказа», присутствующие в решениях для автоматического транскрибирования, что опираются на обычный компьютер или мобильное устройство. Аппаратный транскрибер не выдаст в самый неподходящий момент «синий экран смерти», не начнёт сигнализировать о получении сообщений во время важной презентации.

Специально разработанное аппаратное решение будет также включать дополнительные функции в зависимости от разработчика оборудования. LiveScrypt, собственное решение Epiphan Video для автоматического транскрибирования в реальном времени, поддерживает более чем 30 языков и диалектов. Оно ​​включает в себя дополнительные функции, такие как фильтры ненормативной лексики или настройку формата, размера и оформления выводимого текста, чтобы обеспечить его максимальную разборчивость на подключённых мониторах.

Подобные устройства имеют более высокую начальную стоимость, выраженную в цене самого оборудования. Для некоторых эта цена может быть слишком высокой, но в случае организаций и людей, нуждающиеся в регулярном транскрибирование, эти затраты достаточно быстро окупятся.

Примерами могут служить колледж или университет, намеревающийся снабдить субтитрами несколько лекций в день, или организатор конференций, которому нужно транскрибировать десятки выступающих на каждом мероприятии, что он устраивает. Даже с учётом высокой стоимости самого оборудования, почасовая стоимость транскрибирования получится намного ниже стоимости услуг профессиональных транскриберов.

Цена:

Варьируется. Люди и организации, покупающие специализированные устройства, должны будут оплатить как само оборудование, так и расходы облачного сервиса транскрибирования. Однако стоимость этих услуг по-прежнему намного ниже стоимости найма транскрибера, и соотношение цены и качества улучшается с увеличением использования оборудования.

ЗА

  • Доступность
  • Надёжность
  • Скорость
  • Аудиовходы профессионального уровня
  • Стандартный видеовыход для вывода результата на экран
  • Простая настройка

ПРОТИВ

  • Высокие начальные затраты
Вывод:

Специализированные устройства являются наиболее подходящим вариантом в случае необходимости транскрибирования большого количества выступлений.

3. Использовать облачное решение для транскрибирования

Такие сервисы, как Google Speech-to-Text, Amazon Transcribe и IBM Watson Speech to Text, используют очень похожую технологию для преобразования речи в текст. Если коротко, эти службы автоматического транскрибирования принимают цифровой аудиосигнал, разбивают этот его на более мелкие сегменты звука и сравнивают эти сегменты (также называемые фонемами) с существующей базой данных. Когда совпадение найдено, служба определяет, какое слово формируют эти фонемы, и возвращает результат в виде текста.

Этот процесс обычно требует больших вычислительных мощностей, поэтому эти службы используют облачные вычисления для получения быстрых результатов. Точность распознавания речи системами с поддержкой искусственного интеллекта уже сопоставима с транскриберами-людьми, и разрыв между ними стремительно сокращается.

Стоимость этих услуг также значительно ниже, чем работа с профессиональным транскрибером, что делает их привлекательными для продолжительных мероприятий с многочасовыми выступлениями, а также для организаций, проводящих много таких мероприятий.

Низкая цена также означает, что вы сможете обеспечить субтитрами в реальном времени всё мероприятие. Организатор конференции, использующий профессионального транскрибера, может быть вынужден по бюджетным причинам ограничиться субтитрами лишь к одному или двум основным выступлениям. Но за небольшую часть этой цены, служба автоматической транскрипции может снабдить субтитрами все выступления – от первого и до последнего слова.

Но облачные сервисы также требуют определённой компьютерной компетентности, которая выходит за рамки многих организаций. Эти сервисы обеспечивают преобразование цифрового звука в текст, но для начала этот цифровой звук надо получить и отправить сервису, что требует наличия кодировщика. То есть потребуется локальная консоль, например, персональный компьютер, который может преобразовывать аналоговый аудиосигнал в цифровой, отправлять этот сигнал в облако, получать оттуда результат и как-то выводить его на экран.

Но большинство персональных компьютеров не имеют входов для аудиосигнала профессионального уровня, например, XLR. Это проблема решается с помощью дополнительной встроенной или внешней звуковой карты, но это усложняет систему и увеличивает её стоимость, не говоря о проблемах с настройкой такого оборудования.

Цена:

Среди самых доступных вариантов цены варьируются от $0.96 в час для Google Text-to-Speech до $1,44 в час для Amazon Transcribe. Цена также может снизиться с объёмом. Например, IBM предлагает скидки для пользователей, которым необходимо транскрибировать более 250 000 минут, 500 000 минут или один миллион минут речи.

Вам также понадобится отдельный компьютер, чтобы отправлять аудио в облако, получать транскрипцию и делиться ею со своей аудиторией.

ЗА

  • Бюджетный
  • Высокая надёжность
  • Точность
  • Скорость

ПРОТИВ

  • Сложность настройки
  • Требуется локальный интерфейс для использования облачного сервиса
  • Требуется выделенный компьютер, возможно с расширенными возможностями
Вывод:

Низкая стоимость делает этот вариант привлекательным, но облачные сервисы всё ещё полагаются на то, что вы сами найдёте способ в реальном времени подготовить и отправить аудио, а затем вывести результат на экран. Дополнительные сложности, связанные с поиском локальной консоли, способной сделать это, могут сделать этот вариант неудобным для людей и организаций, которые ищут максимально простой способ добавлять субтитры в реальном времени.

4. Найти программу для преобразования речи в текст

Программы для распознавания речи, например, для мобильных устройств, имеют множество эффективных применений, но они ограничены аппаратным обеспечением, к которому они привязаны. Смартфоны и планшеты ограничены ёмкостью хранения и обработки, а качество микрофона может очень сильно варьироваться. Так что их применение в большинстве случаев ограничивается транскрибированием разговора один на один или небольшого собрания, а не большой лекции, в зале, где говорящий может находиться далеко от транскрибирующего телефона.

Решения на основе таких программ также зависят от того, какие функциональные возможности предусмотрены их разработчиками. Более популярные приложения будут реагировать на потребности пользователей, так как разработчики регулярно выпускают обновления, чего не скажешь о программах, разработанных независимыми фирмами или отдельными пользователями, которые могут просто прекратить поддержку продукта.

Вам также потребуется найти способ поделиться расшифровкой выступления с аудиторией. Но смартфоны и планшеты, способные использовать эти приложения, обычно не предназначены для вывода видеосигнала. Так что отправка расшифровки на большой экран потребует серьёзных дополнительных усилий. Кроме того, решения, использующие смартфон, уязвимы для неожиданных телефонных звонков, СМС и сообщений мессенджеров, а также обновлений программного обеспечения.

Цена:

Варьируется. Многие приложения бесплатны для отдельных пользователей, но требуют, чтобы вы платили за ежемесячный или поминутный тарифный план после превышения определённого количества минут. Некоторые сервисы имеют месячный лимит минут, который может стать решающим фактором для тех, кому требуются большие объёмы транскрибирования.

ЗА

  • Захват аудио уже встроен
  • Простая настройка

ПРОТИВ

  • Дорого
  • Качество звука варьируется, влияя на точность транскрибирования
  • Ограничения, связанные с аппаратным обеспечением смартфона или планшета
  • Поддержка зависит от разработчика программы
  • Некоторые программы имеют лимиты по времени
  • Нет простого способа вывести расшифровку на внешний экран
Вывод:

Стоимость относительно низкая, качество транскрибирования, как правило, довольно высокое. Но трудности с получением аудио и выводом результата на широкую аудиторию делает это решение не самым подходящим для организаторов больших мероприятий.

Самый простой способ

Только вы сможете определить, какое из этих решений лучше всего подходит для вашего мероприятия. Небольшие мероприятия могут без проблем использовать приложение для смартфона, в то время как более опытным пользователям может подойти создание компьютера с профессиональными аудиовходами для использования облачного решения.

Тем не менее, дополнительные функциональные возможности, встроенные в специализированные устройства, означают, что организаторам, которые хотят регулярно обеспечивать свои мероприятия субтитрами в реальном времени, обязательно стоит взглянуть на этот вариант.

LiveScrypt предназначен для транскрибирования в реальном времени широкого спектра мероприятий, обеспечивает поддержку более 30 языков и предлагает дополнительные функции, такие как, например, фильтр ненормативной лексики, а также запись расшифровки в текстовой файл или файл с разметкой по времени.

LiveScrypt также поддерживается разработчиками Epiphan и собственной группой технической поддержки, обеспечивая постоянное создание новых обновлений и решение проблем, с которыми вы сталкиваетесь. LiveScrypt просто настроить и им просто управлять, что сводит к минимуму все технологический сложности обеспечения транскрибирования вашего мероприятия.

Добавление субтитров к видео онлайн и бесплатно

Субтитры и надписи на видео — это отличный способ повысить вовлеченность и улучшить доступность. Узнайте, как добавлять субтитры к своим видео и генерировать автоматические субтитры с помощью онлайн-редактора видео Wave.video.

Нажмите на любой видеошаблон, чтобы настроить его под свой бизнес.

Найти шаблоны

Превратите речь в текст за 3 простых шага

1. Загрузите или создайте видео

Загрузите свое видео на Wave.video или создайте новое с помощью онлайнового видеоредактора платформы.

2. Создайте титры

Используйте нашу технологию распознавания речи для преобразования вашего голоса в субтитры. Или загрузите свой файл субтитров в формате .srt или .vtt

3. Поделиться и загрузить видео

Создайте для своего видео настраиваемую целевую страницу, публикуйте его непосредственно в социальных сетях, встраивайте в сайты и электронные письма или загружайте на свой компьютер.

Отличный инструмент для создания видеороликов в социальных сетях

Я могу легко масштабировать свои видео между платформами социальных сетей. Легко заменять шаблонные изображения своими собственными.

Тойни В.

Владелец, «Искусство и ремесла

Единственный инструмент для создания видео, который вам понадобится

Создание классного видео для моих клиентов занимает 20-30 минут. Если вы еще не пользуетесь этой программой, попробуйте бесплатную пробную версию!

Анна Ф.

Блогер

Простое в использовании программное обеспечение

Wave прост в использовании, имеет много хороших стоковых фотографий, видео и стикеров. Легко создать красивое видео для социальных сетей.

Мартин К.

Консультант по социальным медиа

Полное руководство по субтитрам для видео

  • Шаг 1. Загрузите или создайте видео.

    Нажмите «+ Новое видео» и выберите один из вариантов начала работы: вы можете загрузить видеофайл, создать новое видео из шаблонов и стоковых активов или начать с чистого холста. Если вы решили загрузить видео, дождитесь окончания загрузки, затем нажмите на его миниатюру и выберите «Редактировать».

  • Шаг 2. Добавьте титры и субтитры.

    Войдя в редактор, перейдите на шаг «Captions» в левом меню, чтобы получить доступ к редактору субтитров. Нажмите «Auto Captions» и выберите видео- или аудиофайл и язык для автоматического создания субтитров. Вы также можете загрузить свой собственный файл субтитров в формате . srt или .vtt.

  • Шаг 3. Редактируйте и настраивайте надписи.

    Настройте внешний вид титров, изменив их цвет, шрифт и анимацию. Редактируйте расшифрованный текст и при необходимости корректируйте время. Нажмите кнопку Play, чтобы просмотреть все изменения в режиме реального времени.

  • Шаг 4. Загрузите и поделитесь.

    Перейдите к шагу «Публикация» и выполните рендеринг видео. После завершения рендеринга вы можете поделиться своим видео в качестве целевой страницы, опубликовать его непосредственно в социальных сетях, вставить на сайты и в электронные письма или загрузить на свой компьютер.

Преимущества добавления титров к видео

  • Улучшение доступности

    Добавьте субтитры и титры, чтобы сделать ваши видео доступными для всех, независимо от того, находятся ли они в помещении с большим количеством фонового шума, имеют ли проблемы со слухом или просто предпочитают прокручивать свою ленту с выключенным звуком.

  • Повышение вовлеченности

    Доказано, что добавление субтитров может увеличить среднее время просмотра видео. Субтитры и надписи — это также отличный способ помочь зрителям запомнить ваше сообщение. Зрители с большей вероятностью запомнят, о чем было видео, если они одновременно читают субтитры и слышат речь.

  • Переведите свое сообщение на иностранный язык

    Вам не придется записывать закадровый голос на нескольких языках, чтобы убедиться, что его поймут в разных странах и культурах. Перевод субтитров — гораздо более простой способ. Просто преобразуйте голос в текст с помощью функции автоматического создания субтитров и переведите его на любой язык.

  • Транскрибировать аудио в текст

    Автоматический создатель субтитров — один из лучших инструментов для быстрого и простого транскрибирования видеоконтента. Это отличная экономия времени, если вам нужно преобразовать длинные вебинары и потоковое видео в удобочитаемый текст.

Часто задаваемые вопросы

Какие языки поддерживаются инструментом для создания субтитров Wave.video?

В настоящее время поддерживаются следующие языки для автогенерируемых титров: Английский (американский, австралийский, британский, индийский, ирландский, шотландский, валлийский), испанский (и испанский США), португальский (и бразильский португальский), французский (и канадский французский), голландский, немецкий (и швейцарский немецкий), китайский мандарин — материковый, индонезийский, итальянский, японский, корейский, малайский, русский, турецкий.

Как я буду получать плату за субтитрирование видео?

Пользователи бесплатного тарифного плана могут создавать субтитры, загружая собственный текстовый файл субтитров в форматах .srt и .vtt.

Автоматически создаваемые субтитры и титры включены только в подписку Бизнес. Бизнес-пользователи могут создавать до 200 минут видео с субтитрами в месяц. Они также могут приобрести дополнительные минуты автоматических субтитров по цене 5¢ за минуту. Откройте настройки своей учетной записи, чтобы увидеть текущий тарифный план.

Как я могу поделиться и загрузить видео с субтитрами?

В бесплатной версии вы можете делиться созданным видеоконтентом через прямые ссылки на целевые страницы видео или публиковать их непосредственно на платформах социальных сетей. Пользователи тарифных планов Creator и Business могут создавать и загружать неограниченное количество видеороликов.

Можно ли загрузить титры в виде файла?

Да, вы можете загрузить субтитры в формате файла .srt. Для этого перейдите на вкладку «Настройки» в инспекторе и нажмите «Загрузить файл .Srt».

Как я могу настроить субтитры?

Выберите один из готовых стилей субтитров или создайте свой собственный. Вы можете редактировать текст субтитров, изменять стиль, размер и цвет шрифта, а также выбрать один из стилей анимации субтитров, включая модную анимацию в стиле караоке.

Можно ли записать субтитры в видео?

TL;DR Да, вы можете. Встроенные субтитры или закрытые субтитры, как их еще называют, являются неотъемлемой частью вашего видео, которые нельзя выключить или включить. Вы можете записать субтитры в видео с помощью Wave.video, выбрав эту опцию на вкладке «Настройки».

Какие файлы субтитров поддерживаются?

В чем разница между закрытыми и открытыми титрами?

Закрытые титры более универсальны, поскольку их можно включать и выключать в зависимости от потребностей и предпочтений зрителей. Открытые титры, также называемые вписанными титрами, добавляются в видео постоянно и не могут быть включены или выключены. Лучше всего использовать закрытые титры, если видеоплатформа или визуальный дисплей, на который вы хотите выложить видео, поддерживает эту функцию.

5 приложений для распознавания речи, которые автоматически добавляют субтитры к видео

Большие данные

Генеральный директор Qlik Майк Капоне предлагает информацию о последних тенденциях в области анализа данных.


В аналитике данных происходит глобальный сдвиг, поскольку предприятия ищут способы стать быстрее и умнее. Кларенс Рейнольдс встречается с Майком Капоне, генеральным директором Olik, чтобы получить из первых рук информацию о том, как отрасль развивается с управлением данными.

Кларенс Рейнольдс

Опубликовано:

Изменено:

Прочитайте больше

Посмотреть все видео

Изображение: Маккензи Берк

Яблоко

Apple Far Out Recap: новейшее оборудование, программное обеспечение и многое другое от Apple

Apple только что завершила осеннее мероприятие 2022 года Far Out, на котором были представлены новые анонсы линейки Apple, включая iPhone 14, Apple Watch Ultra, AirPods Pro 2 и многое другое. Кларенс Рейнольдс из TechRepublic беседует с Тамарой Скотт и Каити Нортон, чтобы обсудить событие и технологию, которая скоро будет выпущена.

Кларенс Рейнольдс

Опубликовано:

Изменено:

Прочитайте больше

Посмотреть все видео

Инновации

Топ-5 суперкомпьютеров 2022 года

Tom Merritt входит в рейтинг лучших суперкомпьютеров TOP500 этого года. Также читайте статью по адресу: https://www.techrepublic.com/article/top-supercomputers/

Том Мерритт

Опубликовано:

Изменено:

Прочитайте больше

Посмотреть все видео

Программного обеспечения

5 вещей, которые вы не знали о Windows 1.0

Том Мерритт выделяет пять вещей, которые вы, возможно, не знали о первой операционной системе Windows. Также прочитайте статью по адресу: https://www.techrepublic.com/article/top-didnt-know-windows/

Том Мерритт

Опубликовано:

Изменено:

Прочитайте больше

Посмотреть все видео

Мобильность

5 лучших альтернатив Google Authenticator

Том Мерритт рассказывает о лучших альтернативах приложению двухфакторной аутентификации Google. Также ознакомьтесь со статьей по адресу: https://www.techrepublic.com/article/top-alternatives-google-authenticator/ 9.0005

Том Мерритт

Опубликовано:

Изменено:

Прочитайте больше

Посмотреть все видео

Программного обеспечения

Как отфильтровать Asana по проекту

Джек Уоллен поможет вам отфильтровать задачи Asana по проекту или нескольким проектам и применить дополнительные фильтры. Полное пошаговое руководство можно найти по адресу: https://www.techrepublic.com/article/how-to-filter-asana-project/ 9.0005

Джек Уоллен

Опубликовано:

Изменено:

Прочитайте больше

Посмотреть все видео

Могут ли субтитры генерироваться автоматически с помощью распознавания речи?

Аудиоконтент мультимедийных презентаций недоступен для людей с нарушением слуха. Если есть контент, представленный на слух, решением для специальных возможностей являются субтитры, которые обеспечивают синхронизированный текст вместо звуковой дорожки. Дополнительные общие сведения о субтитрах см. в разделе Как сделать мультимедиа доступным?

Многие образовательные учреждения производят большое количество видео для своих программ дистанционного обучения, информационно-пропагандистской деятельности, маркетинга и других целей. Кроме того, все больше учебных заведений обращаются к мультимедиа как к средству усовершенствования своих учебных программ, основанных на веб-технологиях. Стоимость субтитров для всего этого видео и мультимедийного контента волнует многие учреждения и изучает их возможности. Многие учреждения прибегают к аутсорсингу по мере необходимости, но должны следить за своевременным получением доступных медиа. Часто быстрое выполнение работ требует дополнительных затрат. Другие учреждения развивают опыт для предоставления субтитров собственными силами.

Исследователи продолжают изучать возможности автоматизации некоторых частей процесса создания субтитров. Некоторые образовательные учреждения и другие организации используют продукты или услуги, в которых в той или иной степени используются автоматические субтитры.

В лучшем случае будет полностью автоматизировано создание субтитров с использованием технологии распознавания речи. К сожалению, современные технологии недостаточно точны, чтобы полностью поддерживать этот подход. Однако исследования и разработки, направленные на достижение этой цели, подпитываются быстро растущим рынком систем видеопоиска и архивирования. Чтобы архивировать и индексировать цифровые мультимедиа, чтобы пользователи могли осуществлять поиск по их содержимому, по крайней мере часть этого содержимого должна быть текстовой. Первой компанией, применившей распознавание речи на этом рынке, была компания Virage®, чье приложение VideoLogger™ использовало распознавание речи для захвата текста из видео, которое затем использовалось для создания структурированного поискового индекса. Однако из-за ограничений точности распознавания речи этот инструмент нельзя было использовать для создания целых дорожек субтитров; вместо этого он использовался для извлечения наборов ключевых слов, включая только те слова, которые программа может интерпретировать с высокой степенью достоверности.

Первым шагом в создании мультимедийных субтитров является создание стенограммы аудиоконтента. Технология распознавания речи стала широко используемым инструментом транскрипционистов. В процессе, называемом теневая речь , транскрипционист (который обучил программное обеспечение распознавания речи понимать его или ее речь) просто говорит вместе со звуком, повторяя то, что говорит говорящий.

This entry was posted in Популярное