Бот расшифровка аудио: Бесплатный Telegram-бот для расшифровки аудио. Рассказываем кратко, как мы его сделали / Хабр

Бесплатный Telegram-бот для расшифровки аудио. Рассказываем кратко, как мы его сделали / Хабр

Команда SberDevices запустила бесплатный бот в Telegram, который конвертирует русскоязычные голосовые сообщения и аудиофайлы в текстовый формат. Бот работает на основе технологии распознавания речи SmartSpeech и станет удобным инструментом для журналистов, копирайтеров, переводчиков и представителей других профессий, которые работают с текстами. Он позволит сэкономить часы работы, сократить рутину и значительно повысит эффективность при производстве контента. Также бот незаменим в ситуациях, когда у пользователя нет возможности прослушать голосовое сообщение: на встрече или в общественном транспорте. Бот можно использовать как в личной переписке, так и добавлять в групповые чаты.  Он обеспечивает расшифровку голосовых сообщений и загруженных одноканальных аудиофайлов до 20 Мб в кодировках MP3, WAV (8-96 кГц), FLAC и OggOpus. 

Что под капотом

При создании Telegram-бота мы использовали особую модель распознавания речи. Она очень похожа на ту, которая используется в работе виртуальных ассистентов Салют — как по архитектуре, так и по количеству параметров. Однако у этой модели есть существенное отличие — оно в обучающих данных.

Главной задачей наших моделей, используемых виртуальными ассистентами, является распознавание запроса: команды или вопроса  (“Салют, включи спокойную музыку”, “Джой, сколько сейчас градусов”). Обычно это очень короткие фразы. Кроме того, важная особенность таких моделей — игнорирование фоновой речи и речи, не обращённой непосредственно к виртуальному ассистенту. 

Когда мы попробовали использовать существующие модели для распознавания аудиосообщений, очевидно, не получили необходимого качества: аудиосообщения зачастую длинные, а распознавать нужно весь запрос, не пропуская ни одного слова.

Отлично. Проблема найдена, переходим к решению.

Сначала мы собрали из различных открытых источников длинные монологи, от нескольких десятков секунд до нескольких часов, порезали на короткие куски длиной не более 25 секунд и с помощью краудсорсинга получили для них транскрипции. А также перестали игнорировать фоновую речь.

Основная проблема такого подхода — трата большого количества времени на получение транскрипций. Процесс это долгий, и достаточное количество данных быстро таким образом не собрать. Пришлось прибегнуть к трюку.

На самом деле, модель, обученная не пропускать фоновую речь, у нас уже была – это модель, которая используется  для распознавания телефонных разговоров. Однако для её обучения использовался принципиально другой звук: частота дискретизации 8кГц, а для голосовых сообщений мы взяли за основу 16кГц.

Напрямую, без потери информации, использовать её было нельзя, но с её помощью нам удалось расширить обучающую выборку. Мы взяли короткие куски монологов, для которых у нас ещё не было транскрипций, понизили их частоту до 8 кГц и сделали псевдоразметку: распознали записи с помощью модели для телефонии. Дальше просто привязали полученные транскрипции к исходному звуку с качеством 16 кГц.

Кроме того, для формирования обучающей выборки мы использовали полученные ранее аудиозаписи с транскрипциями, на которых обучалась модель телефонии, повысив частоту дискретизации.

Таким образом, нам удалось значительно увеличить обучающую выборку, перестать игнорировать фоновую речь, и, как следствие, улучшить качество распознавания аудиосообщений в нашем Telegram-боте.

Пунктуация

Бот способен расставлять знаки пунктуации и делить текст на предложения. Это довольно простая seq2seq-модель 4-классовой классификации (пустота, точка, запятая, знак вопроса), обученная на открытых данных общения из интернета. В отличие от большинства моделей, наша не анализирует текст полностью, а учитывает паузы между словами для разбиения текста на значимые части, которые анализируются независимо. Это позволяет распознавать быстрее. А ещё мы не ставим точку в конце единичного предложения — так же, как и вы при общении в мессенджере.

Приглашаем вас опробовать наш Telegram-бот в деле: https://t.me/smartspeech_sber_bot

Телеграм бот для расшифровки голосовых аудио сообщений в текст

Одна из наиболее популярных функций — преобразование информации, с которым справляется только Телеграм бот: голосовое аудио в текст. Это удобная опция, позволяющая наговорить определённую фразу, после чего специальная программа перенесёт информацию в текстовый вариант. Ниже рассмотрим, каких помощников можно использовать для расшифровки, как их использовать, и для чего это нужно. А вот здесь смотрите одну из наших подборок ботов.

Назначение

Перевод голосового сообщения в текст — полезная опция, позволяющая изменить формат письма из аудио в текстовую форму. Практика показывает, что отправка письма голосом удобна только для отправителя. Для другой стороны имеется ряд недостатков:

  1. Высокие требования ко времени, необходимому для прослушивания.
  2. Неудобная обстановка, к примеру, нахождение в театре, кафе, в кабинете начальника и т. д.
  3. Невозможность поиска нужной информации по голосу.
  4. Сложность «выуживания» важных сведений в длинном сообщении.

На этом фоне будет полезна расшифровка материала, а именно распознавание наговариваемого текста и его преобразование в текст. Для таких целей не нужно ничего делать — достаточно установить специального бота и наговорить ему нужный материал и выполнить отправку.

Какие боты, и как использовать

Существует много Телеграм ботов для перевода голосовых аудио в текст. Все они имеют похожий функционал, но могут отличаться по качеству преобразования. Ниже рассмотрим наиболее популярные варианты.

Voice

Наиболее популярный бот для расшифровки голосовых сообщений — Voice. Для его использования сделайте следующие шаги:

  • Перейдите по ссылке telegram.me/voicybot.
  • Запустите и активируйте.
  • Перешлите в него аудио.
  • Дождитесь распознавания и получите текстовый материал для отправки в Телеграм.

Перед пользованием бот предлагает выбор языка и движка, который будет конвертировать аудио в речь. По умолчанию применяется Wit.ai. Он неплохо справляется с распознаванием голосовых сообщений, но их длина вне должна превышать 50 секунд. Применение команды /engine позволяет выбрать другой движок. В качестве варианта можно использовать Yandex.SpeechKit, который не имеет ограничений по времени, но хуже распознает аудио. Еще один хороший движок — Google Speech. В нем нет ограничений по длине сообщения, а качество перевода лучше всего.

При добавлении Voice в группу он будет автоматически преобразовывать голосовые сообщения в текстовые. По желанию можно включить тихий режим посредством отправки /silent, после чего бот перестаёт информировать о старте конвертации аудио в обычное письмо. Для отключения работы применяется команда /files.

Несмотря на применение современных алгоритмов в боте для Телеграмм, голосовое аудио не всегда корректно преобразуется в текст. Зачастую не понятно, в каких случаях появляются ошибки, и от чего они зависят. Наибольшие трудности возникают с нестандартными словами, которые помощник не может перевести из голосового аудио в текст. Так что правописание слов может быть нарушено. Здесь мы писали ещё кое-что о телеграм правописании.

Можно использовать и другие боты для Телеграм:

  1. Transcriber Bot — telegram.me/Transcriber_Bot. Применяется для распознавания текста на картинках и перевода голосовых сообщений в текстовую информацию. После установки входите и пробуйте возможности.
  2. Text to Speech Bot — telegram.me/texttsbot. Также способен превратить любое голосовое аудио в Телеграм в текст. После установки выберите язык и тип голоса.
  3. VoiceMsgBot — t.me/VoiceMsgBot. В этом боте для Телеграм высокий процент брака, поэтому его применение рекомендуется в редких случаях.

Альтернативы

Применение Телеграм ботов для перевода голосового аудио в текст — наиболее быстрое решение, позволяющее сэкономить время и получить сообщение в более оптимальном формате. Альтернативой является только прослушивание голосовой информации или просьба отправителей писать сообщения только в текстовой форме.

В комментариях расскажите, приходилось ли вам использовать Телеграм бота для преобразования аудио в текст, и какое вариант нравится больше всего.

MANная каша — канал в Телеграмм

Телеграм канал Антиглянец

AI Transcription Bot для Slack и Google Chat

Transcriber: AI Transcription Bot для Slack и Google Chat

Преобразование аудио- и видеоконтента в текст и субтитры за минуты

Как это работает

Бот Transcriber быстро и точно конвертирует аудио или видео файлы в текст и субтитры!

Загрузка

Загружайте аудио/видеофайлы или делитесь общедоступными веб-ссылками (например, общими файлами Google Диска или Dropbox, YouTube, Vimeo, Dailymotion, TikTok, Facebook, Instagram, видео Twitch и т. д.) с помощью бота Transcriber.

Расшифровка

Процесс транскрипции обычно занимает половину длины аудиофайла, чтобы полностью расшифровать файл. Бот Transcribe уведомит вас, когда будут готовы результаты транскрипции.

Редактировать и экспортировать

Бот Transcriber соединяет ваше аудио с текстом в онлайн-редакторе корректуры. Это поможет вам быстро проверить и экспортировать результаты транскрипции в форматы TXT, DOCX, XLSX, PDF, RTF, ODT, HTML, SRT, VTT.

Функции

Набор удивительных функций, которые помогут вам транскрибировать аудио и видео за считанные секунды

Распознавание речи

Мощная технология преобразования речи в текст автоматически преобразует голос в текст за секунды

Многоязычность

Программное обеспечение для преобразования аудио в текст поддерживает несколько языков разговоры

Transcribe Anywhere

Расшифровка локальных файлов или файлов, доступных через общедоступные URL-адреса (Google Drive, Dropbox, YouTube, Vimeo и т. д.)

Автоматическая пунктуация

Транскрипция аудио и видео включает запятые, точки, вопросительные знаки, точки

Редактирование Инструменты

Интерфейс корректора помогает пользователям редактировать и проверять результаты распознавания речи.

Экспорт стенограммы

Экспорт результатов расшифровки аудио в выбранный вами формат (txt, pdf, docx и т. д.)

Часто задаваемые вопросы

  • Мои данные в безопасности?

    Бот Transcriber полностью соответствует GDPR. Все наши физические серверы расположены в Европе (Франция), и мы шифруем все ваши данные, пересылаемые между вами и сервисом. Служба транскрипции полностью автоматизирована, поэтому ваши данные конфиденциальны, и в этом процессе нет места человеческому фактору и другим рискам, связанным с ручной транскрипцией. Вы можете удалить результаты расшифровки и загруженные файлы в любое время. Безопасность данных в Slack и Google Chat является наивысшим приоритетом. Вы можете узнать больше об их методах обеспечения безопасности и соответствия требованиям здесь: Slack, Google Chat.

  • Какие языки поддерживаются?

    В настоящее время бот Transcriber поддерживает английский, немецкий, французский, испанский, итальянский, голландский, португальский, хинди, арабский, китайский, японский, русский, украинский, филиппинский, греческий языки. Если вам нужен другой язык, воспользуйтесь нашей платформой транскрипции.

  • Какова цена?

    Вы можете попробовать бота Transcriber бесплатно. 30 минут транскрипции включены для всех новых аккаунтов. Если вам нужно больше, пожалуйста, обратитесь к нашей странице цен.

  • Как работает ценообразование?

    Мы предоставляем набор пакетов с оплатой по мере использования. Система с оплатой по мере использования — это система, в которой вы платите за услугу до ее использования, и вы не можете использовать больше, чем вы заплатили. Все наши предоплаченные пакеты являются пожизненными предложениями без ежемесячной платы. Если вы израсходовали приобретенные минуты, вы можете снова обновить свою учетную запись до выбранного предоплаченного пакета.

  • Какие способы оплаты вы поддерживаете?

    Мы принимаем PayPal, Amazon Pay и все основные кредитные карты (включая Visa, Mastercard, Discover, American Express и UnionPay).

  • Вы предлагаете какие-либо скидки?

    Да. Свяжитесь с нашей командой, если вы транскрибируете более 500 часов в год, и они могут вам помочь.

  • Вы предоставляете счета?

    Да. Сообщения электронной почты с подтверждением заказа, отправляемые клиентам, содержат ссылку на сайт управления учетной записью клиента, где вы можете загрузить свои счета.

  • Защищен ли мой платеж?

    Мы не храним и не собираем данные вашей платежной карты. Эта информация предоставляется непосредственно нашему стороннему платежному процессору FastSpring, чье использование вашей личной информации регулируется их Политикой конфиденциальности. Процессор платежей придерживается стандартов, установленных PCI-DSS, которые управляются Советом по стандартам безопасности PCI, который является совместным усилием таких брендов, как Visa, Mastercard, American Express и Discover. Требования PCI-DSS помогают обеспечить безопасную обработку платежной информации.

Служба автоматической транскрипции аудио в текст и приложение

Нам доверяют более 10 000 клиентов

Представлять на рассмотрение

Загрузите любой аудио- или видеофайл.
Мы принимаем все типы файлов.

Редактировать

Просмотрите стенограмму с отметками времени и спикерами.
См. демонстрацию

Скачать

Сохраните и экспортируйте стенограмму в формате
MS Word, PDF, SRT, VTT и других форматах.

Качество стенограммы зависит от качества звука
  • Небольшой фоновый шум
  • Прозрачный динамик(и)
  • Минимальные акценты

Результат: точность 90–95 %

См. пример

  • Сильный фоновый шум
  • Сильные акценты

Результат: Почти непригоден для использования

См. пример

Бесплатная пробная версия

  • Одна стенограмма до 45 минут
  • Доступ ко всем функциям
  • Кредитная карта не требуется

Оплата

  • 0,25 доллара США за минуту аудио
  • Нет подписок
  • Нет минимума
  • Без дополнительной оплаты

Повернись

  • Стенограммы за считанные минуты
  • Более короткие файлы доставляются быстрее
Отредактируйте свои стенограммы

Посмотреть образец стенограммы

Теми обеспечивает:

Шифрование данных TLS 1.

This entry was posted in Популярное