Программы для транскрибации, которые помогут расшифровать речь в текст

Speechpad.ru

Русскоязычный онлайн сервис распознавания речи. Имеет подробную инструкцию по работе на русском языке.

Среди основных функций «Голосового блокнота» (так сам автор называет свой сервис) следует выделить:

  • поддержку 7 языков (русский, украинский, английский, немецкий, французский, испанский, итальянский)
  • загрузку для транскрибации аудио или видео файла (поддерживаются ролики с YouTube)
  • синхронный перевод на другой язык
  • поддержку голосового ввода знаков препинания и перевода строки
  • панель кнопок (смена регистра, перевод на новую строку, кавычки, скобки и т.п.)
  • наличие персонального кабинета с историей записей (опция доступна после регистрации)
  • наличие плагина к Google Chrome для ввода текста голосом в текстовом поле сайтов (называется «Голосовой ввод текста — Speechpad.ru»)

Условия и ограничения

Распознавание речи — платная услуга, но Яндекс даёт 60 дней и 3000 ₽ для тестирования. За эти деньги можно распознать 83 часа аудио — больше трёх суток непрерывного разговора. Это очень много: за время подготовки этой статьи и тестирования технологии мы потратили 4 рубля за 3 дня.

Если отправлять файлы с записью больше минуты, то одна секунда аудио стоит одну копейку. Чтобы распознать запись длиной в час, нужно 36 рублей. Это примерно в 20 раз дешевле, чем берут транскрибаторы — люди, которые сами набирают текст на слух, прослушивая запись.

Нейросеть часто понимает, когда текст нужно разбить на абзацы, но делает это не всегда правильно.Ещё она не ставит запятые, тире и двоеточия. Максимум, что она делает — ставит точку в конце предложения и начинает новое с большой буквы. Но при этом почти все слова распознаются правильно, и отредактировать такой текст намного проще, чем набирать его с нуля.

Последнее — из-за особенностей нашей речи и произношения SpeechKit может путать слова, которые звучат одинаково (код — кот) или ставить неправильное окончание («слава обрушилось на него неожиданно»). Решение простое: прогоняем такой текст через орфонейрокорректор и всё в порядке. Одна нейронка исправляет другую — реальность XXI века

Всё, приступаем.

Иногда результат получается вот таким, но на понимание текста это не сильно влияет.

Dragon Dictation

Это приложение, которое распространяется бесплатно для мобильных устройств от компании Apple.

Программа может работать с 15 языками. Она позволяет редактировать результат, выбирать из списка нужные слова. Нужно четко проговаривать все звуки, не делать лишних пауз и избегать интонации. Иногда возникают ошибки в окончаниях слов.

Приложение Dragon Dictation используют обладатели яблочных гаджетов, например, чтобы, перемещаясь по квартире, надиктовать список покупок в магазине. Придя туда, они могут посмотреть на текст в заметке, и не надо слушать.

Только так можно будет получить безукоризненный текст без ошибок.

Программа «Laitis»

Бесплатная русскоязычная программа для распознавания голоса «Laitis» обладает хорошим качеством понимания речи, и, по мнению её создателей, способна практически полностью заменить пользователю привычную клавиатуру. Программа хорошо работает и с голосовыми командами, позволяя с их помощью выполнять множество действий по управлению компьютером.

Для своей работы программа требует обязательного наличия на ПК скоростного интернета (в работе программы используются сетевые сервисы распознавания голоса от «Google» и «Yandex»). Возможности программы позволяют, также, управлять с помощью голосовых команд и вашим браузером, для чего необходима установка на веб-навигатор специального расширения от «Laitis» (Chrome, Mozilla, Opera).

RealSpeaker

Эта программа позволяет легко переводить человеческую речь в текст. Она предназначена для работы в разных системах: Windows, Android, Linux, Mac. С ее помощью можно преобразовывать речь, звучащую в микрофон (например, он может быть встроен в ноутбук), а также записанную в аудиофайлы.

Может воспринимать 13 языков мира. Существует бета-версия программы, которая работает в режиме онлайн-сервиса:

Нужно перейти по указанной выше ссылке, выбрать русский язык, загрузить на онлайн-сервис свой аудио- или видео-файл и оплатить его транскрибацию. После транскрибации можно будет скопировать полученный текст. Чем больше файл для транскрибации, чем больше времени понадобится на его обработку, подробнее:

В 2017-ом году был бесплатный вариант транскрибации с помощью RealSpeaker, с 2018 года такой возможности нет. Вероятно для того, чтобы транскрибированный файл был недоступен всем пользователям для скачивания, необходимо наличие галочки напротив “Сделать файл неудачным в течение 24 часов”.

На сайте есть онлайн-чат. Кнопка, чтобы начать чат, находится в правом нижнем углу сайта.

Dictation.io

Сервис онлайн распознавания речи через микрофон. Посредством голоса можно расставлять параграфы, знаки пунктуации и даже смайлики. Dictation пригодится для написания электронных писем или заполнения документов в браузере.

Использование сервиса:

  • Перейти на страницу транскрибации.
  • В правой части экрана нажать на три горизонтальные полоски, чтобы выбрать язык ввода. Поддерживается большое количество языковых направлений.

В левом нижнем углу кликнуть по кнопке «Start».

Начать диктовку текста.
Редактирование материала осуществляется путем встроенного редактора. Непосредственно со страницы можно выполнить сохранение текста, его публикацию, печать.

Программы для перевода аудио в текст

Как мы поняли, транскрибация, это перевод речи в текст. То есть, мы должны записать все то, что нам говорят.

Для этой цели существуют как элементарные, так и профессиональные программы.

Текстовый редактор Microsoft Word

Самый банальный способ осуществить перевод аудио в текст, это воспользоваться:

  1. Запустить аудио или видео файл.
  2. Открыть текстовый редактор.
  3. Слушать и набирать текст.

Изначально, в этом разделе планировал писать про Word, но поразмыслив, решил, что подойдет любой текстовый редактор: блокнот, Word, Google Документы, LibreOffice Writer и другие. Главное, чтобы была возможность набирать текст с клавиатуры.

Банальность данного способа заключается в том, что вам придется по несколько раз прослушивать один и тот же участок аудио, если конечно вы не обладаете фантастической скоростью печатания.

И все же, этот способ имеет право на существование.

Профессиональная программа для транскрибации Express Scribe

Решили заняться переводом аудио в текст? Лучшее что можно предложить, это программа Express Scribe.

Данная программа позволяет набирать текст непосредственно работая с аудио или видео файлом в соседнем окне. Работает следующим образом:

  1. Закачиваете в саму программу аудио или видео файл.
  2. При помощи горячих клавиш, настраиваете функции воспроизведения или остановки ролика.
  3. В соседнем окне набираете текст.

Разработчики предоставляют платную и немного урезанную бесплатную версию. Как по мне, если вы не занимаетесь профессионально транскрибацией, достаточно будет бесплатной версии.

Из минусов: она на английском и русификатора нет. Хотя, интерфейс на столько понятен, что языковой барьер не должен стать преградой.

Из плюсов:

  • Для набора текста, не нужно переключаться между программами.
  • В зависимости от скорости печатания, можно подстроить под себя, скорость проигрывания записи.
  • Предусмотрено огромное количество настраиваемых горячих клавиш, которые помогут в работе с программой.
  • Имеется возможность расстановки тайм-кодов.

Скачать Express Scribe.

Плеер для расшифровщиков LossPlay

Плеер LossPlay, представляет из себя модернизированный проигрыватель аудио и видео файлов. В основе идеи функционала, был взят известный плейер Winamp.

Транскрибация происходит по следующему принципу:

  1. Запустите плеер LossPlay.
  2. Добавьте аудио или видео файл.
  3. Откройте любой текстовый редактор, в котором будем набирать текст.
  4. Начните воспроизведение файла.

Чем же отличается этот способ, от способа предложенным самым первым?

По сути, да, идея та же самая. И все же есть свои нюансы. Дело в том, что при запуске аудио или видео файла, есть возможность свернуть плеер и работать только в текстовом редакторе. К плееру, можно обращаться по средством горячих клавиш, которым можно:

  • запустить воспроизведение;
  • остановить воспроизведение;
  • замедлить воспроизведение;
  • установить тайм-код;
  • и многое другое.

По заявлению разработчика, LossPlay идеально подойдет для перевода аудио в текст. Продукт, по функционалу, стоит на равное с профессиональными разработками, но имеет преимущество в меньшем расходе системных требований компьютера.

Скачать LossPlay

Проблемы при заработке на транскрибации

В любой работе есть свои тонкости и нюансы, обработка аудио и видео файлов не исключение. Фрилансеры сталкиваются с разными трудностями, это касается не только заказов на транскрибацию. Вот несколько негативных моментов этой деятельности:

  1. Мошенники – обещают высокие вознаграждения, привлекают новичков, говорят о стабильном сотрудничестве. По факту, после обработки материала, просто кидают. Придумывают причины или просто испаряются.
  2. Качество файлов – в некоторых случаях оно настолько плохое, что вообще невозможно разобрать, что произносит диктор. Кроме этого, он может использовать стоп слова, которые необходимо пропускать.
  3. Сроки – их нельзя срывать, но заранее установить точные временные рамки просто невозможно. Плохая запись, проблемы с оборудованием, дополнительные требования. Лучше заранее установить увеличенный срок выполнения.
  4. Дополнительные требования – на доработку текст отправляют часто, просят разбивать его на абзацы, удалить слова «паразиты», провести прочее форматирование. Составляйте ТЗ, где будут указаны все условия, тогда будет проще отказаться от лишней работы.
  5. Левые сайты – запускаются злоумышленниками, якобы для предоставления работы. Под разными предлогами они вытягивают деньги из исполнителей. Используйте только представленные выше сервисы.

Иногда приходится сидеть без работы, в другие дни тебя заваливают работой. В заработке фрилансером это нормальное явление и к этому стоит подготовиться. Всем тем, кто умеет работать с текстами, стоит попробовать свои силы ещё и в копирайтинге.

Трудности поджидают ещё на старте, когда регистрируешься на бирже и с нулевым рейтингом пытаешься взять заказ

Важно не опускать руки, рано или поздно, найдется заказчик и вы получите работу. А дальше всё закрутится, как снежный ком

Speech recognition tool troubleshooting

The following problems might occur:

  • The browser doesn’t support speech recognition : the latest version of Chrome does.We highly recommend you to use Chrome.
  • Hardware problem with the microphone : make sure your computer has detected your microphone.
  • Permission for accessing the microphone is not granted.Allow our Speech Recognition tool to have access to your microphone.
  • The browser listens to the wrong microphone.To solve microphone permission issues, click on the small camera icon in the browser’s address bar (will appear after you click on the start dictation button), and set there the permission to allow the use of microphone, and pick the correct microphone from the dropdown list.

If you have other issues, please contact us describing the problem in detail.

Яндекс Переводчик

Сервис Яндекс Переводчик для перевода речи в текст работает в любых браузерах, в отличие от переводчика Гугла.

Выполните следующие шаги:

  1. Откройте страницу Яндекс Переводчик в браузере.
  2. Нажмите на значок микрофона (Голосовой ввод), расположенный в поле ввода исходного текста.
  3. Разрешите Яндекс Переводчику использовать микрофон на вашем компьютере.

  1. Говорите в микрофон, текст будет отображаться в окне переводчика. Одновременно текст будет синхронно переведен на другой язык, если вам необходима такая возможность.

В Яндекс Переводчик имеется возможность для перевода видео или аудио файлов из интернета:

  1. Включите микрофон на панели для ввода исходного текста.
  2. Откройте другую вкладку в браузере, запустите воспроизведение аудио или видео из интернета.
  3. В окне Яндекс Переводчика начнет отображаться текст. Параллельно будет вводится перевод на другой язык (если это вам нужно).

На Сервисе Яндекс Переводчик имеется ограничение в 10 000 знаков для одного перевода. Обход ограничения количества переведенных знаков:

  1. При подходе к лимиту, поставьте плеер на паузу, или прекратите диктовать в микрофон.
  2. Скопируйте в любой текстовый редактор переведенный текст.
  3. Включите голосовой ввод, а затем снова запустите воспроизведение исходного видео или аудио файла, чтобы продолжить перевод аудио в текст онлайн.

Преобразование речи в текст из видео или аудио файла, хранящегося на ПК, при помощи Яндекс Переводчика:

  1. Откройте окно Яндекс Переводчик, нажмите на кнопку «Голосовой ввод» (микрофон).
  2. При помощи мультимедиа плеера запустите видео или аудио файл на компьютере.
  3. В окне переводчика для ввода исходного текста появится перевод голоса в текст.

Попробовать работу системы в демо-базе можно здесь.

Основные характеристики обработки:

  1. Обработка работает на любой конфигурации на платформах 8.2 или 8.3 и подключается к базе как внешняя обработка (не требуется изменение конфигурации)
  2. Обработка написана на управляемых формах
  3. Для распознавания аудизаписи используется сервис «Yandex SpeechKit Cloud»
  4. Обработка может распознавать файлы в формате WAV (сервис Yandex SpeechKit Cloud может так же обрабатывать файлы в формате MP3, но для этого потребуется доработка обработки)
  5. Длина файла может быть любой (у сервиса Yandex SpeechKit Cloud есть ограничение на максимальную длину файла в 1  Мбайт, поэтому в обработку встроен механизм по «нарезки» файла на фрагменты нужной длины и поочередное их распознавание)
  6. С условиями использования сервиса Yandex SpeechKit Cloud можно/нужно ознакомиться здесь. 

Варианты использования обработки:

  1. Ручной режим — Обработка подключается к базе как внешняя обработка. Пользователь выбирает вручную файл, который требуется распознать, нажимает на кнопку Преобразовать и в соответствующем окне появляется распознанный текст из аудиозаписи. Этот текст пользователь может использовать по своему усмотрению (сохранить, прикрепить к карточке клиента и т.д.). Данный режим не зависит от конфигурации базы 1С, в которой запускается обработка (т.е. работает в любой базе 1С).
  2. Автоматический режим — Обработка запускается автоматически, ищет в базе 1С все телефонные звонки, которые еще не распознаны, и поочередно распознает их. Данный режим в типовом виде может использоваться только в конфигурации 1С:Управление торговлей 11, в которой настроена интеграция с IP телефонией (но легко может быть адаптирован для других конфигураций)
  3. «Донорский» режим — В обработке реализован механизм взаимодействия между 1С и сервисом Yandex SpeechKit Cloud. Распознавание аудиозаписей может пригодиться для множества других бизнес-процессов компаний. Поэтому наше решение может быть использовано в качестве «отправной» точки в построении каких либо других решений (код обработки полностью открыт)

Технические детали:

  1. Для «нарезки» файла на фрагменты нужной длины используется внешняя dll, которую нужно зарегистрировать в системе для использования обработки. 
  2. В типовом варианте практически весь процесс работы обработки выполняется на Клиенте.  Такая архитектура была выбрана по нескольким причинам: 1 — в клиент-серверном варианте нельзя «на сервере» подключить внешнюю dll (ограничение платформы 1С), поэтому приходится выполнять обработку «на клиенте». 2 — В компаниях часто сервер 1С и сервер IP телефонии находятся в разных местах (и с сервера 1С нет прямого доступа к серверу IP телефонии). Поэтому обработку нужно запускать на той машине, с которой физически видны файлы записей телефонных разговоров. Для этогов нашем случае используется простой bat файл, который средствами регламентных заданией windows запускает обработку в 1С по нужному расписанию.

Часто задаваемые вопросы:

  1. Если Клиенту необходим функционал, которого нет в исходной версии обработки, то мы готовы это сделать по запросу. Стоимость доработок зависит от количества изменений, которые потребуется внести в подсистему и определяется вначале при составлении Технического задания на доработку.
  2. В течении 6 мес. обновления обработки будут высылаться по запросу бесплатно. Далее подписка на год на обновления будет стоить 50% от стоимости решения.
  3. Техподдержка бесплатна на протяжении 1 месяца с момента покупки. Запросы клиента будут обрабатываться в текущем режиме в рабочие дни, но не более 1х суток после поступления запроса. Далее техподдержка осуществляется на платной основе по ставке 2000 руб./час.

Настройка виртуального кабеля

1. Скачиваете виртуальный кабель, распаковываете его в папку и запускаете либо VBCABLE_Setup.exe, либо VBCABLE_Setup_x64.exe (в зависимости от разрядности вашей Windows)

2. Открываете окно управления записывающими устройствами и делаете CABLE Output устройством по умолчанию.

3. Открываете окно управления устройствами воспроизведения и делаете CABLE Input устройством по умолчанию.

4. Теперь можно приступать к транскрибированию. После этих манипуляций звук будет идти из выхода аудио на запись, микрофон при этом перестает работать. Чтобы вернуть его для работы нужно сделанные исменения откатить (вернуть все назад).

Сайт speechpad.ru

Это онлайн-сервис, который позволяет через браузер Google Chrome переводить речь в текст. Сервис работает с микрофоном и с готовыми файлами. Конечно, качество будет значительно выше, если использовать внешний микрофон и диктовать самому. Однако сервис неплохо справляется даже с видеороликами на YouTube.

Нажимаем «Включить запись», отвечаем на вопрос про «Использование микрофона» – для этого кликаем «Разрешить».

Длинную инструкцию про использование сервиса можно свернуть, нажав на кнопку 1 на рис. 3. От рекламы можно избавиться, пройдя несложную регистрацию.

Рис. 3. Сервис speechpad

Готовый результат легко редактируется. Для этого нужно либо вручную исправить выделенное слово, либо надиктовать его заново. Результаты работы сохраняются в личном кабинете, их также можно скачать на свой компьютер.

Список видео-уроков по работе с speechpad:

Можно транскрибировать видео с Youtube или со своего компьютера, правда, понадобится микшер, подробнее:

Видео «Транскрибирование аудио»

Работает сервис с семью языками. Есть небольшой минус. Он заключается в том, что если нужно транскрибировать готовый аудио-файл, то его звучание раздаётся в колонки, что создает дополнительные помехи в виде эха.

Перевести текст в аудио — Транскрипция

OneNote

Воспользуемся OneNote, чтобы преобразовать текст в аудио-речь. Мы сможем просто вставить готовый текст и озвучить его голосовым ассистентом. Программа OneNote встроена в Windows 10, что позволит нам не пользоваться сторонними программами и онлайн сервисами. Также, она есть и онлайн версия. OneNote также есть и на мобильных устройствах IOS и Android, но я буду пример показывать для Windows 10.

  1. Наберите в поиске меню пуск «OneNote» и запустите приложение.
  2. Создайте разделы в левом столбце, если в этом есть необходимость.
  3. Справа напишите или вставьте текст, который нужно озвучить.
  4. Нажмите сверху на вкладку «Иммерсивное средство чтения» и текст будет озвучен.

Если вам нужно нужно преобразовать текст в аудио формат, чтобы скачать аудио файл, то нажмите на вкладку «Вставка» > «Звук» (иконка микрофона). После записи появится файл формате mp3. Нажмите по нему правой кнопкой мыши и выберите «Сохранить как». Это позволит вам локально сохранить аудиофайл.

Yandex SpeechKit

Yandex SpeechKit — онлайн сервис для бета-тестирования синтеза речи. Также можно скачать озвученный файл в формате OGG для прослушивания в проигрывателях.

  1. Перейдите на сервис Яндекса speechkit.
  2. Добавьте нужный вам текст в левом столбце.
  3. Справа вы можете настроить скорость голоса, эмоцию и выбрать ассистента.
  4. Ниже нажмите на «Синтезировать речь», чтобы текст перевелся в аудио.
  5. Если вам нужно скачать озвученный текст, то нажмите на конку скачивания.
  6. Преобразованный текст в аудио будет в формате .ogg.

Any Text to Voice

Any Text to Voice бесплатное приложение UWP из Microsoft Store, которое переведет текст в аудио и позволит сохранить в формате mp3.

  1. Перейдите в Microsoft Store и установите приложение.
  2. Выберите обязательно ассистента для озвучки. Если текст русский, и ассистент должен быть русский. Приложение берет встроенную озвучку в Windows 10. Если вам нужен арабский, то в параметрах языка ввода Windows 10 установите нужный вам арабский.
  3. Нажав на «Save as audio» вы сможете сохранить озвученный файл в формате mp3.

Смотрите еще:

  • Как распознать текст с картинки и перевести его на другой язык 
  • Как скачать видео из Твиттера 
  • Как скачать музыку с SoundCloud на компьютер или телефон 
  • Как удалить аккаунт в Инстаграме 
  • Как скачать Википедию на компьютер или телефон

Загрузка комментариев


Канал
Чат

Кто платит

Основными заказчиками на рынке являются веб-мастера или интернет-коучеры, которым надо перевести содержимое аудио и видеофайлов в текст. Посмотрите, как сейчас много информации подается через видео на личных ютуб-каналах, в перепископе, на конференциях и онлайн-курсах. Но в интернете главное все же текст, текст и только текст. Поэтому, с каждым днем объем работы не падает, а постоянно растет и сейчас можно занять свое место в лодке и заработать неплохие деньги.

Так же часто к услугам транскрибации прибегают журналисты, которые записывают интервью на диктофон, но времени на перепечатку содержимого времени не имеют или попросту ленятся.

Если сейчас с заказчиками могут быть по началу проблемы, то со временем и повышением вашей квалификации эта проблема отпадет.

Сервисы-конверторы

В интернете есть множество сервисов, которые предлагают автоматически расшифровать текст. Конечно, есть смысл использовать только те, которые трансформируют материал без ошибок. Однако за качественные услуги придется заплатить. Впрочем, даже бесплатные сервисы можно оценить на твердую четверку, если запись имеет высокое качество.

Google Docs

Удивительно, но сервис конвертации есть у Google в «Документах». Многие даже не подозревают, что там есть функция «голосового ввода». Я сама узнала об этом всего полгода назад. Находится она во вкладке «Инструменты». Это не автоматическая система, в нее нельзя загрузить файл с видео и быстро получить расшифрованный текст. Можно просто запустить видео и подождать, пока Google запишет слова «на слух». Итоговый текст будет сильно зависеть от качества видео. Но учтите, что посторонние шумы очень ухудшают расшифровку.

Расшифровка текста с помощью Google Docs

Сервис Speechpad

Российский сервис Speechpad поддерживает русский язык. Отличается от Google Docs большим набором функций, поскольку может переводить в текст не только устную речь, но и видео- и аудиофайлы. Кажется, сервис понимает русскую речь немного лучше, чем Google.

Сервис Speechpad

Сервис Dictation

Dictation – западный программный продукт, однако он также поддерживает русский и еще сотню других языков. Конвертировать можно только «живой» голос. Функция автоматической расшифровки файлов не поддерживается. В целом сервис очень похож на «голосовой ввод» Google Docs.

Интерфейс Dictation

RealSpeaker

Хороший платный сервис, который поддерживает расшифровку файлов с видео- и аудиоконтентом. Русскую устную речь также можно конвертировать в текст. Разрешается бесплатно расшифровывать записи длиной до 90 секунд.

Сервис RealSpeaker

Speechlogger

Speechlogger даже не требует регистрации и работает бесплатно. Он достаточно резво распознает речь и быстро переводит ее в текстовый формат. Получившийся текст можно сохранять в стандартных форматах.

Интерфейс Speechlogger

Если купить платный доступ к сервису, появится возможность расшифровывать файлы в большинстве известных форматов видео и аудио, в том числе в .avi, .mp3, .mp4 и так далее.

Vocalmatic

Вот это просто крутой сервис: он распознает даже песни. Алгоритм прекрасно справляется со сложными речевыми оборотами и шумами на заднем фоне.

Vocalmatic

Конечно, за качество необходимо платить. У Vocalmatic есть несколько тарифов, которые дают разные уровни доступа к инструментам сервиса.

Бесплатно будет позволено расшифровать только 30 минут видео или аудио. Далее придется приобрести один из платных пакетов.

Звуковые переводчики онлайн

Готовы учиться переводить иностранные аудиозаписи? Тогда, приступим.

Топ-5: Аудио переводчики с английского на русский

  1. Использование Гугл Переводчика или Яндекс Переводчика. Этот способ хорош тем, что вы одновременно можете получить, как английский текст, так и его перевод. Настройте переводчик – над левым окном установите исходный язык аудио (английский), а над правым – язык, на который необходимо перевести (русский). Под левым окном переводчика нажмите на микрофон, разрешите использование микрофона, поднесите микрофон к колонкам, включите аудио и наслаждайтесь Подобным образом вы можете работать и с переводчиком от Яндекса:
  2. Еще один очень удобный сервис для распознавания речи и мгновенного перевода — speechlogger.appspot.com. Выставьте настройки – исходный язык, авто пунктуация, язык, далее также нужно поднести микрофон к колонкам, включить аудио и нажать на иконку “Микрофона”.
  3. С использованием speechpad.ru По работе с этим сервисом много инструкций в интернете. Особенно часто его используют для перевода речи в текст. Мы же будем использовать его для автоперевода. Перейдите на сервис speechpad, нажмите на кнопку +перевод, как показано на скриншоте ниже: Теперь выставьте настройки, как у меня на скриншоте: 1. Включите микрофон, 2. разрешите использование микрофона на сайте spechpad, 3. поднесите микрофон к колонкам, 4. Включите аудио (или видео) с иностранной речью.
  4. Второй вариант перевода английского аудио в текст – онлайн сервис dictation.io. Поднесите микрофон к колонкам, включите аудиозапись на английском языке и нажмите на сервисе кнопку “Start dictation”. После завершения записи нажмите “stop dictation”. Сохранить текст можно, нажав на кнопку “save”. Запись сохраниться в текстовом файле txt.
  5. Больше всего мне нравится третий вариант преобразования английской речи в текст. Перейти на сервис онлайн speech-to-text-demo. Он хорош тем, что не обязательно нужно проигрывать аудиофайл, хотя такая функция в сервисе тоже имеется. Благодаря этому, вы можете переводить аудио в текст в абсолютной тишине, если это требуется, например, если вы привыкли работать по ночам. Вторым вариантом является простая загрузка аудиофайла на сервис, где он автоматически распознается и будет переведен в текстовый файл. Однако не любой аудиофайл можно загрузить на сервис. Поддерживаются только расширения .wav, .flac, или .opus. Файл mp3 загрузить не получится, но и здесь есть выход – вам нужно всего лишь воспользоваться любым аудио конвертером, можно тоже онлайн. Рекомендую для конвертации аудио в другой формат сервис — online-audio-converter.com.Итак, теперь рассмотрим поэтапно процесс преобразования английской речи в текст при помощи указанного сервиса. Предположим, что у вас файл mp3. Значит, вам сначала нужно сконвертировать файл при помощи сервиса online-audio-converter.com. Вам нужно открыть аудиофайл, выбрать расширение, в которое необходимо сконвертировать (wav) и нажать кнопку “Конвертировать”. после завершения конвертации скачайте файл: Второй шаг – собственно перевод английского аудио в текст на сервисе speech-to-text-demo. Перейдите на этот сервис, нажмите на кнопку “Upload audio file” (загрузить аудио файл) и выберите из папки вашего компьютера сконвертированный в wav, flac или opus аудио файл. Через некоторое время в окне появится текст аудио. Пример:

Сравнительный тест сервисов

Для теста выберем два непростых для распознавания фрагмента, которые содержат нечасто употребляемые в нынешней речи слова и речевые обороты.  Для начала читаем фрагмент поэмы «Крестьянские дети» Н. Некрасова.

Ниже представлен результат перевода речи в текст каждым сервисом (ошибки обозначены красным цветом):

Как видим, оба сервиса практически с одинаковыми ошибками справились с распознаванием речи. Результат весьма неплохой!

Теперь для теста возьмем отрывок из письма красноармейца Сухова (к/ф «Белое солнце пустыни»):

Отличный результат!

Как видим, оба сервиса весьма достойно справляются с распознаванием речи – выбирайте любой!  Похоже что они даже используют один и тот же движок — уж слижком схожие у них оказались допущенные ошибки по результатам тестов ). Но если Вам необходимы дополнительные функции типа подгрузки аудио / видео файла и перевода его в текст (транскрибация) или синхронного перевода озвученного текста на другой язык, то Speechpad будет лучшим выбором!

Ну а это краткая видео инструкция по работе со Speechpad, записанная самим автором проекта:

Бот в Telegram

Чуть более функциональную онлайн-расшифровку аудио в текст предоставляет бот Voicy, расположенный в мессенджере Telegram. Он работает с голосовыми сообщениями и отдельно загруженными файлами. Качество распознавания находится на среднем уровне. Поддерживается смена «движка» на Google Speach, однако для этого потребуется предварительно оформить подписку в сервисе Cloud Speech-to-Text. По умолчанию используется бесплатная система Wit.ai.

Инструкция по работе с ботом:

Для просмотра всех команд Voicy необходимо отправить ему сообщение с текстом «/help».

Подведем итоги. Программа для преобразования голоса в текст на Виндовс присутствует только в сервисе Speechpad. Однако даже там основная часть данных берется с серверов. Прочие предложенные инструменты работают онлайн. Лучшим по качеству распознавания является Cloud Speech-to-Text. Бесплатная альтернатива представлена Google Переводчиком, где после установки специального драйвера получится проводить транскрибацию аудиофайлов.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Adblock
detector