Технологии
June 28, 2022

Сравнение расшифровки голосовых сообщений. Telegram vs Бот

Я оформил Telegram Premium в том числе потому, что хотел проверить, как хорошо будет работать технология транскрипции голосовых сообщений.

Для распознавания речи Telegram использует технологию от Google, но ниже всё равно буду писать что транскрипция от Telegram, чтобы у вас не было диссонанса. Не стану рассуждать о безопасности использования этой функции, потому что не вижу в этом никакого смысла. К тому же издание «Код Дурова» уже объяснило, почему это безопасно.

Здесь не будет цифр, таблиц, графиков (потому что мне лень), только текст исходного голосового сообщения (без самих голосовых, вы же здесь не за тем, чтобы слушать их) с описанием условий записи и 2 скриншота его транскрипции: от самого Telegram и бота VoiceTextRobot.


Голосовое № 1. Качественная запись

Я решил начать с простого и записать голосовуху у себя дома с ПК, используя гарнитуру Plantronics RIG 500HD в полной тишине.

Исходный текст:

Ну что ж, здравствуй Telegram, Telegram Premium. Тестируем распознавание, аа, голосовых сообщений. Сейчас я записываю дома, ээ, используя гарнитуру от [сказал очень тихо, поэтому повторил громче], от Plantronics. Достаточно качественный микрофон, но я говорю в нос и иногда какие-то слова могут съедаться. Посмотрим, как распознает этот, это голосовое сообщение Telegram Premium.

Расшифровка:

Слева транскрипция Telegram, справа — от бота.

В целом, расшифровка очень хорошая. По транскрипции выигрывает Telegram, но расстановка знаков препинания в разы лучше у бота.

Голосовое № 2. Запись на улице с ветром в TWS

Дальше пошёл стресс-тест и попытался расшифровать сообщение от своей девушки, так как в основном голосовые я получаю от неё и у меня не всегда есть возможность/желание их слушать.

Голосовое было записано на улице, в ветреную погоду, используя гарнитуру Xiaomi Mi True Wireless Earphones.

Исходный текст:

Ох, я тут вышла на улицу, резко стало холодно, хотя [еле слышно] днём было тепло, я в шортиках шла. Щас 16°, у меня ничё нет. Яя, надела джинсы розовые, чёрную футболку [очень быстро сказано], но джинсики мне нравятся, джинсики [быстро и очень тихо] классные, воот. [Начался ветер, который пытаются заглушить наушники] И взяла кофту с собой, которая у меня была в Кировграде, но такая смешная ваще. Но я не ожидала, что будет холодно, так резко при чём похолодало. Вообще прям, прохладно очень стало. [Ветер кончился] Хмм [грустный вздох], подстава подстав, а я пошла гулять с подругой, как раз иду навстречу к ней, вот.

Расшифровка:

Слева транскрипция Telegram, справа — от бота.

Вот тут я что-то вообще не понял прикола от Telegram, который просто пропустил первое предложение, хотя его слышно очень хорошо. Но расшифровка опять же лучше у Telegram. Хоть в некоторых предложениях бот и выигрывает, но в целом получается какая-то бессмыслица.

Голосовое № 3. Запись на улице с телефона

На следующий день я решил проверить, как будут расшифровываться мои голосовые, записанные на микрофон Samsung Galaxy S21+.

Я шёл по улице и был небольшой ветер.

Исходный текст:

Короче, я вышел с работы, [начал дуть слабый ветер] идёт ветер, так что, проверяем в условиях ветреных [ветер кончился], аа, распознавание голосовых в телеграме. Вот как назло, ветер перестал идти. Ну конечно.

Расшифровка:

Слева транскрипция Telegram, справа — от бота.

В данном случае оба справились со своей задачей хорошо.

Голосовое № 4. Запись на улице с Samsung с мигалкой на фоне

Подойдя к дороге, мимо проезжала машина с включёнными мигалками и я решил записать голосовое на их фоне. Остальные условия те же, что в 3 голосовой.

Исходный текст:

[Очень громко работает мигалка] Так, а сейчас на фоне [мигалки уже слышны далеко] летит аварийно [сказано невнятно и быстро] спасательная служба. Проверяем как на фоне мигалок... будет... расшифровка текста... работать.

Расшифровка:

Слева транскрипция Telegram, справа — от бота.

Здесь тоже справились оба неплохо. Но не смогли распознать фразу «а сейчас на фоне», хотя даже с мигалками речь вполне себе понятна.

Голосовое № 5. Запись на улице с iPhone

Решил проверить ещё раз голосовое сообщение от бывшей, записанное на улице, но уже с iPhone, а не гарнитуры. На протяжении всего голосового, слышно, как проезжают машины.

Исходный текст:

Куда? Домой лично занести? [Смех] У неё на Чапайке [ул. Чапаева] сейчас ничё нет. Она вообще не в городе. Она сказала, что она восемнадцатого приедет на ВКР и всё, на Ленина будет. И вот восемнадцатого будет ставить подписи. Ооой такой смешной ты, конечно, ващеее 😅

Расшифровка:

Слева транскрипция Telegram, справа — от бота.

В данном случае бот расшифровал хуже, но с расстановкой знаков препинания он справляется намного лучше.

Вывод

В целом, распознавание речи от Telegram работает намного лучше, чем от бота. Да, бот расставляет знаки препинания лучше, но кому они нужны, если расшифровка текста при этом бессвязная?

Для преобразования речи в текст Telegram использует технологию Speech-to-Text от Google AI. Технология применяет модели нейронных сетей, а значит учится и постоянно улучшается. Также технология может распознавать огромное количество языков.

Ну и одна нативная кнопка от Telegram куда более юзер френдли, чем постоянная пересылка голосовых в бота.

Когда получаешь подряд несколько голосовых сообщений, то никаких нервов не хватит пересылать каждое боту, да ещё и искать его в вечно обновляющемся списке чатов. А потом нужно вернуться в чат и ответить. Очень много лишних действий, по сравнению с нажатием на одну кнопку.

И да, Telegram я доверяю куда больше, чем ноунейм боту, который вообще неизвестно что делает с данными, которые ему присылают.

Но! Я не считаю это киллер-фичей и только ради распознавания речи оформлять Telegram Premium смысла не вижу.


Связь со мной и другие ссылки: skeetls.ru