GOOGLE VOICE RECOGNITION
Google voice recognition — фирменная технология Гугл для распознавания голоса и преобразования его в текст. В 2018 году отдельную функцию с таким названием, ту самую которая реагировала на «OK, Google», убрали из смартфонов, добавив ее в возможности Google Assistant, а саму технологию переименовали в Google Text-to-Speech.
Сейчас вы можете использовать API Text-to-Speech, чтобы подключить к своему проекту мощные ресурсы ИИ Google.
Преобразование текста, субтитры и голосовые команды — все это можно реализовать с Google voice recognition. Ваше приложение сможет автоматически распознавать голоса на видео и отображать их текстом, превращать голосовые сообщения в текст и, конечно же, реагировать на определенные команды. Какие из этих возможностей нужны вашему приложению, зависит от его назначения, но никто не запрещает использовать все и сразу.
Вы можете использовать одну или несколько из уже обученных моделей, среди которых есть и узкоспециализированные, чтобы улучшить качество транскрибирования. А также обучить свою собственную модель, используя запросы своих пользователей. Система может автоматически менять соответствующие слова на числа, адреса, знаки валют и так далее. А еще расширить возможности своей системы обслуживания клиентов, добавив IVR (интерактивный голосовой ответ) и разговоры агентов в ваши колл-центры. Выполняйте аналитику данных разговоров, чтобы получить больше информации о звонках и ваших клиентах.
Если у вас Pixel и вы используете Gboard, приложение Google для клавиатуры, а говорите на английском, то уже сейчас распознавание голоса не требует обязательного подключения к сети. Для этого разработчикам потребовалось всего 80 Мб памяти вашего Гугл-смартфона. Этой технологии всего два года, но работает она превосходно, и конечно же Google собирается развивать ее и дальше.
Если вам нужно универсальное решение для распознавания речи для android-устройств, да и не только, лучше варианта, чем Google Text-to-Speech не найти. К вашим услугам самые передовые алгоритмы нейронных сетей глубокого обучения Google для автоматического распознавания речи (ASR) и интерфейс преобразования, который можно настроить под свой проект. Плюс, вы можете развернуть мощности для распознавания не только в облаке, но и локально.
При этом пользование мощностями Google Cloud обойдется вам в $ 0.004-0.009 за каждые 15 секунд распознавания. Очень недорого, учитывая количество возможностей для той же аналитики звонков. Но главная причина использовать Google Text-to-Speech — это улучшение сервиса и повышение инклюзивности вашего проекта, которые обязательно оценят пользователи.