GOOGLE VOICE RECOGNITION
Google voice recognition — фірмова технологія Google для розпізнавання голосу та перетворення його на текст. У 2018 році окрему функцію з такою назвою, ту саму, що реагувала на «OK, Google», прибрали зі смартфонів, додавши її в можливості Google Assistant, а технологію перейменували на Google Text-to-Speech.
Зараз ви можете використовувати API Text-to-Speech, щоби підключити до свого проєкту потужні ресурси ШІ Google.
Перетворення тексту, субтитри та голосові команди — усе це можна реалізувати з Google voice recognition. Ваша програма зможе автоматично розпізнавати голоси на відео та відображати їх текстом, перетворювати голосові повідомлення на текст і реагувати на певні команди. Які з цих можливостей потрібні вашому додатку залежить від його призначення, але ніхто не забороняє використовувати все і відразу.
Ви можете використовувати одну або кілька з уже навчених моделей, поміж яких є вузькоспеціалізовані, щоби покращити якість транскрибування. А також навчити власну модель, використовуючи запити своїх користувачів. Один із додаткових інструментів сервісу вміє автоматично змінювати відповідні слова на числа, адреси, знаки валют тощо. Крім того, ви можете розширити можливості своєї системи обслуговування клієнтів, додавши IVR (інтерактивну голосову відповідь) та розмови агентів у ваші колл-центри. Виконуйте аналітику даних розмов, щоб отримати більше інформації про дзвінки та ваших клієнтів.
Якщо у вас Pixel і ви використовуєте Gboard, програму Google для клавіатури, а розмовляете англійською, то вже зараз розпізнавання голосу не вимагає обов’язкового підключення до мережі. Для цього розробникам знадобилося всього 80 Мб пам’яті вашого Google смартфону. Цій технології всього два роки, але працює вона чудово, і Google збирається розвивати її й надалі.
Якщо вам потрібне універсальне рішення для розпізнавання мови для android-пристроїв, та й не тільки, краще варіанта, ніж Google Text-to-Speech не знайти. До ваших послуг найпередовіші алгоритми нейронних мереж глибокого навчання Google для автоматичного розпізнавання мови (ASR) та інтерфейс перетворення, який можна налаштувати під свій проєкт. Плюс, ви можете розгорнути потужності для розпізнавання не лише в хмарі, а й локально.
Водночас користування потужностями Google Cloud коштуватиме вам $0.004–0.009 за кожні 15 секунд розпізнавання. Дуже недорого з огляду на кількість можливостей для тієї ж аналітики дзвінків. Але головна причина використовувати Google Text-to-Speech — це покращення сервісу та підвищення інклюзивності вашого проєкту, які обов’язково оцінять користувачі.