Выбор ASR/TTS-провайдера
При создании телефонного канала вы можете выбрать провайдеров для ASR и TTS. Для этого перейдите на вкладку ASR и выберите подключение, затем проделайте то же самое для TTS.
Вы также можете оставить вариант По умолчанию. В этом случае будут автоматически применены настройки наиболее стабильных провайдеров ASR и TTS. При неполадках у одного провайдера канал будет переключен на другого.
Настройка ASR
При создании телефонного канала вы можете выбрать одно из подключений для ASR и дополнительные настройки для него.
Подключение | Настройки | Описание |
---|---|---|
Audiogram | Сервис поддерживает только русский язык. Чтобы использовать сервис, сначала создайте подключение. | |
Azure | Язык | Сервис позволяет распознавать речь на различных языках. Полный список вы найдете в документации Microsoft. |
Язык | Сервис позволяет распознавать речь на различных языках. Полный список вы найдете в документации Google. | |
Модель | Для распознавания речи используется одна из моделей машинного обучения. Google обучил эти модели для определенных типов и источников звука. В таблице перечислены модели, доступные для каждого языка: • Command and search — используйте эту модель для распознавания речи в коротких аудиофайлах, например голосовых команд. • Default — используйте эту модель в любых других случаях. • Phone call — используйте эту модель для распознавания речи во время телефонного звонка. Модель доступна только при использовании собственного подключения ASR. | |
SaluteSpeech | Сервис поддерживает только русский язык. Чтобы использовать сервис, сначала создайте подключение. | |
АСМ Решения | Модель | Для распознавания используется одна из моделей машинного обучения. АСМ Решения обучили эти модели на данных из различных предметных областей. |
Т-Банк | У подключения ASR Т-Банка нет дополнительных настроек. | |
Яндекс | Язык | Сервис позволяет распознавать речь на различных языках. Полный список вы найдете в документации Яндекса. |
Модель | Для распознавания речи используется одна из моделей машинного обучения. Для обучения моделей используются массивы данных из сервисов и приложений Яндекса. | |
Распознавание чисел | Если параметр включен, то в распознанном тексте указываются числительные, а не числа (например, тринадцать вместо 13). | |
Сниженная чувствительность к шуму | Уменьшает чувствительность распознавания к фоновому шуму. |
Настройка TTS
При создании телефонного канала вы можете выбрать одно из подключений для TTS и дополнительные настройки для него.
Подключение | Настройки | Описание |
---|---|---|
Aimyvoice | Голос | Aimyvoice — платформа для синтеза речи от Just AI, где вы можете подобрать готовый голос для вашего проекта (например, игры или аудиокниги), а также обучать собственные голоса на своих наборах. |
Audiogram | Сервис поддерживает только русский язык. Чтобы использовать сервис, сначала создайте подключение. | |
Azure | Голос | Сервис позволяет использовать различные голоса. Полный список вы найдете в документации Microsoft. JAICP поддерживает работу только с нейронными голосами. В названии таких голосов должно быть слово «neural». |
ElevenLabs | Облачный сервис, который синтезирует реалистичную речь на множестве языков. Чтобы использовать сервис, сначала создайте подключение. примечание Сайт ElevenLabs недоступен для российских IP-адресов. | |
Язык | Сервис позволяет синтезировать речь на различных языках. Полный список вы найдете в документации Google. | |
Голос | Сервис позволяет использовать различные голоса. Полный список вы найдете в документации Google. По умолчанию используется голос: • en-US-Wavenet-A для английского; • ru-RU-Wavenet-B для русского; • cmn-CN-Wavenet-B для китайского; • Wavenet-A для других языков. | |
Скорость | Темп или скорость речи, где 1 — нормальная скорость голоса. | |
Высота голоса | Высота голоса, где 20 — увеличение на 20 полутонов от исходного тона, а -20 — соответствующее уменьшение. | |
Повышение громкости | Увеличение громкости в дБ от нормальной громкости определенного голоса. При установленном значении +6.0 дБ громкость воспроизведения приблизительно в два раза превышает нормальную. Настоятельно не рекомендуется превышать +10.0 дБ. | |
SaluteSpeech | Сервис поддерживает только русский язык. Чтобы использовать сервис, сначала создайте подключение. | |
Яндекс v1 | Язык | Сервис позволяет синтезировать речь на различных языках. Полный список вы найдете в документации Яндекса. |
Голос | Сервис позволяет использовать различные голоса. Полный список вы найдете в документации Яндекса. | |
Скорость | Темп или скорость речи, где 1 — нормальная скорость голоса. | |
Яндекс v3 | Голос | Сервис позволяет использовать различные голоса. Смотрите, какие голоса подходят для разных языков, в документации Яндекса. |
Амплуа | Характеристика звучания голоса. Например, диктор может говорить более дружелюбно или шепотом. Не у всех голосов есть амплуа. Доступные амплуа для разных голосов могут отличаться. Смотрите список амплуа в документации Яндекса. | |
Скорость | Темп или скорость речи, где 1 — нормальная скорость голоса. | |
Громкость | Громкость относительно цифровой полной шкалы LUFS от −145 до 0. Рекомендуемый диапазон значений — от −20 до −16 LUFS. | |
Использовать переменные | Если переключатель активен, для синтеза речи используется технология Yandex SpeechKit Brand Voice Adaptive с поддержкой переменных. |
Версии ASR и TTS от Яндекса
Yandex SpeechKit имеет несколько версий ASR и TTS.
Вы можете использовать разные версии, например: ASR v3 вместе с TTS v1. Они не влияют друг на друга.
ASR
- В облачной версии JAICP вы можете использовать только v3.
- Если платформа JAICP установлена к вам в контур, то доступны версии v2 и v3.
От версии ASR зависит список доступных настроек в $dialer.setAsrProperty
и список полей в результатах распознавания речи.
TTS
-
По умолчанию вам доступны v1 и v3.
В настройках подключения TTS от Яндекса доступен дополнительный переключатель версий протокола. Если переключатель активен, для синтеза речи используется v3.
-
Если для TTS вы используете установку Yandex SpeechKit Hybrid в вашем контуре, то доступна только v3.
Разметка текста
- В v1 доступна SSML-разметка и упрощенная TTS-разметка.
- В v3 доступна только упрощенная TTS-разметка.
Синтез речи с переменными
Синтез речи с переменными доступен только для v3.
Длина фразы
При использовании v3 длина фразы:
- Не должна превышать 250 символов, включая пробелы и знаки препинания.
- Не должна превышать 24 секунды.
В противном случае провайдер вернет ошибку.