Выбор ASR/TTS-провайдера

При создании телефонного канала вы можете выбрать провайдеров для ASR и TTS. Для этого перейдите на вкладку ASR и выберите подключение, затем проделайте то же самое для TTS.

предупреждение

Если вы выбрали определенного провайдера для ASR/TTS, в случае неполадок вам необходимо самостоятельно переключить канал на другого провайдера.

Вы также можете оставить вариант По умолчанию. В этом случае будут автоматически применены настройки наиболее стабильных провайдеров ASR и TTS. При неполадках у одного провайдера канал будет переключен на другого.

Настройка ASR

При создании телефонного канала вы можете выбрать одно из подключений для ASR и дополнительные настройки для него.

Подключение	Настройки	Описание
Audiogram		Сервис поддерживает только русский язык. Чтобы использовать сервис, сначала создайте подключение.
Azure	Язык	Сервис позволяет распознавать речь на различных языках. Полный список вы найдете в документации Microsoft.
Google	Язык	Сервис позволяет распознавать речь на различных языках. Полный список вы найдете в документации Google.
	Модель	Для распознавания речи используется одна из моделей машинного обучения. Google обучил эти модели для определенных типов и источников звука. В таблице перечислены модели, доступные для каждого языка: • Command and search — используйте эту модель для распознавания речи в коротких аудиофайлах, например голосовых команд. • Default — используйте эту модель в любых других случаях. • Phone call — используйте эту модель для распознавания речи во время телефонного звонка. Модель доступна только при использовании собственного подключения ASR.
SaluteSpeech		Сервис поддерживает только русский язык. Чтобы использовать сервис, сначала создайте подключение.
АСМ Решения	Модель	Для распознавания используется одна из моделей машинного обучения. АСМ Решения обучили эти модели на данных из различных предметных областей.
Т-Банк		У подключения ASR Т-Банка нет дополнительных настроек.
Яндекс	Язык	Сервис позволяет распознавать речь на различных языках. Полный список вы найдете в документации Яндекса.
	Модель	Для распознавания речи используется одна из моделей машинного обучения. Для обучения моделей используются массивы данных из сервисов и приложений Яндекса.
	Распознавание чисел	Если параметр включен, то в распознанном тексте указываются числительные, а не числа (например, тринадцать вместо 13).
	Сниженная чувствительность к шуму	Уменьшает чувствительность распознавания к фоновому шуму.

Настройка TTS

При создании телефонного канала вы можете выбрать одно из подключений для TTS и дополнительные настройки для него.

Подключение	Настройки	Описание
Aimyvoice	Голос	Aimyvoice — платформа для синтеза речи от Just AI, где вы можете подобрать готовый голос для вашего проекта (например, игры или аудиокниги), а также обучать собственные голоса на своих наборах.
Audiogram		Сервис поддерживает только русский язык. Чтобы использовать сервис, сначала создайте подключение.
Azure	Голос	Сервис позволяет использовать различные голоса. Полный список вы найдете в документации Microsoft. JAICP поддерживает работу только с нейронными голосами. В названии таких голосов должно быть слово «neural».
ElevenLabs		Облачный сервис, который синтезирует реалистичную речь на множестве языков. Чтобы использовать сервис, сначала создайте подключение. примечание Сайт ElevenLabs недоступен для российских IP-адресов.
Google	Язык	Сервис позволяет синтезировать речь на различных языках. Полный список вы найдете в документации Google.
	Голос	Сервис позволяет использовать различные голоса. Полный список вы найдете в документации Google. По умолчанию используется голос: • `en-US-Wavenet-A` для английского; • `ru-RU-Wavenet-B` для русского; • `cmn-CN-Wavenet-B` для китайского; • `Wavenet-A` для других языков.
	Скорость	Темп или скорость речи, где `1` — нормальная скорость голоса.
	Высота голоса	Высота голоса, где `20` — увеличение на 20 полутонов от исходного тона, а `-20` — соответствующее уменьшение.
	Повышение громкости	Увеличение громкости в дБ от нормальной громкости определенного голоса. При установленном значении `+6.0` дБ громкость воспроизведения приблизительно в два раза превышает нормальную. Настоятельно не рекомендуется превышать `+10.0` дБ.
SaluteSpeech		Сервис поддерживает только русский язык. Чтобы использовать сервис, сначала создайте подключение.
Яндекс v1	Язык	Сервис позволяет синтезировать речь на различных языках. Полный список вы найдете в документации Яндекса.
	Голос	Сервис позволяет использовать различные голоса. Полный список вы найдете в документации Яндекса.
	Скорость	Темп или скорость речи, где `1` — нормальная скорость голоса.
Яндекс v3	Голос	Сервис позволяет использовать различные голоса. Смотрите, какие голоса подходят для разных языков, в документации Яндекса.
	Амплуа	Характеристика звучания голоса. Например, диктор может говорить более дружелюбно или шепотом. Не у всех голосов есть амплуа. Доступные амплуа для разных голосов могут отличаться. Смотрите список амплуа в документации Яндекса.
	Скорость	Темп или скорость речи, где `1` — нормальная скорость голоса.
	Громкость	Громкость относительно цифровой полной шкалы LUFS от −145 до 0. Рекомендуемый диапазон значений — от −20 до −16 LUFS.
	Использовать переменные	Если переключатель активен, для синтеза речи используется технология Yandex SpeechKit Brand Voice Adaptive с поддержкой переменных.

подсказка

Пользовательские голоса, которые вы сами создали и обучили, отсутствуют в выпадающем списке доступных голосов. Чтобы использовать их, введите название голоса вручную.

Версии ASR и TTS от Яндекса

Yandex SpeechKit имеет несколько версий ASR и TTS.

Вы можете использовать разные версии, например: ASR v3 вместе с TTS v1. Они не влияют друг на друга.

ASR

В облачной версии JAICP вы можете использовать только v3.
Если платформа JAICP установлена к вам в контур, то доступны версии v2 и v3.

От версии ASR зависит список доступных настроек в $dialer.setAsrProperty и список полей в результатах распознавания речи.

TTS

По умолчанию вам доступны v1 и v3.

В настройках подключения TTS от Яндекса доступен дополнительный переключатель версий протокола. Если переключатель активен, для синтеза речи используется v3.
Если для TTS вы используете установку Yandex SpeechKit Hybrid в вашем контуре, то доступна только v3.

Разметка текста

В v1 доступна SSML-разметка и упрощенная TTS-разметка.
В v3 доступна только упрощенная TTS-разметка.

Синтез речи с переменными

Синтез речи с переменными доступен только для v3.

Длина фразы

При использовании v3 длина фразы:

Не должна превышать 250 символов, включая пробелы и знаки препинания.
Не должна превышать 24 секунды.

В противном случае провайдер вернет ошибку.

Настройка ASR​

Настройка TTS​

Версии ASR и TTS от Яндекса​

ASR​

TTS​

Разметка текста​

Синтез речи с переменными​

Длина фразы​