Перейти к основному содержимому

Выбор ASR/TTS-провайдера

При создании телефонного канала вы можете выбрать провайдеров для ASR и TTS. Для этого перейдите на вкладку ASR и выберите подключение, затем проделайте то же самое для TTS.

предупреждение
Если вы выбрали определенного провайдера для ASR/TTS, в случае неполадок вам необходимо самостоятельно переключить канал на другого провайдера.

Вы также можете оставить вариант По умолчанию. В этом случае будут автоматически применены настройки наиболее стабильных провайдеров ASR и TTS. При неполадках у одного провайдера канал будет переключен на другого.

Настройка ASR

При создании телефонного канала вы можете выбрать одно из подключений для ASR и дополнительные настройки для него.

ПодключениеНастройкиОписание
AudiogramСервис поддерживает только русский язык. Чтобы использовать сервис, сначала создайте подключение.
AzureЯзыкСервис позволяет распознавать речь на различных языках. Полный список вы найдете в документации Microsoft.
GoogleЯзыкСервис позволяет распознавать речь на различных языках. Полный список вы найдете в документации Google.
МодельДля распознавания речи используется одна из моделей машинного обучения. Google обучил эти модели для определенных типов и источников звука.
В таблице перечислены модели, доступные для каждого языка:
Command and search — используйте эту модель для распознавания речи в коротких аудиофайлах, например голосовых команд.
Default — используйте эту модель в любых других случаях.
Phone call — используйте эту модель для распознавания речи во время телефонного звонка. Модель доступна только при использовании собственного подключения ASR.
SaluteSpeechСервис поддерживает только русский язык. Чтобы использовать сервис, сначала создайте подключение.
АСМ РешенияМодельДля распознавания используется одна из моделей машинного обучения. АСМ Решения обучили эти модели на данных из различных предметных областей.
Т-БанкУ подключения ASR Т-Банка нет дополнительных настроек.
ЯндексЯзыкСервис позволяет распознавать речь на различных языках. Полный список вы найдете в документации Яндекса.
МодельДля распознавания речи используется одна из моделей машинного обучения. Для обучения моделей используются массивы данных из сервисов и приложений Яндекса.
Распознавание чиселЕсли параметр включен, то в распознанном тексте указываются числительные, а не числа (например, тринадцать вместо 13).
Сниженная чувствительность к шумуУменьшает чувствительность распознавания к фоновому шуму.

Настройка TTS

При создании телефонного канала вы можете выбрать одно из подключений для TTS и дополнительные настройки для него.

ПодключениеНастройкиОписание
AimyvoiceГолосAimyvoice — платформа для синтеза речи от Just AI, где вы можете подобрать готовый голос для вашего проекта (например, игры или аудиокниги), а также обучать собственные голоса на своих наборах.
AudiogramСервис поддерживает только русский язык. Чтобы использовать сервис, сначала создайте подключение.
AzureГолосСервис позволяет использовать различные голоса. Полный список вы найдете в документации Microsoft.
JAICP поддерживает работу только с нейронными голосами. В названии таких голосов должно быть слово «neural».
ElevenLabsОблачный сервис, который синтезирует реалистичную речь на множестве языков. Чтобы использовать сервис, сначала создайте подключение.
примечание
Сайт ElevenLabs недоступен для российских IP-адресов.
GoogleЯзыкСервис позволяет синтезировать речь на различных языках. Полный список вы найдете в документации Google.
ГолосСервис позволяет использовать различные голоса. Полный список вы найдете в документации Google. По умолчанию используется голос:
en-US-Wavenet-A для английского;
ru-RU-Wavenet-B для русского;
cmn-CN-Wavenet-B для китайского;
Wavenet-A для других языков.
СкоростьТемп или скорость речи, где 1 — нормальная скорость голоса.
Высота голосаВысота голоса, где 20 — увеличение на 20 полутонов от исходного тона, а -20 — соответствующее уменьшение.
Повышение громкостиУвеличение громкости в дБ от нормальной громкости определенного голоса. При установленном значении +6.0 дБ громкость воспроизведения приблизительно в два раза превышает нормальную. Настоятельно не рекомендуется превышать +10.0 дБ.
SaluteSpeechСервис поддерживает только русский язык. Чтобы использовать сервис, сначала создайте подключение.
Яндекс v1ЯзыкСервис позволяет синтезировать речь на различных языках. Полный список вы найдете в документации Яндекса.
ГолосСервис позволяет использовать различные голоса. Полный список вы найдете в документации Яндекса.
СкоростьТемп или скорость речи, где 1 — нормальная скорость голоса.
Яндекс v3ГолосСервис позволяет использовать различные голоса. Смотрите, какие голоса подходят для разных языков, в документации Яндекса.
Амплуа

Характеристика звучания голоса. Например, диктор может говорить более дружелюбно или шепотом.

Не у всех голосов есть амплуа. Доступные амплуа для разных голосов могут отличаться. Смотрите список амплуа в документации Яндекса.
СкоростьТемп или скорость речи, где 1 — нормальная скорость голоса.
ГромкостьГромкость относительно цифровой полной шкалы LUFS от −145 до 0. Рекомендуемый диапазон значений — от −20 до −16 LUFS.
Использовать переменныеЕсли переключатель активен, для синтеза речи используется технология Yandex SpeechKit Brand Voice Adaptive с поддержкой переменных.
подсказка
Пользовательские голоса, которые вы сами создали и обучили, отсутствуют в выпадающем списке доступных голосов. Чтобы использовать их, введите название голоса вручную.

Версии ASR и TTS от Яндекса

Yandex SpeechKit имеет несколько версий ASR и TTS.

Вы можете использовать разные версии, например: ASR v3 вместе с TTS v1. Они не влияют друг на друга.

ASR

  • В облачной версии JAICP вы можете использовать только v3.
  • Если платформа JAICP установлена к вам в контур, то доступны версии v2 и v3.

От версии ASR зависит список доступных настроек в $dialer.setAsrProperty и список полей в результатах распознавания речи.

TTS

  • По умолчанию вам доступны v1 и v3.

    В настройках подключения TTS от Яндекса доступен дополнительный переключатель версий протокола. Если переключатель активен, для синтеза речи используется v3.

  • Если для TTS вы используете установку Yandex SpeechKit Hybrid в вашем контуре, то доступна только v3.

Разметка текста

Синтез речи с переменными

Синтез речи с переменными доступен только для v3.

Длина фразы

При использовании v3 длина фразы:

  • Не должна превышать 250 символов, включая пробелы и знаки препинания.
  • Не должна превышать 24 секунды.

В противном случае провайдер вернет ошибку.