Гибридный синтез от Just AI

Вы можете использовать технологию гибридного синтеза речи от Just AI. Эта технология позволяет заменить несколько слов в аудиозаписи, сделанной диктором, прямо во время звонка. Например, бот сможет обратиться к клиенту по имени или озвучить номер телефона клиента.

к сведению

Использование гибридного синтеза по стоимости сопоставимо с использованием синтеза речи (TTS, Text‑to‑Speech). Ознакомьтесь с подробной информацией по тарификации гибридного синтеза.

Чтобы начать использовать гибридный синтез речи:

Отправьте заявку на подключение.
Создайте шаблон реплики и укажите переменные.
Протестируйте реплику.
Используйте реплику в сценарии бота.

Подключение

Чтобы подключить технологию гибридного синтеза речи, необходимо отправить заявку вашему аккаунт-менеджеру:

Авторизуйтесь в JAICP.
Нажмите на верхней панели, выберите Гибридный синтез речи и нажмите Подключить.
Заполните поля в форме запроса и нажмите Отправить.

Ваш аккаунт-менеджер получит заявку и свяжется с вами, чтобы уточнить детали и подключить технологию.

Создание шаблона реплики

1. Подготовка аудиозаписи

Чтобы добавить шаблон реплики, подготовьте аудиозапись, сделанную диктором. Файл и аудио должны соответствовать требованиям:

Формат файла: WAV.
Глубина аудио: от 16 бит.
Длительность аудио: до 15 сек.
Канал: 1 (моно).
Частота дискретизации: от 22 кГц.

2. Добавление шаблона

Нажмите на верхней панели и выберите Гибридный синтез речи.
Добавьте реплику одним из способов:
- нажмите кнопку Добавить шаблон реплики на верхней панели;
- нажмите ссылку Загрузить аудиофайл и выберите аудиофайл;
- перетащите аудиофайл в указанную область. Откроется окно создания нового шаблона реплики:
Укажите ID шаблона и выберите голос, используемый в аудиозаписи.

подсказка

Список доступных голосов определяется вашим аккаунт-менеджером на этапе подключения технологии.

Загрузите аудиофайл, если он еще не был загружен.
В поле Текст шаблона реплики введите текст с аудиозаписи. Вы можете указать переменные в тексте или сделать это позже.
Требования к заполнению
- Текст шаблона должен полностью совпадать с текстом аудиозаписи.
- Для записи текста используйте кириллицу. Буквы латинского алфавита допустимы только для записи имени переменной.
- В тексте не должно быть цифр, аббревиатур и других сокращений. Записывайте их полностью: 8:00 → восемь ноль ноль, и т. д. → и так далее.
- Формат записи переменных: {name: значение}, где name — имя переменной. Реплика может содержать до 3 переменных.
- Если в шаблоне реплики несколько переменных, то их значения должны быть разными.
- Чтобы обозначить ударение, укажите + в значении после ударной гласной.
Например, текст аудиозаписи Андрей Петрович, добрый день! Ваша задолженность по кредиту составляет двести рублей. после разметки переменных может выглядеть так: {name: Андрей Петрович}, добрый день! Ваша задолженность по кредиту составляет {amount: двести рублей}.
Нажмите Добавить. Шаблон реплики появится в списке.

Тестирование и редактирование реплики

После того как вы добавили шаблон, протестируйте, как будет звучать реплика, и отредактируйте шаблон, если нужно. Чтобы приступить к тестированию:

Выберите шаблон реплики в списке.
В панели справа перейдите в нужный раздел, чтобы прослушать, как будет звучать реплика:
- при других значениях переменных — Тестирование переменных;
- при другой скорости произнесения переменных — Скорость. В этом же разделе вы можете применить новую скорость.

Чтобы загрузить новое аудио или выбрать другой голос, перейдите в раздел Настройки в панели справа.

Чтобы отредактировать текст аудиозаписи, поставьте курсор в поле с текстом в карточке нужного шаблона:

Использование

В сценарии

Чтобы использовать в сценарии реплики, сгенерированные с помощью гибридного синтеза речи, вам потребуется метод $imputer.generateAudioUrl.
Через API

Вы также можете получать реплики, сгенерированные с помощью гибридного синтеза речи, через Imputer API. Это позволяет использовать технологию не только в сценарии бота в JAICP, но и во внешних сервисах.

При генерации реплик могут возникать задержки — паузы в диалоге бота с абонентом. Клиенты могут чувствовать себя некомфортно во время разговора с ботом. Кэшируйте реплику заранее — перед ее использованием в сценарии, чтобы избежать таких задержек. Сделать это можно при помощи методов:

$imputer.cacheAudio (в сценарии);
POST /api/imputer/p/{accessToken}/imputing/cache-audio (через API).

Особенности звучания

Учитывайте, что реплики, сгенерированные при помощи гибридного синтеза, отличаются по звучанию от изначальных аудиозаписей. Это происходит, даже если в реплику не вставляются переменные значения.

Если вы планируете использовать в сценарии реплики без переменных, добавьте их в качестве шаблонов на странице Гибридный синтез речи, а затем используйте удобным способом. В этом случае звучание будет одинаковым для всех реплик: с переменными и без.

Тарификация

Гибридный синтез оплачивается, если:

В шаблоне реплики используются переменные.
Шаблон впервые озвучивается с конкретными переменными.

примечание

Особенности списывания:

Списание за синтез любой конкретной реплики происходит один раз. Стоимость синтеза фиксированная и не зависит от того, насколько реплика длинная и сколько в ней переменных.
Если бот начал озвучивать реплику, но абонент положил трубку и не дослушал сообщение, списание все же произойдет. Если бот не дозвонился до абонента, списания не будет.

Пример расчета

В примере бот звонит клиенту, чтобы подтвердить доставку. Сценарий бота состоит из трех реплик:

№	Реплика	Списание денег
1	Ваш заказ `{order: номер сто двадцать три}` будет доставлен `{when: завтра с часу до двух}`.	Происходит на каждом звонке с новыми значениями переменных.
2	Спасибо за заказ. У вас остались вопросы?	Не происходит, так как в реплике нет переменных.
3	Перевожу звонок на менеджера `{manager: Сергея}`.	Происходит на каждом звонке с новым значением переменной.

подсказка

Как правило, номер заказа и время доставки являются уникальными для каждого звонка. Имя менеджера может повторяться чаще. Если значения этих переменных будут повторяться в других звонках, повторных списаний не будет.

Предположим, бот должен обзвонить 5 клиентов. При этом:

Условие	Комментарий	Количество списаний
Все клиенты прослушают реплику № 1.	В реплике № 1 у каждого клиента свой уникальный номер заказа и время доставки.	5
Все клиенты прослушают реплику № 2.	В реплике № 2 нет переменных.	0
Два клиента закончат разговор до начала реплики № 3.	Реплика № 3 не будет озвучена.	0
Три клиента продолжат разговор и прослушают реплику № 3. Бот переведет их на менеджера: Сергея или Марию. Сергей получит 2 звонка. Мария получит 1 звонок.	За второе озвучивание имени Сергея в реплике № 3 списания не будет.	2

Итого: за 5 звонков произойдет 7 списаний за использование гибридного синтеза.

Отчет об использовании

На странице Гибридный синтез речи вы можете скачать отчет, в котором будет информация о дате и объемах использования сервиса:

В столбце Service API Calls указывается, сколько раз были вызваны методы генерации и кэширования реплик.

подсказка
Если вы кэшировали реплику, а затем сгенерировали ее, будет учтен только вызов метода кэширования.
В столбце Test Calls указывается количество воспроизведений реплик на странице Гибридный синтез речи в блоках Тестирование переменных и Скорость.

Подключение​

Создание шаблона реплики​

1. Подготовка аудиозаписи​

2. Добавление шаблона​

Тестирование и редактирование реплики​

Использование​

Особенности звучания​

Тарификация​

Пример расчета​

Отчет об использовании​