Эмоции, клонирование голосов, «бесшовная» склейка реплик. Как будут говорить персонажи метавселенной в 2022 году?

В прошлом году разработчики разговорного искусственного интеллекта смогли многое — виртуальные персонажи заговорили разными голосами и научились передавать эмоции в синтезе речи, телефонные секретари взяли на себя спам-звонки.

Meta представила метавселенную, представители Baidu показали населенный виртуальными персонажами цифровой мир Xiang, Nvidia сделала платформу Omniverse бесплатной, в Hyundai разработали концепцию метамобильности, а японская медиакомпания Nikkei запустила платформу для создания видео с виртуальными персонажами.

Ожидается, что мировой рынок виртуальной реальности будет ежегодно расти на 18% до 2028 года. А глобальный рынок речевых технологий достигнет к 2026 году, по прогнозам Research and Markets, 34,41 миллиарда долларов.

Но, чтобы виртуальные персонажи и синтезированные видео с их участием выглядели реалистично, нужны технологии для создания естественной речи.

Что обещают разработчики разговорного ИИ в 2022 году?

Сегодня пользователям обещают, что очень скоро персонажи начнут говорить разными голосами, воспроизводить мимику и эмоции пользователей.

Крупные бренды смогут использовать виртуальных героев в качестве элемента фирменной айдентики вместе с логотипом и слоганом. Уже заявили о себе потенциальные клиенты, готовые к концу года открыть VR-офисы, в которых будут задействованы виртуальные люди.

Качество синтеза речи постоянно растет: новые технологии обеспечивают естественное звучание синтезированных фраз, а гибридный синтез позволяет бесшовно склеивать записанные голосом диктора и сгенерированные реплики.

Тренд 2022 года — передача эмоций. Иначе говоря, контролируемый синтез, когда речь ассистента или виртуального персонажа звучит радостно или уныло, задиристо или дружелюбно, — в зависимости от потребностей проекта.

Вторая «фишка» — интонирование: не монотонное звучание фраз, а выделение слов в зависимости от контекста. Например, в короткой фразе «Что сегодня с погодой?» можно интонационно выделить «с погодой» или «сегодня», и это изменит смысл вопроса.

Что нас ждет в сфере клонирования голосов?

Сегодня аналитики прогнозируют глобальному рынку клонирования голосов ежегодный рост более чем на 30%. Платформу для создания кастомных нейронных голосов уже представила корпорация Microsoft. А на российском рынке появился первый маркетплейс голосов Aimyvoice.

Технология клонирования позволит разнообразить звучание ассистентов, виртуальных персонажей, игр и подкастов, а крупным брендам поможет обрести уникальные голоса.

Обещают эволюцию синхронного машинного перевода и «битву секретарей»

Ожидается, что к концу 2027 года мировой рынок машинного перевода вырастет до 164,7 миллионов долларов.

Разработчики предлагают модели с открытым исходным кодом, позволяющие говорить на разных языках без переводчика и понимать друг друга в режиме реального времени. А еще — смотреть фильмы, видео и прямые трансляции на другом языке.

Едва ли не у всех операторов мобильной связи появятся персонажи, аналогичные мобильному помощнику Олегу от Тинькофф или роботу Маше. Абоненты Мегафона могут установить голосового ассистента Еву.

Телефонные секретари принимают звонки за пользователя, поддерживают разговор, а затем отправляют расшифровку беседы в мессенджер абонента. Это позволяет не пропустить важные звонки и избавиться от голосового спама. Они будут становиться умнее, научатся лучше фильтровать звонки и отбирать целевые предложения в зависимости от интересов пользователя.

Ожидается, что в сегмент голосовых кастомных ассистентов вслед за банками придут ритейлеры. Голосовые технологии начнут проникать в HR-сферу, в виртуальные ассистенты станут личными помощниками сотрудников.