В прошлом году разработчики разговорного искусственного интеллекта смогли многое — виртуальные персонажи заговорили разными голосами и научились передавать эмоции в синтезе речи, телефонные секретари взяли на себя спам-звонки.
Meta представила метавселенную, представители Baidu показали населенный виртуальными персонажами цифровой мир Xiang, Nvidia сделала платформу Omniverse бесплатной, в Hyundai разработали концепцию метамобильности, а японская медиакомпания Nikkei запустила платформу для создания видео с виртуальными персонажами.
Ожидается, что мировой рынок виртуальной реальности будет ежегодно расти на 18% до 2028 года. А глобальный рынок речевых технологий достигнет к 2026 году, по прогнозам Research and Markets, 34,41 миллиарда долларов.
Но, чтобы виртуальные персонажи и синтезированные видео с их участием выглядели реалистично, нужны технологии для создания естественной речи.
Что обещают разработчики разговорного ИИ в 2022 году?
Сегодня пользователям обещают, что очень скоро персонажи начнут говорить разными голосами, воспроизводить мимику и эмоции пользователей.
Крупные бренды смогут использовать виртуальных героев в качестве элемента фирменной айдентики вместе с логотипом и слоганом. Уже заявили о себе потенциальные клиенты, готовые к концу года открыть VR-офисы, в которых будут задействованы виртуальные люди.
Качество синтеза речи постоянно растет: новые технологии обеспечивают естественное звучание синтезированных фраз, а гибридный синтез позволяет бесшовно склеивать записанные голосом диктора и сгенерированные реплики.
Тренд 2022 года — передача эмоций. Иначе говоря, контролируемый синтез, когда речь ассистента или виртуального персонажа звучит радостно или уныло, задиристо или дружелюбно, — в зависимости от потребностей проекта.
Вторая «фишка» — интонирование: не монотонное звучание фраз, а выделение слов в зависимости от контекста. Например, в короткой фразе «Что сегодня с погодой?» можно интонационно выделить «с погодой» или «сегодня», и это изменит смысл вопроса.
Что нас ждет в сфере клонирования голосов?
Сегодня аналитики прогнозируют глобальному рынку клонирования голосов ежегодный рост более чем на 30%. Платформу для создания кастомных нейронных голосов уже представила корпорация Microsoft. А на российском рынке появился первый маркетплейс голосов Aimyvoice.
Технология клонирования позволит разнообразить звучание ассистентов, виртуальных персонажей, игр и подкастов, а крупным брендам поможет обрести уникальные голоса.
Обещают эволюцию синхронного машинного перевода и «битву секретарей»
Ожидается, что к концу 2027 года мировой рынок машинного перевода вырастет до 164,7 миллионов долларов.
Разработчики предлагают модели с открытым исходным кодом, позволяющие говорить на разных языках без переводчика и понимать друг друга в режиме реального времени. А еще — смотреть фильмы, видео и прямые трансляции на другом языке.
Едва ли не у всех операторов мобильной связи появятся персонажи, аналогичные мобильному помощнику Олегу от Тинькофф или роботу Маше. Абоненты Мегафона могут установить голосового ассистента Еву.
Телефонные секретари принимают звонки за пользователя, поддерживают разговор, а затем отправляют расшифровку беседы в мессенджер абонента. Это позволяет не пропустить важные звонки и избавиться от голосового спама. Они будут становиться умнее, научатся лучше фильтровать звонки и отбирать целевые предложения в зависимости от интересов пользователя.
Ожидается, что в сегмент голосовых кастомных ассистентов вслед за банками придут ритейлеры. Голосовые технологии начнут проникать в HR-сферу, в виртуальные ассистенты станут личными помощниками сотрудников.