На прошлой неделе под Челябинском прошла конференция для операторов связи — КЛУБКОМТУР. Отличное мероприятие для профессионалов отрасли, которое мы не могли пропустить.
Генеральный директор CDNvideo Ярослав Городецкий рассказал о наших разработках в области искусственного интеллекта — о цифровом аватаре.
Цифровой аватар (кстати, рабочее название этого решение было “виртуальный диктор”) — это виртуальная модель человека, которая работает 24/7 и может пригодиться для выполнения самых разных задач:
Любая задача, где нужен виртуальный персонаж, похожий на живого человека, говорящий по определенным скриптам с заранее заданными текстами, может быть решена с помощью цифрового аватара.
Среди клиентов CDNvideo большой процент телеканалов, поэтому у нас сервис начал свое развитие, как полезный для телевидения инструмент генерации видео-контента. Аватар полностью избавляет от влияния человеческого фактора и может работать круглосуточно. Добавим к этому экономию на оборудовании и обслуживающем персонале — и на дистанции разработка собственного цифрового сотрудника начнет генерировать не только контент, но и прибыль.
Но чем дальше мы занимались совершенствованием нашего сервиса, тем больше областей его применения находили вокруг. Например, вели переговоры о разработке виртуального тренера для сети спортивных клубов (это было особенно актуально во время пандемии, когда фитнес мог бы компенсировать часть убытков за счет предложения онлайн-услуг для своих клиентов).
Gartner включил цифровых аватаров в свой Hype Cycle и считает, что хайп вокруг цифровых аватаров будет продолжаться еще 10 лет до выхода на «плато продуктивности». Но уже сейчас видно, как технология постепенно выходит из зоны хайпа в реальное применение.
Создание аватара проходит в несколько этапов:
1. В студии записываем видео реального человека, который будет служить прототипом для аватара. Это нужно, чтобы снять мимику и жесты, получить голос с необходимым набором интонаций. Для создания качественной модели уйдет несколько часов записи, во время которых актер будет читать разные тексты.
2. Подключаем нейросети для обучения аватара: он должен правильно генерировать речь, а движение губ должно соответствовать произносимым звукам (липсинк). Обычно до старта работы цифрового аватара уходит около 2-3 недель на обучение нейросети.
3. Готовим текст для озвучивания, расставляя важные интонационные знаки — это дополнительная подсказка для аватара, которая помогает приблизить его речь к естественной.
4. Генерируем видео в нужном качестве (в зависимости от объема текста, на это уходит от нескольких секунд до 10 минут).
5. ??????? (тут множество вариантов применения)
6. PROFIT!
В наших планах развитие сервиса до реальной коммуникации с пользователем: подключение распознавания речи/текста и генерация ответов на его основе. Для того чтобы цифровой аватар мог работать в режиме реального времени, общая задержка (включая распознавание речи, обработку и генерацию видео) не должна превышать комфортные для разговора 250 мс. Если запустить сервис в распределенном облаке (Edge Computing), то для 90% пользователей России сетевая задержка до него не превысит до 15 мс. Тогда на обработку и генерацию видео останется 235 мс – это реализуемо.
Распределенное облако у нас уже есть, так что будущее наступит совсем скоро!