• English
ПОПРОБОВАТЬ БЕСПЛАТНО

Сложнее, чем чат AI: виртуальный сурдопереводчик для русского жестового языка

Заказчик: Технологический стартап психологической помощи для глухих и слабослышащих людей «МыСлышим»

Поставленные задачи

  • Создание облачной среды для машинного обучения нейросети.
  • Ядро проекта: виртуальный сурдопереводчик.
  • Самым сложным этапом является обучение и настройка ML-модели компьютерного зрения для распознавания языка жестов и перевода его в текст в режиме реального времени.

Описание решения

Проект «МыСлышим» — это стартап, идея которого в помощи людям с ограничениями слуха в получении психологической помощи со стороны психологов без знания русского жестового языка или приглашенного на сеанс сурдопереводчика.

Виртуальный сурдопереводчик в режиме реального времени обрабатывает видеопоток пользователя и расшифровывает язык жестов, на выходе выдавая готовый текст обращения, который в дальнейшем преобразует в звонку речь.

Работа над проектом началась летом 2023 года.

Команда разработала и протестировала несколько ML-моделей, и определив наиболее успешную, отправила ее на дообучение.

На весь процесс машинного обучения и разворачивания MVP потребовалось около 4 месяцев.

Решение и результат:

Предоставили виртуальную машину c GPU.

Разработчик проекта получает доступ к интерфейсу, где создает виртуальную машину (при необходимости — несколько) с необходимой конфигурацией и самостоятельно управляет настройкой необходимых ресурсов.

Основная отличительная особенность — GPU.

Доступны несколько локаций для работы: Россия, Казахстан (Алматы), Чехия (Прага), Гонконг и Турция (Стамбул).

Для проекта кейса был выбран московский кластер.

GPU

Техподдержка

Проектам с ключевой ролью AI в разработке нужны виртуальные машины с GPU (графический процессор), а не CPU (центральный процессор), так как GPU умеет выполнять параллельные вычисления и может обрабатывать большие объемы данных одновременно. С помощью GPU можно существенно ускорить процесс машинного обучения нейросети и в дальнейшем повысить эффективность проекта при обработке пользовательских запросов.

По словам одного из создателей стартапа, Дмитрия Соколова, близкий контакт с группой поддержки и возможность максимально повысить оперативность отклика на запрос — тоже важная для успешности проекта деталь.

Он отмечает удобство работы с командой CDNvideo и быструю реакцию в совместных чатах.

Развитие:

Сейчас стартап находится на стадии поиска инвестиций для запуска на целевых пользователей.

Первый этап предусматривает сервис психологической помощи, и этот подход может быть быстро расширен до общих задач телемедицины. В дальнейшем сценарий может быть масштабирован также на финансовую отрасль и госсектор.

Еще один вектор развития: создание полноценного виртуального аватара, который будет в реальном времени коммуницировать с пользователями с помощью языка жестов.

Это подразумевает дополнительную модель машинного обучения нейросети, но как показывает практика, самое сложное не показывать результат обработки запроса, а расшифровывать обращение пользователя с помощью компьютерного зрения.

А этот этап разработки у команды уже позади.

Вашему проекту тоже нужны облачные вычисления?

Проект «МыСлышим» получил облачные ресурсы CDNvideo на условиях гранта.

Мы готовы рассмотреть предоставление грантов технологическим стартапам, резидентам Сколково, проектам, проходящим акселерационные программы, имеющих готовое решение, уже вышедшее в продакшн, или проекты на этапе MVP.

Есть вопросы о наших услугах?
Мы готовы вас проконсультировать:

Нажимая кнопку "Отправить" Вы соглашаетесь на обработку своих персональных данных в соответствии с политикой в отношении обработки персональных данных
Продолжая использовать наш сайт, вы даете согласие на обработку файлов cookie, которые обеспечивают правильную работу сайта. Подробнее