Posted 9 июня 2020, 11:16
Published 9 июня 2020, 11:16
Modified 17 августа 2022, 09:08
Updated 17 августа 2022, 09:08
Достаточно нажать одну кнопку — и искусственный интеллект расшифрует аудиозапись. За распознавание речи отвечает новая нейросеть, созданная командой исследований ВКонтакте. В отличие от остальных, она учитывает высокую нагрузку платформы, а также русскоязычный сленг и сложные условия записи.
Функция работает в мобильном приложении VK и уже доступна части пользователей, а у всех появится в ближайшую неделю. Распознавать можно как полученные, так и отправленные голосовые сообщения длительностью до 30 секунд — это 90% от всех аудио, которые записывают при общении ВКонтакте. Более того, новая технология поможет вернуться к нужной информации в переписке: голосовые сообщения теперь можно находить при помощи поиска по тексту. В будущем функция распознавания появится в версии для компьютера, а расшифровать можно будет как более длинные, так и пересланные сообщения.
Голосовые сообщения — очень популярный формат общения ВКонтакте. Ежемесячно аудиосообщениями обмениваются 30 миллионов пользователей, поэтому новая технология VK рассчитана на самые высокие нагрузки. При этом нейросеть расшифровывает записи быстрее, чем человек, хорошо понимает разговорный язык и заимствованную лексику, а также справляется с аудио низкого качества и нечёткой речью.
Павел Калайдин, директор по исследованиям в области искусственного интеллекта ВКонтакте:
«Расшифровка аудиосообщений — уникальная и по-своему интересная задача, которая значительно отличается, например, от распознавания речи в голосовых помощниках. С другом в чате общаются совсем не так, как с умной колонкой: сообщения записываются на бегу с посторонними шумами, большим количеством сленга и сокращений. Нейросеть должна не просто понять речь, но и сформулировать связный текст. Поэтому на самом деле мы сделали три нейросети: одна отвечает за распознавание, вторая находит подходящие слова, а третья расставляет знаки препинания. Вместе они станут самым высоконагруженным сервисом по распознаванию речи на русском языке».
Распознавание голосовых сообщений полностью автоматизировано и проводится при помощи методов искусственного интеллекта. Сотрудники ВКонтакте и любые другие сторонние лица не обладают доступом к личным сообщениям пользователей. Голосовые — не исключение. Чтобы собрать данные для обучения, участники программы VK Testers записывали специально подготовленные фразы. Также качество распознавания оценивалось с помощью обратной связи от тестировщиков.
ВКонтакте начала тестировать функцию распознавания голосовых сообщений в марте. Ранее VK представила нейросеть, генерирующую новостные заголовки, внедрила модели машинного обучения в модерацию контента и определение тематики публикаций, а также открыла в МФТИ собственную лабораторию искусственного интеллекта.