Искусственный интеллект читает по губам

Искусственный интеллект читает по губам

Последние исследования показывают, что машины уже могут понять то, что мы говорим, даже не услышав нашего голоса. Как ученым удалось “научить” искусственный интеллект различать слова без звука?

Чтение по губам – это сложный навык, который требует глубоких знаний об артикуляции говорящего (расположение губ при произнесении конкретных звуков). Искусство чтения по губам облегчает понимание всего контекста, а также отдельных слов и фраз разговорной речи.

Искусственный интеллект учится читать по губам

Система искусственного интеллекта LipNet, разработанная группой специалистов из Оксфордского университета, работает как нейронная сеть. „Мозгом” этой системы является набор данных (GRID), состоящий из 3-х секундных клипов и показывающий людей, которые произносят разные слова в разной последовательности. Их лица хорошо освещены, губы направлены прямо на камеру, а произношение правильное и четкое.

Система искусственного интеллекта LipNet

Так система получает свои “знания” на практике. Основная цель обучения заключается в том, чтобы научить ИИ распознавать различные формы рта, разное положение губ и дефекты произношения. Для этого команда ученых использует набор данных, который помогает объединить наблюдаемые изменения полости рта со смыслом. Пока ИИ анализирует сразу весь материал, а не его фрагменты, чтобы уловить контекст.

На этапе тестирования система смогла идентифицировать 95% слов. Когда это задание попросили выполнить людей, выяснилось, что они смогли распознать распознать только 33% слов!

Другая команда инженерного факультета Оксфордского университета в сотрудничестве с Google DeepMind взялась за еще более сложную задачу. Вместо “жесткого” набора данных, такого как GRID, они использовали в качестве базы данных 100 000 видеоклипов с телевидения. Такая коллекция гораздо разнообразнее, она учитывает речь в естественных, а не в лабораторных условиях, а также принимает во внимание изменчивость освещения и положения головы.

На этапе тестирования выяснилось, что система, разработанная командой из Оксфорда и Google DeepMind, при более сложных условиях смогла распознать 68% слов. Для сравнения – люди идентифицировали только 4% слов.

Несмотря на различия между этими двумя проектами, нетрудно заметить, что искусственный интеллект справляется с чтением по губам гораздо лучше, чем люди. Потенциальное использование такого программного обеспечения очень обнадеживает военных и правительства многих стран. Возможно, что такая система будет полезна и в повседневных ситуациях, например, для распознавания речи с видеозаписей без звука или при возникающих помехах во время общения по Skype. Глухие люди также могут получить огромную пользу от новой технологии.

Исхаков Максим

Руководитель информационного портала "Безопасник". Директор компании по продаже и установке систем безопасности.

Оцените автора
Портал о системах видеонаблюдения и безопасности
Добавить комментарий