В мире уже существует несколько алгоритмов, умеющих читать по губам. Тем не менее, точность такого распознавания нельзя назвать приемлемой. Однако, китайские ученые решили эту проблему. Над решением задачи работали научные группы из нескольких научных центров и, в том числе из компании Alibaba.
Новая методика получила название Lip by Speech. Ее использование позволяет точно распознавать речь на уровне, достаточном для практического использования. Секрет успеха метода в том, что алгоритм одновременно распознавание речи и чтение по губам. В процессе обучения ИИ были использованы две базы, содержащие 45 000 и 100 000 фраз, соответственно.
Стоит учитывать, что китайский язык является одним из самых сложных. Тем не менее, новая разработка способна правильно распознавать даже сравнительно короткие фразы, где присутствуют не более 14 символов. Это стало возможно благодаря применению многоуровнего анализа видео.
Новый алгоритм анализирует не только каждый кадр, но и извлекает нужную для себя информацию из их последовательности и контекста. Таким образом, программа учитывает фразы, распознанные ей ранее. Алгоритм LIBS, по мнению его создателей, имеет большое будущее. Он может помочь людям со стойкими нарушениями слуха, позволив им просматривать передачи и видео, лишенные субтитров.