Голосовий помічник у смартфоні тепер може розпізнавати беззвучну мову

Китайські розробники створили додаток для смартфона, який розпізнає беззвучну мову за рухом губ користувача і перетворює команди в дії на пристрої, наприклад, він може запускати інші програми. На відміну від звичайних голосових помічників, додаток можна використовувати в громадських місцях, не заважаючи іншим людям, розповідають розробники в статті, представленій на конференції UIST 2018, інформує Ukr.Media.

Практично всі сучасні смартфони обладнані голосовими помічниками, які розпізнають і виконують команди користувача. За останні роки розробникам вдалося довести рівень точності розпізнавання мовлення алгоритмами до рівня фахівців з набору тексту, а також навчити помічників підтримувати діалог, запам'ятовуючи контекст попередніх команд. Тим не менш, дослідження показують, що більшість людей не використовують голосові помічники в громадських місцях, оскільки при цьому вони відчувають себе некомфортно.

Юаньчунь Ші (Yuanchun Shi) і його колеги з Університету Цінхуа розробили голосовий помічник для смартфонів, який вміє розпізнавати мову за рухом губ, навіть якщо користувач не видає звуків.

Під час роботи програма визначає обличчя в кадрі з камери смартфона і після цього починає відстежувати положення 20 контрольних точок, які достатньо точно описують форму губ. Крім того, він визначає ступінь відкритості рота, що дозволяє відстежувати моменти початку і кінця команди. Після цього дані передаються на інший алгоритм на основі нейромережі, яка займається безпосередньо розпізнаванням мови за рухом губ. Варто відзначити, що поки розробники реалізували розпізнавання не на самому смартфоні, а на додатковому і досить потужному комп'ютері.

Автори програми розробили для неї 44 команди, частина з яких відноситься до всієї системи, наприклад, включення Wi-Fi, частина до конкретних програм, а ще одна частина дозволяє взаємодіяти з будь-яким додатком за допомогою системних служб, наприклад, виділяти текст. При цьому додаток розуміє контекст команд, наприклад, якщо система відобразила спливаюче вікно з повідомленням, то користувач зможе швидко відповісти на нього.

Розробники перевірили точність розпізнавання, навчивши систему на прикладах мовлення 21 людини, і перевіривши на мовлення ще одну. Середня точність розпізнавання виявилася рівною 95,5%. Крім того, автори перевірили, наскільки їх додаток зручніший голосового введення в громадських місцях, і провели експеримент у пекінському метро. Під час експерименту п'ять пар добровольців оцінювали конфіденційність і комфорт використання додатка, при цьому один з них виконував команди, а другий виступав в ролі пасажира. Випробовування показали, що в обох випадках люди вважають беззвучні команди більш комфортними та конфіденційними, ніж голосові команди, причому оточуючі люди почували себе більш комфортно, ніж сам користувач.

Розробкою соціально прийнятних способів взаємодії зі смартфонами і іншими пристроями займається досить багато дослідників, які використовують для цього різні підходи. Наприклад, інженери з Массачусетського технологічного інституту створили гарнітуру, яка закріплюється на шиї, і реєструє зміни сигналів нейром'язової активності, коли користувач говорить, не відкриваючи рота. А інша група інженерів створила розумні окуляри, які відстежують рухи пальцями біля носа і перетворюють їх на команди для смартфона.