Siri может научиться читать по губам с помощью обнаружения движения
ДомДом > Новости > Siri может научиться читать по губам с помощью обнаружения движения

Siri может научиться читать по губам с помощью обнаружения движения

Jul 31, 2023

Источник информации о HAL 9000: Warner Bros.

Будущие устройства Apple смогут использовать обнаружение движения для чтения по губам и, таким образом, запускать Siri без необходимости использования микрофона для постоянного прослушивания команд.

Если вы достаточно взрослый человек, мысль о том, что Siri каким-либо образом может читать по губам, сразу и с тревогой напомнила «2001: Космическая одиссея» Артура Кларка и Стэнли Кубрика. Будем надеяться, что если Apple транслирует этот фильм 1968 года, то это потому, что компьютер HAL 9000 обладал превосходными навыками распознавания голоса.

Для сравнения, Siri гораздо труднее надежно и последовательно понимать устные команды, но, честно говоря, она еще не пыталась убить экипаж космического корабля. Это качели и балансы.

Однако вполне возможно, что предоставление Siri дополнительного аспекта, такого как обнаружение движений рта и головы, может повысить ее точность. Недавно опубликованная заявка на патент под названием «Обнаружение ключевых слов с использованием датчика движения» направлена ​​​​на это, но есть и нечто большее.

«[Данные] получаются от датчика движения, например, записывающего движение пользователя, когда пользователь произносит голосовой ввод», — говорится в заявке на патент. «Определяется, соответствует ли часть данных о движении опорным данным для набора из одного или нескольких слов (например, слова или фразы)».

«Кроме того, системы голосового управления могут привести к ложноположительным ответам», — отметила Apple, — «если аудиодатчик улавливает окружающий шум или речь непреднамеренного пользователя».

В заявке на патент подробно описано, как движения рта можно сравнить с предыдущими данными, когда Siri или другое устройство пытается найти совпадение.

Но на самом деле это не для улучшения Siri, и это не признак того, что Apple планирует выпускать устройства без микрофонов. Вместо этого Apple предлагает, чтобы такое обнаружение движения могло означать возможность отключения микрофонов, которые устройство использует для постоянного прослушивания «Siri» или «Привет, Siri».

«[Непрерывное] обнаружение и обработка аудиоданных требует затрат энергии и вычислительной мощности, даже если пользователь не использует активно голосовое управление», — говорит Apple.

«Когда пользователь говорит, его рот, лицо, голова и шея движутся и вибрируют», — продолжает он. «Датчики движения, такие как акселерометры и гироскопы, могут обнаруживать эти движения, тратя при этом относительно мало энергии по сравнению с аудиодатчиками, такими как микрофоны».

Обнаружение движения сейчас и сравнение его с предыдущими записями, очевидно, может работать, когда говорится «Привет, Сири» или какая-либо другая обычная команда. например «Следующий трек». Когда голосовая команда менее распространена, например «Эй, Сири, открой дверцы отсека для капсул», тогда обнаружение движения наверняка не будет работать.

Но пока обнаружение движения происходит достаточно быстро, обнаружение того, что пользователь сказал «Siri», должно означать, что устройство сможет вовремя включить микрофоны, чтобы уловить остальное вслух.

Помимо упоминаний об акселерометрах и гироскопах, в патентной заявке Apple не уделяется много времени обсуждению устройств, которые можно использовать для реализации этого предложения.

Однако это чтение по губам с помощью обнаружения движения, а не с помощью камер и прямой видимости. Таким образом, особенно в сочетании с iPhone, этот детектор движения теоретически может работать с AirPods, а также, например, с Apple Vision Pro.

Эта заявка на патент принадлежит двум изобретателям, в том числе Мадху Чинтхакунте. Предыдущая работа Чинтакунты для Apple включает в себя патент, позволяющий Siri автоматически договариваться и звонить от вашего имени.

Уильям Галлахер имеет 30-летний опыт работы на BBC и AppleInsider в обсуждении технологий Apple. Помимо AppleInsider, он наиболее известен как автор радиопостановок «Доктор Кто» для BBC/Big Finish, а также является ведущим...