Распознавание лиц для интеллектуальных сред(часть1) - О кино, музыке, здоровье, технике, интересных фактах. - Каталог статей

Четверг, 2024-04-25, 9:07 PM

Приветствую Вас неизвестный прохожий | RSS

Главная » Статьи » О кино, музыке, здоровье, технике, интересных фактах.

Распознавание лиц для интеллектуальных сред(часть1)

Компьютеры будущего будут взаимодействовать с нами почти как люди.

Алекс (Сэнди) Пентланд,Танзим Чаудхари
Компьютеры будущего будут взаимодействовать с нами почти как люди. Ключевой аспект такого взаимодействия – возможность распознавания наших лиц и восприятие их выражений.

Интеллектуальные среды, носимые компьютеры, всепроникающая компьютеризация – таковы вехи грядущего «четвертого поколения» вычислительных и информационных технологий [1-3]. Эти устройства будут повсюду – на нашей одежде, в нашем доме, автомобиле и офисе, а их экономическое влияние и общекультурное значение затмят достижения первых трех поколений компьютеров. Наконец, это самые захватывающие и экономически значимые направления исследований в сфере информационных технологий.

Однако чтобы новое поколение компьютеров получило широкое применение, создателям интерфейсов необходимо разработать новые методы взаимодействия с компьютером без использования клавиатуры или мыши. Чтобы проложить дорогу к широкому потребителю, нужны дружественные и персонализированные способы общения с компьютером. Это значит, что интерфейсы нового поколения должны идентифицировать окружающую человека обстановку и, как минимум, узнавать его самого.
Средства идентификации

Итак, необходимо научить компьютер идентифицировать личность человека. Какую технологию для этого выбрать? Существует большое разнообразие методов идентификации, причем многие из них получили широкое коммерческое применение и используются уже немало лет. На сегодняшний день в основе наиболее распространенных технологий верификации и идентификации лежит использование паролей и персональных идентификаторов (personal identification number — PIN) или жетонов (token) типа водительских прав (лицензия водителя является для многих американцев чуть ли не единственным «бумажным» удостоверением личности — прим. ред.). Однако такие системы слишком уязвимы и могут легко пострадать от подделки, воровства и просто человеческой забывчивости. Поэтому все больший интерес вызывают методы биометрической идентификации, позволяющие определить личность человека по его физиологическим характеристикам путем распознавания по образцам. Классический пример биометрии – анализ отпечатков пальцев, а к новейшим технологиям относятся распознавание сетчатки и радужной оболочки глаза.

Применение этих биометрических методов оправдано в банковской сфере и режимных предприятиях для ограничения доступа к секретной информации, однако у них есть один серьезный недостаток. Такие технологии слишком навязчивы и в физиологическом, и в социальном смысле. Они требуют от человека чтобы он занял определенное положение относительно чувствительного элемента и простоял так несколько секунд. И эта процедура вряд ли изменится, поскольку технология требует самого тщательного пространственного анализа. Надо иметь в виду, что, общаясь между собой, люди не опознают друг друга путем сканирования сетчатки, поэтому подобные методы идентификации кажутся им не вполне естественными.

Интерфейс типа «остановись и продекларируй себя» нужен приложениям с высокими требованиями к безопасности (некоторая задержка заставит пользователя осознать важность проблемы). Однако для магазина, в котором узнают своих постоянных клиентов, для информационного киоска, который вас «помнит», или здания, которое «знает», кто в нем живет, нужно совсем другое. Для интеллектуальных сред нового поколения лучше всего подходят технологии распознавания лиц и голоса. Они ненавязчивы (распознавание происходит на расстоянии, не задерживая и не отвлекая человека), они, как правило, пассивны (не требуют специального уровня освещенности), они не ограничивают пользователя в свободе перемещений, к тому же потребляют мало энергии и недороги. Но самое важное, по-видимому, то, что люди обычно узнают друг друга по лицам и голосам, значит, не будут испытывать неудобств с системой, основанной на аналогичных способах распознавания.
Как реализовать распознавание лиц?

20 лет назад проблема распознавания лиц считалась одной из сложнейших задач искусственного интеллекта и компьютерного зрения. Однако целая череда успешных реализаций прошлого десятилетия показала, что этот метод идентификации личности не только технически осуществим, но и экономически выгоден.

Когда разрешимость проблемы распознавания лиц стала очевидна, мечты об интеллектуальных средах породили мощную волну интереса к этой задаче как со стороны исследователей, так и со стороны инвесторов. Появилось несколько преуспевающих коммерческих предприятий. Сегодня ряд компаний представляют на рынке программные системы распознавания лиц, которые обеспечивают распознавание высокой точности и имеют базы данных с более чем тысячами изображений людей.

Для того чтобы достичь своих первых успехов, разработчикам потребовалось четко определить и реализовать методы распознавания по образцу и хорошо разобраться в довольно непростом процессе генерации изображений. Кроме того, исследователи обнаружили, что им поможет знание присущих людям регулярных свойств. Например, в основе того или иного цвета человеческой кожи лежит одномерное многообразие цветового пространства, а цветовые оттенки зависят прежде всего от концентрации меланина. Существует ограниченное число вариантов геометрии человеческого лица, и если человек смотрит на камеру, его лицо, по существу, двумерно. Сегодня идет работа над тем, чтобы ослабить некоторые ограничения существующих алгоритмов распознавания лиц и добиться их устойчивой работы в случае изменения в освещенности, старения или смены выражения лица. Кроме того, исследователи заняты решением проблемы восприятия тех или иных перемен внешнего облика человека, таких как, скажем, волосы на лице, очки или макияж. На этот счет существует уже несколько частных решений.
Типовая репрезентативная база

За эти годы основное развитие получил репрезентативный метод распознавания, который носит скорее описательный, чем производительный характер. В нем используются обучающие изображения, характеризующие тот диапазон двумерных обликов объекта, который должна распознавать система. В начале применялись очень простые методы моделирования, однако, теперь для анализа наружности человека в основном используется функция плотности вероятности (probability density function — PDF) на данном изображении для целевого класса.

Предположим, даны маломерные представления нескольких образцов целевого класса Q, например, лиц. Тогда не представляет труда смоделировать функцию PDF P(x|Q) от характеризующего изображение признака х этого класса как простую параметрическую функцию – комбинацию функций гауссовского распределения. В результате будет получена маломерная, эффективно вычисляемая модель внешнего облика для целевого класса. Другими словами, можно использовать изображения образцов для получения простой математической модели внешнего облика лиц.

Если вычислена функция PDF для целевого класса, то для обнаружения и распознавания по принципу «максимум последующего» (maximum a posteriori — MAP) применяется правило Байеса. Как правило, в результате будет получено очень простое, подобное нейронной сети, представление внешнего вида из целевого класса. Это представление система использует для опознания экземпляра класса, компактного описания его внешнего вида и сравнения различных образцов одного и того же класса. Большую эффективность этой репрезентативной базы доказывает тот факт, что некоторые современные методы распознавания лиц способны обрабатывать видеоданные со скоростью 30 кадров в секунду. Есть несколько систем, которые проводят сравнение поступившего лица с базой данных из тысячи лиц менее чем за секунду – и все это на стандартном ПК!
Как справиться с размерностью?

Для того чтобы получить представление внешнего облика человека, прежде всего необходимо перевести изображение в маломерную систему координат, сохранив общее зрительно воспринимаемое качество изображения целевого объекта. Это преобразование необходимо для решения проблемы размерности: исходные данные изображения имеют так много степеней свободы, что для получения нужного диапазона наружностей потребовалось бы проанализировать миллионы образцов. Для сокращения размерности применяются следующие методы:
преобразование Карунена-Лева (Karhunen-Loeve transform, другое название – анализ основных компонентов);
аппроксимация Ритца (Ritz approximation, другое название – представление на базе образцов);
представление с редкой фильтрацией (sparse-filter representation, например, струйные и волновые преобразования Габора);
гистограммы признаков (feature histogram);
анализ независимых компонентов.

Все эти методы эффективно характеризуют маломерное подпространство в рамках полного пространства измерений для исходных изображений. Как только получено маломерное представление целевого класса: лица, глаза или руки можно использовать стандартные статистические методы оценки параметров и изучить диапазон внешних обликов целевого объекта в новой, маломерной системе координат. Благодаря небольшой размерности для получения осмысленной оценки функции PDF или межклассовой функции дискриминанта (interclass discriminant function) потребуется сравнительно немного образцов.

Существует одна важная разновидность этой методологии – так называемые модели отличий (discriminative model) – в которой делается попытка смоделировать различия между классами, а не сами классы. Часто исследование таких моделей оказывается более эффективным и точным, чем непосредственное моделирование функции PDF. Простой линейный пример отличительного признака – дискриминант Фишера. Кроме того, системы могут использовать классификаторы отличий, которые помогают довести до максимума различия между классами.
Работы по распознаванию лиц

Распознавание лиц имеет столь же давнюю историю, что и проблема компьютерного зрения (computer vision). Эта задача имеет серьезную практическую перспективу и вызывает большой исследовательский интерес. Несмотря на то, что другие методы идентификации (отпечатки пальцев или сканирование радужной оболочки), возможно, более точны, распознавание лиц всегда было в центре внимания ученых в силу своей «неагрессивности» по отношению к пользователям. Этот метод опознания личности для человека естественен и реализуется на интуитивном уровне.

Источник: http://www.osp.ru/os/2000/03/177939/