顔判別する認証システムの仕組み – PRESIDENT Online

BLOGOS

iPhoneの「Face ID」など、いまでは日常生活のさまざまな場面で顔認証技術が用いられている。NECフェローの今岡仁さんは「顔認証の仕組みは人間の脳にも備わっている。コンピュータによる認証の仕組みは、脳の仕組みと共通な部分が多く、決してブラックボックスではない」という――。

※本稿は、今岡仁『顔認証の教科書 明日のビジネスを創る最先端AIの世界』(プレジデント社)の一部を再編集したものです。



※写真はイメージです – 写真=iStock.com/Zephyr18

パスポートの顔写真と本人を見分ける顔認証システムの仕組み

顔認証システムとは何かについて、その構成要素を定義し、仕組みを簡単に説明します(図表1)。



出所=今岡仁『顔認証の教科書 明日のビジネスを創る最先端AIの世界』(プレジデント社)

たとえば、空港の出入国管理では、国境を通過しようとしている人がパスポートに記された氏名・国籍の人物と「同一人物であるか否か」を確認します。このとき、顔認証システムは、国境を通過しようとしている人物の顔画像を撮影し、パスポートに埋め込まれた顔画像と比較し、同一人物であるか否かを判定します。

したがって、顔認証を行うためには2枚の画像が必要になります。1枚目は、国境を通過しようとする際に国境に置かれている認証端末で人物を撮影した画像です。これは「照合画像」と呼ばれ、顔画像の「照合」のために国境を通過しようとする度に撮影されます。もう1枚は、パスポートにあらかじめ埋め込まれている顔画像である「登録画像」です。

照合画像は、国境(出入国審査場)に置かれている「認証端末」という装置で撮影します。

顔を探し出し、特徴を取り出し、比較する

顔認証には、同一人物であるか否かをAI(人工知能)が人間に代わって判定する「顔認証アルゴリズム」も必要です。

さらに顔認証アルゴリズムには、「顔検出」「特徴量抽出」「顔照合」という3つの重要な機能があります。

第1の機能である顔検出は、登録画像や照合画像に写っている顔を探し出し、顔の位置を特定します。

第2の機能である特徴量抽出は、照合画像や登録画像に写っているバラエティに富む個人の顔の違いを、たとえば、(0.5,0.2,0.3,……,0.2,0.7)のような数百から数千の要素の数値列(特徴量)として取り出します。

これは、画像を画像のままコンピュータが扱うと「同一人物か否かの判断」に多大な時間を要し、スピーディな本人確認が実現できないからです。そのため情報量を圧縮し判定を容易にするために、顔画像を数値データとしての特徴量に置き換えるのです。この特徴量の設計次第で、顔認証システムの精度とスピードが大きく変わってきます。

そして、第3の機能である顔照合は、照合画像から抽出された特徴量と、データベース上の登録画像から抽出された特徴量を比較し、同一人物であるか否かを最終判定します。

パスポート写真には朝刊1日分の情報量が含まれる

顔認証では、本人の顔とデータベースにある顔画像とを照合して、同一の本人かどうかを判定することについてはすでに述べたとおりですが、この顔画像には、どのくらいの情報が詰まっているのでしょうか。顔画像の情報量を考えてみましょう。

たとえば、パスポート用の写真を例に取ると、サイズは3.5cm×4.5cmです。画像の解像度(画像が細かいか、粗いかを表す尺度)によってもデータ量はかなり違ってきます。

画像を拡大していくと、たくさんの点が並んでいることがわかります。解像度は、こうした点が1インチ(2.54cm)の範囲にいくつ詰まっているかを表す「dpi(ドット・パー・インチ、インチ当たりのドット数)」で示します。

この解像度を仮に300dpi(1インチに300個の点が並ぶ細かさの画像)とします。すると、3.5cmには413個、4.5cmには531個の点が並ぶことになります。したがってパスパート用写真のサイズの画像には、413×531=21万9303個の点が詰まっていることになります。この点を「画素」もしくは「ピクセル」と呼びます。

一つひとつの画素は、白か黒かだけでなく、色もあります。色は赤、緑、青の3原色を混ぜ合わせて作られます。1色の濃淡が256段階あるとするのが一般的ですから、1画素ごとに、赤256×緑256×青256=約1677万色以上の中のどれかになります〔1画素の色を表す(赤=128、緑=255、青=196)の数字の組み合わせを「画素値」といいます〕。通常、私たちがフルカラーと呼んでいるのは、この約1677万色以上を指します。

これほど多くの色の違いを区別するためには、約1677万通りに表現できる情報量が必要になります。単なる黒い点があるかないかだけなら、2通りの表現で事足りますが、フルカラーの画素となると、約1677万通りの表現が必要なのです。その情報量は、コンピュータ用語で言えば3バイトが必要です。

でもこれは、たった1つの「点」の話です。先ほど見てきたように、パスパート用写真のサイズには、この点が21万9303個入っているので、結局、3バイト×21万9303=65 万7909バイト。漢字やひらがなは、1文字で2バイト必要ですから、約33万文字相当の情報量が顔には詰まっていることになります。新聞朝刊1日分が40万字ほどですから、それよりは少ないですが、それでも顔の画像にはずいぶん多くの情報が詰まっているのです。

現在の顔認証は、画像そのもの、具体的には、先ほど赤・緑・青の組み合わせのところで触れた画素値を利用しています。

Source

タイトルとURLをコピーしました