画像認識(Image Recognition)とは 

パターン認識技術の一種で画像データからオブジェクト(文字/顔など)や、対象物の特徴(形状・寸法・数・明暗・色など)を抽出・分析・識別して認識検出し判別を行う事です。 

1.画像認識とは 

画像に写っているものから、それがなにであるかをパソコンや機械(装置)が認識し判別します。 

簡単な方法(以前は)ではパターン認識ですね、正しいとするものを事前に撮影し登録しておいて、比較物と照合し同一かを判断するものです。 

バーコードも画像認識の一種です。 

バーコードは、1949年に米国ペンシルベニア州の大学院生の2人が発明し、1952年に特許を取得しています。1967年には米国の食品チェーン店が、レジの行列を解消させるために実用化しました。 

識別子の一種であるバーコードは、縞模様の線の太さによって数字・文字・記号といった情報を機械が読み取れるように表わされたものです。バーコードは、「バーコードラベルプリンター」によってラベルに印刷されたものを、「バーコードスキャナ」で読みとります。 

そもそもバーコードは、「画像」として扱うにはシンプルかもしれませんが、画像パターンによって情報を読み取るという意味では画像認識といっても間違いではないと言えます。 

しかし、当時のコンピューターではスペックが低く高価であったため、現在の様に一般に普及はしませんでした。そして、画像認識技術は1990年後半ごろまでの特に進展する事はありませんでした。 

「画像認識(Image Recognition)」とは、画像に映る人やモノを認識する技術の事です。「画像(見えているもの)に何が写っているのか」を解析します。画像認識はパターン認識の一種で、近年は深層学習(ディープラーニング)という手法によってさらに精度が向上してきており、色々な分野での導入が進んでいます。 

人間(ひと)の場合であれば、過去の経験をもとに「画像に写っている人(物)が誰(何)なのか」を判別することが可能です。しかし、コンピューターには人間のように「蓄積された経験」が存在しないため、経験を活かして画像に写っている人(物)を認識するという作業は難しい作業でした。 

ただし、AIを活用する事で、コンピューターも数多くの画像データから人(物)の特徴などを学習することができるようになり。そのため、学習データをもとにして「画像に写っている人(物)の識別」を行うことができるようになりました。 

この画像認識の技術は、すでにさまざまな分野での活用が進んでいます。例えば、防犯等の分野では、IoTと組み合わせて「防犯カメラの映像から人物を割り出す」といったような事も可能になって来ています。そのため従来と比べても人物の特定を早めることができたり、未然に何かしらの事件を防ぐことができたりする事が可能になってきています。 

2.画像認識の仕組み 

コンピューターを使用しての画像認識を行うには、非常に高度で複雑な処理作業が必要となります。 

人の脳の場合とは仕組みが異なり、視覚や嗅覚などではなく画像から抽出したピクセル(画素)データでの処理や演算などで最終的な判断(区別)を行うなどの数学的な手法が必要となるからです。 

まずは、対象物の画像データの取り込みを行い「画像処理やデータ抽出」によってコンピューターが処理しやすい状態に処理を行います。 

画像処理等の方法は 

 ・画像のノイズ・歪みを除去 

・明るさ・色の補正 

・対象物の輪郭の強調(エッジ強調) 

・対象物の領域を抽出(背景との区別) 

・対象物の画像データをピクセル単位で抽出 

の手順で対象物の認識を行います。 

次に「特定物体認識」を行います。 

特定物体認識とは、コンピューターに大量の画像データやラベル(正解を示すデータ)を学習させておいて、それらの情報から対象物が何なのかを特定する工程のことを言います。人間で例えますと、過去の記憶や経験から物体を判断するのと同じ事です。 

画像認識技術には機械学習を使うケースとディープラーニング(深層学習)を使うケースがあります。ディープラーニングが搭載されていると、コンピューターが画像データで何度も学習を行うことでより高い認識精度を達成することができるようになります。 

2-1 機械学習を使用した場合の画像認識 

機械学習を画像認識に用いる場合、基本的にまずは大量の画像データから「正解・一致した」パターンを学習させる必要があります。 AIはルールに従って画像データの画像に写された対象物の形・大きさ・色の構成といった「正しい事」の特徴を学習し、実際に画像認識する際にその特徴をもとに判別を行います。 

機械学習を行う際に必要なのがアルゴリズムです。画像認識で使用されている主なアルゴリズムには以下のものがあります。  

・ニューラルネットワーク:複雑なネットワーク構造を介して計算し、画像を識別します。 

・サポートベクターマシン:教師あり学習で識別度合いが高い境界線を計算します。 

・決定木:決定木というデータ構造を使って、画像から得られる特徴をもとに画像を分類します。 

・k-近傍法:指定データから最も近いk個のデータを見つけ出し、それをもとに分類します。 

・混合ガウスモデル:画像の色、形、大きさなどの特徴を使って分類します。 

・正則化:モデルの汎化性能を高めることができます。 

・ボストンマッチング:与えられた画像の特徴量を比較することで画像を識別します。 

・ハッシュ関数:画像を要約する手法で、大きさや解像度に関係なく画像内容を表現します。 

・ディープラーニング:大規模なニューラルネットワークを構築して学習して画像を識別します。 

・コンピュータービジョン:画像処理と機械学習の知識と技術を組み合わせて画像を識別します。 

機械学習を用いた画像認識ではこれらのアルゴリズムを用いて、あらかじめ学習したパターンに合致するものが画像に写っているかを判断します。 

2-2 ディープラーニング(深層学習)を用いた画像認識 

手動で学習が必要な機械学習と比べて、ディープラーニングは対象の画像からどのような特徴を探すべきかを自ら判断し、目的にあわせてパラメータを調整しながら学習していきます。 

また、ニューラルネットワークを使うディープラーニングは、人間の視覚と同じように画像を見て判断することができます。 

視覚で判断する場合は、同じ特徴を探していても人によって判断の基準にバラつきが出てしまいますが、ディープラーニングであれば自ら学習した基準に従って、複雑な画像からも特徴を抽出して画像認識を行うことができます。 

(*)ニューラルネットワーク:人間の脳の神経細胞(ニューロン)を模した数理モデルで、機械学習や人工知能の基盤となる技術のことを言います。 

ニューラルネットワークという名称は歴史的に生物の「神経」に由来すると言われています。 

3.画像認識技術の使用用途 

車の自動運転では、画像認識による道路標識・車線の認識・歩行者認識によって交通ルールを遵守し、車線逸脱防止・交通事故の防止などを実現しています。また医療の現場では、医師の目視では検出できないレベルのがん細胞を発見できることもあるそうです。 

 また、コンビニなど小売店の無人化も登場しています。 

無人店舗では、店内の天井や棚にさまざまなセンサーやカメラが設置していて、ディープラーニングを活用した画像認識処理技術によって顧客や商品の流れを追跡して、誰が何を手に取ったかを認識しているそうです。 

 コインパーキングでも、以前は車の無断出庫を防止するために、ロック板(車止め)が取り付けられていました。しかし最近はカメラを複数台設置してカメラ(画像認識)で車が入庫したかを判断し料金を課金しているシステムを見かける様になりました。 

モーションコントロール、ODM開発のご相談は東阪電子機器へ

大切にしているのは、お客様とのコミュニケーション。
22業界・1,700機種の開発実績を有する弊社の専門スタッフが、
お客様のお困りごとに直接対応させていただきます。