梅田 和昇 【略歴】
梅田 和昇/中央大学理工学部教授
専門分野 知能機械学・機械システム 知能情報学 計測工学
歩行者の計測は、安全・安心な社会の構築のための監視システムやマーケティング用途などに必要とされる技術です。本稿では、私の研究室(精密機械工学科・知的計測システム研究室)で行っている、差分ステレオという手法を用いた歩行者計測の研究を紹介します。
我々人間は、2つの眼を用いて立体視を行うことで、三次元を知覚しています(他にもピントや動き、陰影なども利用しています)。今話題になっている3Dテレビも、この原理を利用しています。ロボットなどの機械の眼でも、同様に2台(以上)のカメラを用いて三次元を知覚する(距離を計測する)ことが出来ます。これをステレオ視(ステレオビジョン)と呼び、写真測量やコンピュータビジョン・ロボットビジョンなどの分野で盛んに研究されてきました。現在ではパソコンに接続して用いることができる市販品もありますし、自動車に搭載されている例もあります。2台のカメラで撮像される画像間で生じるずれ(これを視差と言います)が、距離が近い程、距離に反比例して大きくなるということを利用して距離を計測するというのがステレオ視の基本原理です。このように書くと簡単ですし、人はいとも簡単に立体視をやってのけるのですが、実は機械で行うのはそんなに簡単ではありません。一台のカメラの画像中のある点が、もう一台のカメラ画像のどの点に対応するかを決めるのが、相当難しいのです。これを対応点問題と呼びます。
図1 差分ステレオの処理の流れ
さて、前置きが長くなりましたが、我々の差分ステレオ(Subtraction Stereo)は、このステレオ視の手法の一つです。図1に示すように、まず2台のカメラの画像それぞれで背景を除去した前景領域を求め、その前景領域に限定して各点の2台の画像間での対応を求める(ステレオマッチングと呼びます)という手法です。一番シンプルには、背景画像を登録しておき、今見ている画像と背景画像の差分を行うことで前景領域を求めます。それで、差分ステレオと呼んでいます。このように前景領域に処理を限定することで、対応点を探す範囲を限定することができるため、対応点問題が簡単化され、計算量も抑えることができるというのが差分ステレオの大きな特徴です。また、距離が得られる領域が限定されていることで、その後の処理がやりやすくなるというメリットもあります。図2に差分ステレオで得られる画像の例を示します。これは市販のステレオカメラ(Point Grey Research製のBumblebee2)に差分ステレオのアルゴリズムを搭載して得た画像です。色が視差を表しており、赤から青に色が変わるに従って視差が大きい、すなわち距離が小さいということを表しています。差分ステレオで得られる視差画像が歩行者の領域に限定されていることがお分かり頂けると思います。また、通常のステレオでは右の白線の部分などで誤対応による計測の失敗が見られますが、差分ステレオではそのような失敗はほとんどありません。
図2 差分ステレオで得られる視差画像
(a)対象シーン
(b)差分ステレオ
(c)通常のステレオ視
図2の視差画像で、各点は視差を表していますが、この視差からカメラからの距離あるいはカメラから見た3次元の座標値を計算することが出来ます(このようにして得られる距離あるいは3次元座標値の画像を距離画像と呼びます)。ですから、図2(b)から抽出される人物領域の位置や高さ・幅も容易に得ることができます。さらに、人物領域を時系列に入力される画像で抽出し続けることで、人物のトラッキング(追跡)を行うこともできます。この人物トラッキングには、我々は拡張カルマンフィルタと呼ばれる手法を利用しています。人物が等速直線運動を行うというモデル(状態方程式)を立てて拡張カルマンフィルタを適用することで、人物位置の計測誤差の影響を軽減しながら、人物の3次元位置をトラッキングすることができます。この時、複数人物が交差したり物体の後ろを歩いてしばらく隠れたりしても大丈夫です。図3に複数人物のトラッキングを行った例を示します。図3(a)のシーンでトラッキングを行った結果を俯瞰した結果が図3(b)です。複数人物の運動を適切にトラッキングできている様子がお分かり頂けると思います。
図3 複数人物のトラッキング
(a)対象シーン
(b)トラッキング結果(俯瞰図)
また、我々は一人で歩くだけでなく、数人でグループになって歩くことも良くあります。こういう時には、グループを一つのまとまりとしてトラッキングを行います。この時、グループの画像中の領域の面積ならびに距離情報から、図4に示すようにグループを構成する人数も推定することが出来ます。この時、カメラがシーンをどういうアングルで見るかによって、画像中での面積が変わりますので、その分の補正を行っています。また、グループの中で人がどれだけ重なり合って見えるかによっても面積は変動します。この人物の重複度の評価はなかなか難しいのですが、現在、人物領域のカラー画像から抽出される特徴点の3次元空間での分布を利用した重複度評価手法を構築しつつあります。カラー画像の特徴点の抽出には、KLT(Kanade-Lucas-Tomasi Feature Tracker)と呼ばれる手法を利用しています。
図4 グループの人数推定
(a)対象シーン例
(b)(a)のシーンの結果
(c)別のシーンの結果
さて、上記の手法は、人あるいはグループが画像中でそれなりに分離されていることを前提として個々の人やグループをトラッキングしています。そのため、例えば渋谷のスクランブル交差点のように人がぞろぞろと混雑しながら歩いているシーンに対しては、適用が困難です。そこでこのような混雑環境において歩行者計測を行う手法も構築しました。この手法は、個々の人物・グループの切り分けはあきらめて、方向毎に人が何人位歩いているかを推定するというものです。図5で具体的な手法を説明します。まず、背景差分で抽出された前景画像から、上記のKLTを用いてカラー画像の特徴点を抽出します(図5(b))。KLTは、特徴点のトラッキングを行うことができるので、その結果から、各特徴点が右、左どちらに移動しているかを決めてやります。さらに、特徴点からボロノイグラフというものを作成します(図5(c))。ボロノイグラフの各領域には、特徴点が一点含まれています。そして、ボロノイグラフの各領域に含まれる前景領域の移動方向を、特徴点の移動方向とします(図5(d))。領域の面積を計算し、距離情報を考慮しながら一人当たりの面積で割ってやることで、左右それぞれに移動する人数を計算します。
群馬県館林市のお祭り会場でこの手法で人流計測を行った実験結果を図6に示します。図6(a)のようなシーンに対して前景領域を求め、各領域の移動方向を求めた結果の一例が図6(b)です。さらにこのような結果から左右に移動する人数を時系列で求めた結果が図6(c)、(d)です。真値(これは学生が画像を眼で見て数えました)と比べると、やや誤差が大きいものの、おおまかな人数を求めることが出来ていることが示されています。
なお、言い忘れていましたが、本稿で示した手法は、すべてリアルタイムで動きます。
図5 混雑環境下における人流計測
(a)対象シーン
(b)特徴点抽出(赤:右方向、緑:左方向)
(c)ボロノイグラフ
(d)各領域の移動方向(赤:右方向、緑:左方向)
図6 混雑環境下における人流計測の例
(a)実験環境
(b)各領域の移動方向(赤:右方向、緑:左方向)
(c)右へ歩く人数
(d)左へ歩く人数
以上、我々が研究している差分ステレオを用いた歩行者計測手法を紹介しました。差分ステレオとは何か説明し、それ程混雑していない環境で複数の人物あるいはグループをトラッキングする手法、混雑環境下で人流計測を行う手法を示しました。ここでは示しませんでしたが、差分ステレオにはさらに色々な工夫が行われています。例えば、背景画像を時系列にリアルタイム更新する手法や、前景領域と影とを切り分ける手法を構築して組み入れることで、差分ステレオの安定性を増しています。ご興味があれば研究室のホームページ(http://www.mech.chuo-u.ac.jp/umedalab/)をご覧下さい。この研究以外にも、手振りなどのジェスチャで家電製品を操作するインテリジェントルームの構築、ヒューマノイドロボットのためのマルチスリット光を用いた距離画像センサの構築など、様々な研究を行っていますので、そちらも是非併せてご覧下さい。
なお、本稿で示した研究は、科学技術振興機構(JST)の戦略的創造研究推進事業(CREST)のプロジェクト:実世界検索に向けたネットワークセンシング基盤ソフトウェアOSOITE(研究代表者:東京電機大学 戸辺義人教授)で実施されたものです。また、実験にあたっては、館林市ならびに関係各位に大変お世話になりました。心から感謝します。