機械知覚&ロボティクスグループ
中部大学

Deep Learning In-vehicle Camera Image 口頭発表

Human-like Guidanceのための時空間シーングラフによる案内文生成

Author
鈴木 颯斗,下村 晃太,平川 翼,山下 隆義,藤吉 弘亘,大久保 翔太,南里 卓也,王 思源
Publication
第30回画像センシングシンポジウム

Download: PDF (Japanese)

自動車において広く利用されるナビゲーションシステムは,GPSと地図データが基盤となるため,地図データから取得した情報を中心にナビゲーションを行う.
しかし,一般的なナビゲーションシステムは,モニターに直接視線を向けることで情報を確認することが前提となっている.
また,同時に提供されるテキストや音声は補助的な役割に限定されるため,ドライバーの注意散漫や誤解を招く可能性がある.
一方で,人間によるナビゲーションは視界情報を中心に行うことが可能であり,ドライバーの認知負担を軽減できる.
Human-like Guidanceでは,人間のようなナビゲーションによる運転支援システムの実現を目標とする.
Human-like Guidanceの実現において,走行中の車載カメラから撮影された動画像を扱うことが必要なため,画像認識モデルと言語生成モデルを組み合わせた手法は1つのアプローチとして考えられる.
しかし,走行シーンの画像データは必要のない情報が多く,ナビゲーションに利用するオブジェクトの選択が困難になる.
画像情報のみに依存した場合,自車両周辺オブジェクトとの関係性を考慮することは困難である.
そこで本研究では,走行シーンの動画像から,オブジェクトの空間的,時間的な情報を表現可能な時空間シーングラフを提案する.
また,時空間シーングラフから抽出した特徴量を用いたナビゲーション生成によるHuman-like Guidanceを実現する.
評価実験を行った結果,我々の提案する手法は,従来の画像に依存したナビゲーション手法と比較して,文章生成精度が向上し,車両周辺オブジェクトの動作に着目した人間のようなナビケーションが生成可能であることを確認した.

前の研究 次の研究