Human-like GuidanceのためのMultimodal TranSalNetによる走行方向に合わせた視線情報を用いた顕著性マップ推定
- Author
- 難波田 雅己,平川 翼,山下 隆義,藤吉 弘亘,大久保 翔太,南里 卓也,王 思源
- Publication
- 第30回画像センシングシンポジウム
Download: PDF (Japanese)
自動車の運転支援としてカーナビゲーションシステムは広く普及しており,我々の生活に必要不可欠である. しかし,カーナビゲーションシステムによる音声案内は難解なため,ドライバーが案内を正確に理解できない場面が多くある. そのため,運転時にドライバーがモニターの地図を確認する必要があり危険運転につながる. この問題を解決する次世代のナビゲーションとして,Human-like Guidance (HLG) の実現が期待されている. HLGは,人間が行うようなナビゲーションを実現することを目的としたものである. HLGの先行研究\cite{ore}では,シーン画像からドライバの視線を推定し,ドライバが注視している物体を基準とした案内文を生成する手法と,視線情報データセット (Driving Gaze Datasets) を提案した. しかし,先行研究では手法の中核である視線推定の精度が十分でないことが指摘されている. これには,以下の2つの原因が考えられる. 1)先行研究で提案されたデータセットは不均衡かつ学習が困難な構成である. 2)ドライバの視線は同一の周辺環境であっても走行方向ごとに変化するが,先行研究の視線推定モデルでは考慮できていない. そこで本研究では,新たにDriving Gaze Datasets-V2 (DGD-V2) を提案する. また,走行方向を言語情報として入力するMultimodal視線推定モデルである,Multimodal TranSalNetを提案する. 我々は,比較実験よりDGD-V2の優位性を確認した. また.DGD-V2を用いた実験より,本手法は先行研究と比較して大幅な精度向上に成功した. さらに,実環境データでの実験を行った結果,我々の手法は実環境データに対してもHLGに有効な視線推定結果を獲得した. 本研究の成果は,HLGの実現に一歩近づく物である.