MPRG : 機械知覚&ロボティクスグループ／中部大学

28 May 2025 国内会議

時空間シーングラフを用いたGraph Attention Networks による案内文生成の高精度化と視覚的説明の実現

Author: 鈴木颯斗, 下村晃太, 平川翼，山下隆義，藤吉弘亘
Publication: 画像センシングシンポジウム, 2025

Download: PDF (Japanese)

自動車のナビゲーションシステムは広く普及しているが，従来は静的な地図情報に基づいており，周囲の動的な状況を十分に反映が困難である．
そうした背景から，画像認識を用いて周辺環境を把握し，人間のように自然な表現で案内を行うHuman-like Guidanceが注目されている．
中でも，オブジェクト間の関係を構造的に捉えるScene Graphは有効とされるが，高次元な画像特徴を用いる従来手法には解釈性や拡張性に課題が残る．
本研究では，オブジェクトの位置とクラスラベルのみをノード情報として用いることで，簡潔かつ解釈しやすいSpatio-Temporal Scene Graphを構築し，Graph Attention Networks（GAT）に基づくGraph-to-Textモデルにより自然な案内文を生成可能な手法を提案する．
また，交差点における進行動作をグラフに統合し，重要なノードへの着目を促す特徴量を導入するとともに，Attentionを視覚的に可視化することでモデルの判断根拠を説明可能であることを示した．
評価実験では，提案手法が既存のCNNおよびTransformerベース手法を上回る案内文生成性能を示し，特に長期的な時系列情報の統合において有効であることを確認した．