機械知覚&ロボティクスグループ
中部大学

国内会議

プロトタイプ法ProtoPFormerへの人の知見の組み込みによる精度向上

Author
落合祐馬, 平川翼, 山下隆義, 藤吉弘亘
Publication
画像センシングシンポジウム, 2025

Download: PDF (Japanese)

深層学習技術の発展により画像認識精度は飛躍的に向上したが,モデルの判断根拠がブラックボックスであるという課題は依然として残されている. 判断根拠を提示可能な手法として,入力画像の特徴と事前に学習した「プロトタイプ」との類似度に基づいて分類を行うプロトタイプベースの学習手法が注目されている.特に,Vision Transformer (ViT) をベースとしたProtoPFormerは,大域的特徴と局所的特徴の双方を活用できる強力なモデルである. しかし,従来のプロトタイプ学習はデータ駆動的な最適化のみに依存しているため,プロトタイプが人間にとって意味のない領域(背景やノイズ)に収束する場合があり,これが説明性の欠如や汎化性能の低下を招いていた. 本研究では,この問題に対処するため,人の知見(視線データに基づく注目領域)を損失関数としてモデルに導入する手法を提案する. 具体的には,プロトタイプの注目領域と人の注目領域との差異を最小化するHuman Knowledge Prototype Superpose Loss (HKPSLoss) を新たに定義し,学習済みモデルから人の知見に近いプロトタイプを選定して再学習させる多段階の学習プロセスを構築した. CUB-200-2011データセットおよびCUB-GHA(視線データ)を用いた評価実験の結果,提案手法は従来手法と比較してAccuracyを8.59pt,F1-scoreを7.99pt向上させた.さらに,可視化結果の定性評価において,プロトタイプが鳥の頭部など人間が重要視する領域へ適切に着目するよう変化し,かつ一部のプロトタイプが他の重要な特徴へ探索範囲を広げるという相補的な学習効果も確認された.

前の研究 次の研究