MPRG : 機械知覚&ロボティクスグループ／中部大学

15 May 2024 国内会議

人の注目領域を用いた ProtoPFormer による詳細画像識別の精度向上

Author: 落合祐馬, 平川翼, 山下隆義, 藤吉弘亘
Publication: 第238回コンピュータビジョンとイメージメディア研究発表会 (CVIM238) ，2024

Download: PDF (Japanese)

プロトタイプベースのモデルは，クラスごとに割り当てられた特徴的な領域を学習し，入力画像とプロトタイプの類似度を評価することで画像分類を行う手法であり，判断根拠の可視化に活用されている．CNNにプロトタイプを適用したProtoPNetは，背景や同一領域に複数のプロトタイプが注目してしまう課題があった．そこで，Vision Transformer (ViT) にProtoPNetを適用したProtoPFormerが考案され，離れた特徴を捉えつつ判断根拠の可視化が可能となった．本研究では，詳細画像分類のさらなる精度向上を目的として，ProtoPFormerに人の知見を導入する「Human Knowledge Branch」を追加する手法を提案する．詳細画像分類ではクラス特有の領域への注目が重要であるため，追加されるBranchは人の知見（Bubble情報）に基づいて重要な領域へ適切に注目するように設計されている．CUB-200-2010データセットを用いた評価実験により，従来手法との認識精度の比較およびアテンションマップによる注目領域の定性的比較を行い，提案手法の有効性を確認した．