機械知覚&ロボティクスグループ
中部大学

Deep Learning

Attention機構による判断根拠の解析と応用

近年の画像認識やロボット制御等で用いられる深層学習は,様々な分野で目覚ましい功績を残しています.しかしながら,深層学習は膨大なパラメータからネットワークを構築するため,どのような判断根拠で認識結果を出力したのかを解明するのが非常に困難です.我々の研究では,深層学習が認識の際に注視した領域を可視化できる視覚的説明を用いることで,深層学習の判断根拠の理解に取り組んでいます.

Attention Branch Network

一般的な視覚的説明の手法は,深層学習の注視領域を視覚化することができますが,精度向上に全く貢献しませんでした.我々が提案するAttention Branch Network (ABN)は,視覚的説明で得られる注視領域 (以下Attention map)をAttention機構へ応用することで,視覚的説明による注視領域の可視化と精度向上を同時に実現しています.加えて,ABNは画像分類タスクのみでなく,マルチタスク学習等の様々な画像認識分野へ応用することが可能です.

decomposition

一貫学習ベース自動運転制御へのABN適用

Deep Convolutional Neural Network (DCNN)による自動運転制御は,入力画像と自動車の制御値を用いて一貫学習によりネットワークを学習します.一貫学習による自動運転制御は,車線検出やモーションプランニング等を段階的に行うことなく,入力画像から自動車の制御値を直接得ることができます.しかしながら,DCNNをベースに自動車の制御値を出力するため,何を根拠に自動車の制御値を出力しかが不明確という問題があります.我々の研究では,ABNを用いることで自動運転制御における判断根拠を解析します.しかしながら,自動運転制御では回帰問題を扱うため,我々はWeighted Global Pooling (WGP)をABNのAttention branchに導入します.WGPはプーリング時に特徴マップと同サイズの畳み込みカーネルを用いて重み付けすることで,回帰問題においても高精度に自動車の制御値を推定できます.実験ではビデオゲームのGTAVを実験環境として使用しています.カーブ時や停車時のAttention mapを可視化した時,白線や前方の自動車に注視していることがわかり,DCNNの判断根拠を視覚的出力できていることを確認しました.

decomposition_and_inference
decomposition_and_inference

Attention mapを介した人の知見の導入

画像には, 複数の物体が写っている場合や医療等のラベル付けに高度な専門性が必要な場合において, 好ましい認識結果が獲得できない場合があります. このような例は, 一般的な再学習法での改善が困難なため, 我々はABNのAttention mapを利用します. 我々は, ABNのAttention mapが人手の修正により好ましい認識結果を獲得できる特性に着目しています. 提案手法では, 出力されたAttention mapと手動で修正したAttention mapから誤差を算出し, ABNをファインチューニングします. これにより, 人の知見を考慮したAttention mapの出力と認識精度の改善が可能となります. 評価実験では, 認識精度の改善を確認し, より明確なAttention mapの獲得を実現しました.

decomposition_and_inference
decomposition_and_inference

不確実性の導入によるAttention Branch Networkの信頼性の向上

CNNは,画像認識を中心とした様々な分野で用いられており,高い認識精度を実現しています.しかし,従来のCNNでは予測結果に対する不確実性,すなわち予測のしにくさが考慮できていないため,予測結果をどの程度信頼して良いのか不明であるという問題があります.これは,CNNを実用化するにあたり,誤判断を引き起こす原因となると考えられます.そこで,本研究ではABNに不確実性を導入したBayesian Attention Branch Network(Bayesian ABN)を提案します.提案手法では,Bayesian Neural Network(Bayesian NN)をABNへ導入することで,CNNの予測結果に対する不確実性を考慮します.また,2つのbranchから予測結果が出力される構造に着目し,不確実性が低い結果を採用します.一般物体認識のデータセットを用いた評価実験により,提案手法によるCNNの高精度化および信頼性の向上を確認しました.

decomposition_and_inference
decomposition_and_inference

Attention機構を導入した識別のためのドメインスタイル変換

敵対的学習を用いた生成手法であるGenerative Adversarial Networks(GAN) の代表的な応用例として,ドメインスタイル変換があります.ドメインスタイル変換は,識別対象のラベルなし画像と非識別対象のラベルあり画像を用いたドメイン適応や,学習画像が極端に少ないFew-Shot学習に用いられます.しかし,画像が持つ識別に有利なコンテキストを維持した状態でスタイル変換をすることは容易ではありません.我々は,入力画像が持つ識別に有効な領域をスタイル変換するために,Attention機構を導入したドメインスタイル変換を提案します.これにより,識別に有利な領域を注視してスタイル変換を実現します.これにより,必ずしも綺麗ではないが識別対象を捉えた学習が可能となります.評価実験では,識別に有利な領域を捉えるAttention mapを獲得できるようになり,識別性能の向上を実現しました.

decomposition_and_inference
decomposition_and_inference

前の研究 次の研究