機械知覚&ロボティクスグループ
中部大学

Deep Learning

Attention機構による判断根拠の解析と応用

近年の画像認識やロボット制御等で用いられる深層学習は,様々な分野で目覚ましい功績を残しています.しかしながら,深層学習は膨大なパラメータからネットワークを構築するため,どのような判断根拠で認識結果を出力したのかを解明するのが非常に困難です.我々の研究では,深層学習が認識の際に注視した領域を可視化できる視覚的説明を用いることで,深層学習の判断根拠の理解に取り組んでいます.

Attention Branch Network

一般的な視覚的説明の手法は,深層学習の注視領域を視覚化することができますが,精度向上に全く貢献しませんでした.我々が提案するAttention Branch Network (ABN)は,視覚的説明で得られる注視領域 (以下Attention map)をAttention機構へ応用することで,視覚的説明による注視領域の可視化と精度向上を同時に実現しています.加えて,ABNは画像分類タスクのみでなく,マルチタスク学習等の様々な画像認識分野へ応用することが可能です.

Attention Branch Network

一貫学習ベース自動運転制御へのABN適用

Deep Convolutional Neural Network (DCNN)による自動運転制御は,入力画像と自動車の制御値を用いて一貫学習によりネットワークを学習します.一貫学習による自動運転制御は,車線検出やモーションプランニング等を段階的に行うことなく,入力画像から自動車の制御値を直接得ることができます.しかしながら,DCNNをベースに自動車の制御値を出力するため,何を根拠に自動車の制御値を出力しかが不明確という問題があります.我々の研究では,ABNを用いることで自動運転制御における判断根拠を解析します.しかしながら,自動運転制御では回帰問題を扱うため,我々はWeighted Global Pooling (WGP)をABNのAttention branchに導入します.WGPはプーリング時に特徴マップと同サイズの畳み込みカーネルを用いて重み付けすることで,回帰問題においても高精度に自動車の制御値を推定できます.実験ではビデオゲームのGTAVを実験環境として使用しています.カーブ時や停車時のAttention mapを可視化した時,白線や前方の自動車に注視していることがわかり,DCNNの判断根拠を視覚的出力できていることを確認しました.

Autonomous Driving with ABN
Autonomous Driving with ABN (Results)

Attention mapを介した人の知見の導入

画像には, 複数の物体が写っている場合や医療等のラベル付けに高度な専門性が必要な場合において, 好ましい認識結果が獲得できない場合があります. このような例は, 一般的な再学習法での改善が困難なため, 我々はABNのAttention mapを利用します. 我々は, ABNのAttention mapが人手の修正により好ましい認識結果を獲得できる特性に着目しています. 提案手法では, 出力されたAttention mapと手動で修正したAttention mapから誤差を算出し, ABNをファインチューニングします. これにより, 人の知見を考慮したAttention mapの出力と認識精度の改善が可能となります. 評価実験では, 認識精度の改善を確認し, より明確なAttention mapの獲得を実現しました.

Embedding Human Knowledge into Deep Neural Network via Attention Map
Embedding Human Knowledge into Deep Neural Network via Attention Map (Results)

不確実性の導入によるAttention Branch Networkの信頼性の向上

CNNは,画像認識を中心とした様々な分野で用いられており,高い認識精度を実現しています.しかし,従来のCNNでは予測結果に対する不確実性,すなわち予測のしにくさが考慮できていないため,予測結果をどの程度信頼して良いのか不明であるという問題があります.これは,CNNを実用化するにあたり,誤判断を引き起こす原因となると考えられます.そこで,本研究ではABNに不確実性を導入したBayesian Attention Branch Network(Bayesian ABN)を提案します.提案手法では,Bayesian Neural Network(Bayesian NN)をABNへ導入することで,CNNの予測結果に対する不確実性を考慮します.また,2つのbranchから予測結果が出力される構造に着目し,不確実性が低い結果を採用します.一般物体認識のデータセットを用いた評価実験により,提案手法によるCNNの高精度化および信頼性の向上を確認しました.

Bayesian Attention Branch Network
Bayesian Attention Branch Network (Reliability)

Attention機構を導入した識別のためのドメインスタイル変換

敵対的学習を用いた生成手法であるGenerative Adversarial Networks(GAN) の代表的な応用例として,ドメインスタイル変換があります.ドメインスタイル変換は,識別対象のラベルなし画像と非識別対象のラベルあり画像を用いたドメイン適応や,学習画像が極端に少ないFew-Shot学習に用いられます.しかし,画像が持つ識別に有利なコンテキストを維持した状態でスタイル変換をすることは容易ではありません.我々は,入力画像が持つ識別に有効な領域をスタイル変換するために,Attention機構を導入したドメインスタイル変換を提案します.これにより,識別に有利な領域を注視してスタイル変換を実現します.これにより,必ずしも綺麗ではないが識別対象を捉えた学習が可能となります.評価実験では,識別に有利な領域を捉えるAttention mapを獲得できるようになり,識別性能の向上を実現しました.

Attention based style transfer
Attention based style transfer (Results)

Attention Pairwise Rankingによるスキル優劣判定における視覚的説明と高精度化

Skill Assessmentの手法であるPairwise Deep Ranking (PDR) は,2つの動画内で行われている何らかの動作(スキル)に対して,ニューラルネットを用いてスコアを算出することで,各動作の優劣を判定する手法です.人間が動画を見てスキルを学習するためには,優劣判定の結果だけではなく,その判断根拠を明確に示すことが重要です.そこで我々は,PDRのスキル優劣判定時に視覚的説明を行う機構を導入することで,スキル優劣判定精度の向上を目的としたAttention Pairwise Rankingを提案します.スキルの動作には,優れている動作と劣っている動作の2種類が含まれていると考えられます.そのため提案手法では,優秀な動作を評価するSuperior Networkと,劣った動作を評価するInferior Networkの2つを用います.Superior NetworkとInferior NetworkにそれぞれAttention branchを導入することで,優秀な動作領域と,劣った動作領域の動作結果に対応した注視領域を獲得します.評価実験では,従来手法 (PDR) よりも優劣判定の精度が向上することを確認しました.

Attention Pairwise Ranking

骨格データからの動作認識における関節の重要度と関係性の獲得

骨格データからの動作認識において, Graph Convolutional Networksを用いた手法が高い認識性能を達成しています. しかしながら従来手法は, グラフ構造を事前に人手で定義するため, 動作特有の関節間の関係性を考慮できません. また, 認識における関節の重要度も動作ごとに異なることが予想されます. そこで, 関節の重要度と関係性を考慮して学習を行うSpatial Temporal Attention Graph Convolutional Networksを提案します. 提案手法は, フレームごとの関節の重要度を表すAttention nodeと, 関節間の重要な関係性を表すAttention edgeを獲得します. Attention nodeはAttention機構へ応用し, 重要な関節を強調した特徴を得ます. 一方, Attention edgeをグラフ畳み込み処理に適用し, 関節間の重要な関係性を考慮した特徴を得ます. 評価実験では, 動作特有のAttentionを獲得し, 動作認識の精度が向上することを確認しました.

ST-AGCN
ST-AGCN (Results)

注視領域を考慮したGANによる識別に効果的なデータ増幅

Convolutional Neural Network (CNN)は,幾何変化などを施して学習をすることで高精度な識別を達成しています.特に,少量のデータで学習するときは,データを水増しすることが必要不可欠です.ここで,よく学習したCNNは,入力画像の特徴的な識別領域に着目して識別することが知られています.識別領域に着目してデータを増幅することができれば,効果的なデータ増幅が期待できます.このことから,本研究では,識別対象領域に着目した画像生成が可能なDiscriminator-Driven Attention-Aware GAN (D2A2-GAN)を提案します.提案手法は,DiscriminatorにAttention branch及びAttention機構を導入します.これにより,識別対象領域を獲得しつつ,この領域に着目した画像生成を実現します.提案手法で生成した画像を,増幅データとしてCNNの識別学習に使用して精度の向上を図ります.このとき,生成画像に対する教師信号は,画像生成時に用いたonehotなラベルと,疑似ラベルとしてAttention branchが出力したクラス確率の2つ使用します.実験において,ベースとなる学習データが限られているときに,onehotなラベルを付与した結果は,従来のGANと同程度の結果でしたが,疑似ラベルを用いた結果は,従来のGANよりも精度が向上しました.

D2A2-GAN

前の研究 次の研究