機械知覚&ロボティクスグループ
中部大学

Deep Learning 口頭発表

Vision Transformer の応用と今後の動向予想

Author
箕浦大晃, 平川翼, 山下隆義, 藤吉弘亘
Publication
画像センシングシンポジウム, 2023

Download: PDF (Japanese)

ImageNet による画像認識タスクにおいてConvolutionalNeural Network を凌駕する性能を発揮したVisionTransformer (ViT) が登場した2021 年以降,ViTベースの手法が様々なコンピュータビジョンタスクで飛躍的発展を見せている.目覚ましい勢いでViT が発展する一方で,その勢いのあまり類似研究が多数でどこにフォーカスするかが重要になる.このような背景のもと,本講演ではViT の応用例をまとめつつ今後のViT 周辺に関する動向予想について紹介する.

前の研究 次の研究