MPRG : 機械知覚&ロボティクスグループ／中部大学

14 Jun 2023 国内会議

Vision Transformer の応用と今後の動向予想

Author: 箕浦大晃, 平川翼, 山下隆義, 藤吉弘亘
Publication: 画像センシングシンポジウム, 2023

Download: PDF (Japanese)

ImageNet による画像認識タスクにおいてConvolutionalNeural Network を凌駕する性能を発揮したVisionTransformer (ViT) が登場した2021 年以降，ViTベースの手法が様々なコンピュータビジョンタスクで飛躍的発展を見せている．目覚ましい勢いでViT が発展する一方で，その勢いのあまり類似研究が多数でどこにフォーカスするかが重要になる．このような背景のもと，本講演ではViT の応用例をまとめつつ今後のViT 周辺に関する動向予想について紹介する．