Mouse-Geneformer: マウス単一細胞解析のための深層学習モデル
単一細胞RNAシーケンス(scRNA-seq)の技術革新により,細胞ごとの遺伝子発現を解析できるようになりました.Geneformer はヒトの単一細胞解析において高い精度を示しますが,ヒト専用のモデルであるため,疾患研究で重要な疾患を再現したマウスの単一細胞データを解析することができません.そこで,私たちはマウスの単一細胞解析に特化した Mouse-Geneformer を構築しました.
本モデルでは,約2,100万の単一細胞データセットである mouse-Genecorpus-20M を構築し,各単一細胞データを細胞特有の遺伝子群に変換します.
そのデータを Transformer Encoder に入力し,Masked Language Model により学習させます.これにより,マウスの遺伝子間の関係を効果的に捉えることが可能となりました.
評価実験では,従来手法と比べ細胞型分類精度が大幅に向上し,in silico 摂動実験では疾患原因の遺伝子の抽出も可能であることが確認されました.本研究により,マウスの単一細胞データの解析精度が向上し,今後の疾患研究や創薬への応用が期待されます.