国内会議
Mix-Geneformer : Unified Representation Learning for Human and Mouse scRNA-seq Data
- Author
- 西尾優希,山下隆義,伊藤啓太,平川翼,藤吉弘亘
- Publication
- 2025年日本バイオインフォマティクスVer2.0
Download: PDF (Japanese)
シングルセルRNAシーケンシング(scRNA-seq)は,細胞レベルでの遺伝子発現解析を可能にする一方, 既存の Geneformer や Mouse-Geneformerは種特異的に学習されるため,ヒトとマウスをまたぐ統合解析が困難であった.本研究では,約3,000 万件のヒトおよび約2,000万件のマウス scRNA-seq データを統合し,Transformerベースの新規モデル「Mix-Geneformer」を構築した.モデルにはMasked Language Modeling (MLM)と SimCSE ベースの対照学習を組み合わせ,入力データに対して,Rank value encoding という下処理を適用することで,ヒトとマウス双方の遺伝子表現を同時に学習する.Mix-Geneformer の主要な評価結果は以下の通りである.
1. 細胞型の分類タスクにおいて,高性能を発揮している.例として,マウスの腎臓データにおける分類精度では95.8%を達成し,既存モデルを上回った.2. 腎臓・脳などの臓器を対象としたin vivo実験で示されている疾患に関連する
遺伝子を,in silico摂動実験においても同定することができ,Mix-Geneformerの生物学的な妥当性を示した.本モデルは,異種間scRNA-seq統合解析の基盤として,基礎研究から臨床応用,さらには創薬研究に寄与することが期待される.