大規模言語モデルの理論的基盤と訓練手法

序論：大規模言語モデルの学術的位置づけ

大規模言語モデル（Large Language Model; LLM）は、自然言語処理（NLP）の研究において過去数十年にわたる理論的蓄積の集大成として位置づけられる。統計的言語モデルの伝統を継承しつつ、深層学習の非線形表現能力とTransformerアーキテクチャの並列処理効率を融合させた計算的枠組みである。本稿では、LLMの理論的基盤を数理的観点から体系的に分析し、訓練手法の発展経緯とその背後にある原理を学術的に解説する。

言語モデルの根幹は、テキスト列 w₁, w₂, …, wₙ に対する同時確率分布 P(w₁, w₂, …, wₙ) の推定にある。Shannon（1948）の情報理論に端を発するこの問題は、n-gramモデル、隠れマルコフモデル、ニューラル言語モデルを経て、現在のTransformerベースLLMへと至る進化を遂げた。各段階において、モデルの表現力と計算効率のトレードオフが中心的な研究課題であった。

特にGPT系列（Radford et al., 2018, 2019; Brown et al., 2020）およびBERT系列（Devlin et al., 2019）の登場は、事前訓練・微調整パラダイムを確立し、NLPの研究手法を根本的に変革した。数十億から数千億のパラメータを有するこれらのモデルは、言語の統計的規則性のみならず、推論・知識表現・文脈理解といった高次認知的機能の近似を実現している。本稿では、この現象の数理的メカニズムを明らかにすることを目的とする。

自己回帰言語モデリングの数理

自己回帰言語モデル（Autoregressive Language Model）は、テキストの同時確率を条件付き確率の連鎖として分解する。すなわち、

P(w₁, w₂, …, wₙ) = ∏ᵢ₌₁ⁿ P(wᵢ | w₁, …, wᵢ₋₁)

この分解は確率の連鎖律に基づくものであり、いかなる近似も含まない厳密な等式である。問題は、各条件付き確率 P(wᵢ | w₁, …, wᵢ₋₁) をいかに効率的かつ正確に推定するかにある。

n-gramモデルでは、マルコフ仮定により文脈長を固定し、P(wᵢ | wᵢ₋ₖ, …, wᵢ₋₁) を頻度に基づいて推定した。しかし、この手法はデータスパースネス問題に直面し、長距離依存の捕捉が困難であった。Kneser-Ney平滑化（Kneser & Ney, 1995）やmodified Kneser-Ney（Chen & Goodman, 1999）等の手法が提案されたが、根本的な制約を克服するには至らなかった。

ニューラル言語モデル（Bengio et al., 2003）は、単語の分散表現（distributed representation）を導入することでこの問題に対処した。単語をd次元の実数ベクトル空間に埋め込み、連続的な表現上で条件付き確率を推定することで、意味的類似性に基づく汎化を可能にした。この枠組みは、後のWord2Vec（Mikolov et al., 2013）やGloVe（Pennington et al., 2014）による単語埋め込みの研究へと発展した。

リカレントニューラルネットワーク（RNN; Elman, 1990）およびその拡張であるLSTM（Hochreiter & Schmidhuber, 1997）、GRU（Cho et al., 2014）は、可変長の文脈を隠れ状態として圧縮的に表現することで、長距離依存の学習を試みた。しかし、逐次的な計算が必要であるため並列化が困難であり、実用的な観点から大規模化に限界があった。勾配消失・爆発問題もLSTMゲート機構により緩和されたものの、完全な解決には至らなかった。

Transformerアーキテクチャ（Vaswani et al., 2017）は、自己注意機構（self-attention）により系列全体の依存関係を直接的にモデル化し、RNNの逐次性制約を完全に排除した。これにより大規模並列計算が可能となり、LLMの実現に不可欠な技術的基盤を提供した。現在のGPT-4（OpenAI, 2023）、PaLM 2（Google, 2023）、LLaMA（Touvron et al., 2023）等は、いずれもTransformerデコーダに基づく自己回帰モデルである。

訓練目的関数と最適化理論

LLMの訓練は、一般にクロスエントロピー損失の最小化として定式化される。訓練データセット D に含まれるテキスト列に対して、次トークン予測の負の対数尤度を最小化する：

L(θ) = −𝔼_(w₁,…,wₙ)∼D [ Σᵢ log P_θ(wᵢ | w₁, …, wᵢ₋₁) ]

この目的関数は、モデル分布 P_θ と訓練データの経験分布 P̂_data の間のKLダイバージェンスの最小化と等価である（情報理論的解釈）。すなわち、パープレキシティ（perplexity）の最小化は、モデルがデータ生成過程を忠実に近似することに対応する。

最適化には確率的勾配降下法（SGD）の変種が用いられる。特にAdam（Kingma & Ba, 2015）およびAdamW（Loshchilov & Hutter, 2019）が標準的であり、勾配の一次・二次モーメントの指数移動平均に基づく適応的学習率調整を行う。LLMの訓練では、学習率のウォームアップ（warmup）とコサインアニーリング（cosine annealing）の組み合わせが経験的に有効とされている（Loshchilov & Hutter, 2017）。

大規模モデルの訓練における勾配の統計的性質は、確率的最適化理論の観点から重要である。ミニバッチサイズの増大は勾配推定の分散を低減するが、一般化性能との関係は非自明である。McCandlish et al.（2018）は、臨界バッチサイズの概念を導入し、計算効率と学習効率のトレードオフを理論的に分析した。Kaplan et al.（2020）は、この理論をスケーリング則の文脈に位置づけ、最適なバッチサイズがモデルサイズと損失値に依存することを示した。

混合精度訓練（mixed precision training; Micikevicius et al., 2018）は、FP16/BF16演算とFP32マスターウェイトの併用により、メモリ使用量と計算量を大幅に削減する技術である。損失スケーリング（loss scaling）により数値安定性を確保しつつ、訓練速度を2〜3倍に向上させることが可能であり、LLMの実用的訓練において不可欠な手法となっている。

LLMの訓練パイプライン概観

スケーリング則の理論的解析

LLMの性能がモデルサイズ、データ量、計算量に対してべき乗則（power law）に従うという発見は、深層学習研究における最も重要な経験的知見の一つである。Kaplan et al.（2020）は、Transformerベースの言語モデルにおいて、テスト損失 L が以下のスケーリング則に従うことを示した：

L(N) ≈ (Nₖ / N)^αₙ , L(D) ≈ (Dₖ / D)^α_d , L(C) ≈ (Cₖ / C)^α_c

ここで N はパラメータ数、D はデータトークン数、C は計算量（FLOPs）であり、Nₖ, Dₖ, Cₖ および αₙ, α_d, α_c は経験的に決定される定数である。

Hoffmann et al.（2022）は、Chinchillaスケーリング則として知られるより精密な分析を提示した。彼らは、固定計算予算 C の下でモデルサイズ N とデータ量 D を同時に最適化すべきであることを示し、N と D はほぼ等比率でスケーリングすべきであると結論づけた。具体的には、計算最適なモデルでは D ≈ 20N 程度のトークン数が必要であるとされた。この知見は、それまでの「より大きなモデルが常に良い」という暗黙の前提を覆し、訓練データの重要性を再認識させるものであった。

スケーリング則の理論的説明は未だ完全ではないが、いくつかの仮説が提案されている。Hutter（2021）は、自然言語データの生成過程における階層的構造が、べき乗則的なスケーリングを生じさせるとする情報理論的な枠組みを提示した。また、Sharma & Kaplan（2022）は、データ多様体の内在的次元性がスケーリング指数を決定するとする理論を提案した。

近年の研究では、スケーリング則を超えた「創発的能力」（emergent abilities; Wei et al., 2022）の存在が議論されている。これは、モデルサイズが特定の閾値を超えた際に、少数ショット学習や連鎖的推論（chain-of-thought reasoning）等の質的に新しい能力が突然出現する現象を指す。ただし、Schaeffer et al.（2023）は、この「創発」がメトリックの選択に依存するアーティファクトである可能性を指摘しており、学術的な議論が継続中である。

事前訓練の方法論

LLMの事前訓練（pre-training）は、大規模な教師なしコーパスから言語の統計的規則性を学習する段階である。主要な事前訓練パラダイムとして、自己回帰（autoregressive; AR）モデリングとマスク言語モデリング（masked language modeling; MLM）の二つが存在する。

AR型の事前訓練は、GPT系列に代表される左から右への次トークン予測を行う。この手法は言語生成に自然に対応し、テキスト補完、要約、翻訳等の生成タスクに直接適用可能である。訓練時には、因果的注意マスク（causal attention mask）により、各位置が自身以前のトークンのみを参照するように制約される。

MLM型の事前訓練は、BERT（Devlin et al., 2019）に代表される手法であり、入力テキストの一部（通常15%）をランダムにマスクし、その復元を学習する。この双方向的文脈の利用により、文脈理解・感情分析・固有表現認識等の分類タスクにおいて優れた性能を発揮する。ただし、生成タスクへの直接適用は困難であり、この制約がGPT系列の優位性を生む一因となった。

T5（Raffel et al., 2020）はtext-to-text枠組みを提案し、すべてのNLPタスクを統一的なseq2seq形式で扱うことを可能にした。UL2（Tay et al., 2023）は、AR、MLM、prefix language modeling等の複数の目的関数を統合したmixture-of-denoisers（MoD）訓練を提案し、単一の目的関数を超えた柔軟な事前訓練手法の可能性を示した。

訓練データの品質と構成は、LLMの性能に決定的な影響を与える。The Pile（Gao et al., 2020）、C4（Raffel et al., 2020）、RedPajama（Together, 2023）等のオープンな訓練コーパスが研究コミュニティに提供されている。データの重複除去（deduplication; Lee et al., 2022）、有害コンテンツのフィルタリング（Welbl et al., 2021）、品質フィルタリング（Brown et al., 2020）等の前処理が、モデル性能と安全性の両面で重要である。

トークン化（tokenization）は、テキストをモデルが処理可能な離散的単位に変換する前処理であり、LLMの性能に無視できない影響を与える。Byte Pair Encoding（BPE; Sennrich et al., 2016）およびSentencePiece（Kudo & Richardson, 2018）が標準的な手法であり、語彙サイズ（典型的には32K〜128K）の選択は、表現効率と計算コストのトレードオフを伴う。

分散訓練と計算効率

数千億パラメータ規模のLLMは、単一のGPUメモリに収容することが不可能であり、分散訓練技術が必須である。主要な並列化戦略として、データ並列（Data Parallelism; DP）、テンソル並列（Tensor Parallelism; TP）、パイプライン並列（Pipeline Parallelism; PP）の三種類が存在し、これらを組み合わせた3D並列化が標準的手法となっている。

データ並列では、各GPU（ワーカー）がモデルの完全なコピーを保持し、異なるミニバッチを処理した後、勾配を集約（all-reduce）する。ZeRO（Zero Redundancy Optimizer; Rajbhandari et al., 2020）は、オプティマイザ状態（Stage 1）、勾配（Stage 2）、パラメータ（Stage 3）を段階的に分散することで、メモリ冗長性を排除する手法であり、DeepSpeedライブラリにおいて広く実装されている。

テンソル並列（Shoeybi et al., 2020）は、個々の行列演算を複数GPUに分割する手法であり、Transformerの注意ヘッドやFFN層を自然に分割可能である。ノード内の高速相互接続（NVLink等）を前提とするため、通常はノード内並列化に限定される。パイプライン並列（Huang et al., 2019; Narayanan et al., 2021）は、モデルのレイヤーを複数のGPUステージに分割し、マイクロバッチの流れを制御することで計算効率を最大化する。GPipe（Huang et al., 2019）およびPipeDream（Narayanan et al., 2019）等のスケジューリング手法が提案されている。

Megatron-LM（Shoeybi et al., 2020; Narayanan et al., 2021）は、3D並列化を統合的に実装したフレームワークであり、数千GPU規模での効率的な訓練を実現している。また、FSDP（Fully Sharded Data Parallel; Zhao et al., 2023）は、PyTorchネイティブのZeRO Stage 3実装として広く採用されている。

勾配チェックポインティング（gradient checkpointing; Chen et al., 2016）は、フォワードパスの中間活性値を破棄し、バックワードパス時に再計算することで、メモリ使用量を低減する技法である。計算コストの増大（典型的には33%程度）と引き換えに、大幅なメモリ節約を実現する。Flash Attention（Dao et al., 2022）は、注意機構の計算におけるメモリアクセスパターンを最適化し、GPUのHBM帯域幅を効率的に活用する手法であり、訓練速度とメモリ効率の両面で顕著な改善をもたらした。

LLMスケーリング則：パラメータ数とテスト損失の関係

微調整手法とパラメータ効率的適応

事前訓練されたLLMを特定のタスクやドメインに適応させる微調整（fine-tuning）は、実用的なLLM活用の中核的プロセスである。伝統的な全パラメータ微調整（full fine-tuning）に加え、近年ではパラメータ効率的微調整（Parameter-Efficient Fine-Tuning; PEFT）手法が精力的に研究されている。

Supervised Fine-Tuning（SFT）は、高品質な指示-応答ペアのデータセットを用いてモデルを微調整する手法である。InstructGPT（Ouyang et al., 2022）は、人間のフィードバックを用いた微調整パイプラインの先駆的研究であり、SFTを第一段階として位置づけた。Alpaca（Taori et al., 2023）やVicuna（Chiang et al., 2023）等のオープンソースプロジェクトは、Self-Instruct（Wang et al., 2023）等の手法により自動生成された指示データを用いたSFTの有効性を実証した。

LoRA（Low-Rank Adaptation; Hu et al., 2022）は、PEFT手法の中で最も広く採用されている手法であり、事前訓練済みの重み行列 W₀ に対して、低ランク分解された更新行列 ΔW = BA（ B ∈ ℝ^{d×r}, A ∈ ℝ^{r×k}, r ≪ min(d,k) ）のみを学習する。これにより、学習可能なパラメータ数を全体の0.1〜1%程度に削減しつつ、全パラメータ微調整に匹敵する性能を達成する。QLoRA（Dettmers et al., 2023）は、4ビット量子化されたベースモデル上でLoRAを適用することで、さらなるメモリ効率化を実現した。

Prefix Tuning（Li & Liang, 2021）およびPrompt Tuning（Lester et al., 2021）は、入力に学習可能な連続的トークン（soft prompts）を付加する手法であり、モデル本体のパラメータを凍結したまま適応を行う。Adapter（Houlsby et al., 2019）は、Transformerの各層にボトルネック構造の小規模モジュールを挿入する手法である。これらのPEFT手法は、複数タスクへの同時適応や、メモリ制約下でのデプロイメントにおいて実用的な利点を有する。

トークン化とサブワード分割の理論

トークン化は、自然言語テキストを離散的なトークン列に変換する前処理であり、LLMの入出力空間を定義する基礎的操作である。この一見単純な処理が、モデルの学習効率、多言語対応能力、および推論性能に本質的な影響を与えることが近年の研究で明らかになっている。

BPE（Byte Pair Encoding; Sennrich et al., 2016）は、統計的なサブワード分割アルゴリズムであり、訓練コーパスにおける頻出バイトペアを反復的にマージすることで語彙を構築する。このアルゴリズムは、頻出語を単一トークンとして効率的に表現しつつ、未知語をサブワード単位に分解することで、開放語彙（open vocabulary）問題に対処する。GPT系列ではBPEの変種が、LLaMA系列ではSentencePiece（Kudo & Richardson, 2018）のunigramモデルが採用されている。

語彙サイズの選択は、圧縮効率と表現の粒度のトレードオフを伴う重要な設計判断である。語彙サイズが大きいほど、頻出表現を少ないトークンで表現でき、系列長が短縮される一方、埋め込み層のパラメータ数が増大し、低頻度トークンの学習が困難になる。典型的なLLMでは32K〜128Kの範囲が選択されている。

多言語LLMにおいては、トークン化の偏りが深刻な問題となる。英語中心のコーパスで訓練されたトークナイザは、英語テキストに対しては高い圧縮効率を示す一方、日本語や韓国語等の非ラテン文字言語では、同等の意味内容を表現するのに数倍のトークン数を要する場合がある。この「トークン化の不公平性」（tokenization inequity）は、計算コストの増大のみならず、文脈長の実質的制約を通じてモデル性能にも影響を与える。

評価手法とベンチマーク

LLMの評価は、その多面的な能力を考慮した包括的なベンチマーク体系を必要とする。パープレキシティ（perplexity）は言語モデルの基本的評価指標であるが、タスク固有の性能を直接的に反映しないため、多様なダウンストリームタスクでの評価が不可欠である。

MMLU（Hendrycks et al., 2021）は、57の学術分野にわたる多肢選択問題からなるベンチマークであり、LLMの知識と推論能力の包括的評価を可能にする。HellaSwag（Zellers et al., 2019）は常識推論、GSM8K（Cobbe et al., 2021）は数学的推論、HumanEval（Chen et al., 2021）はコード生成能力を評価する。BIG-Bench（Srivastava et al., 2022）は、200以上のタスクからなる大規模ベンチマークスイートであり、LLMの能力の多角的評価を目的としている。

評価手法自体にも課題が存在する。データ汚染（data contamination）——すなわち、評価データが訓練データに混入する問題——は、ベンチマークスコアの信頼性を損なう重大な懸念である（Dodge et al., 2021）。また、少数ショット評価（few-shot evaluation）におけるプロンプトの選択や順序が結果に大きく影響することが知られており（Lu et al., 2022）、評価プロトコルの標準化が求められている。

Chatbot Arena（Zheng et al., 2023）に代表される人間評価プラットフォームは、自動指標では捕捉困難な品質次元（自然さ、有用性、安全性）を評価する試みであり、ELOレーティングシステムに基づくモデル間の相対的比較を提供している。

理論的課題と今後の展望

LLMの理論的理解は、その実用的成功に比して大きく遅れていると言わざるを得ない。以下に主要な未解決課題を列挙する。

第一に、LLMの一般化能力の理論的説明が不十分である。古典的な学習理論（VC次元、Rademacher複雑度等）は、過パラメータ化された深層モデルの振る舞いを説明できない。Zhang et al.（2021）が示したように、大規模ニューラルネットワークはランダムラベルすら記憶可能でありながら、実データに対しては優れた一般化性能を示す。この「二重降下」（double descent; Nakkiran et al., 2021）現象の完全な理解は、理論的研究の最重要課題の一つである。

第二に、LLMにおける「理解」と「記憶」の境界が不明確である。モデルが訓練データのパターンを統計的に再現しているのか、あるいは何らかの抽象的な言語知識を獲得しているのかという問いは、計算言語学および認知科学の根本的問題に接続する。Bender & Koller（2020）の「確率的オウム」批判は、この問題の一側面を鋭く指摘している。

第三に、効率的な訓練と推論の理論的限界が未解明である。現在のLLM訓練には莫大なエネルギーと計算資源が必要であり、環境負荷の観点からも持続可能性が問われている（Strubell et al., 2019; Patterson et al., 2021）。より効率的なアーキテクチャ（State Space Models; Gu & Dao, 2023）や訓練手法の探索は、理論と実践の両面で急務である。

これらの課題に対する理論的進展は、LLMの信頼性向上、安全性保証、および社会的受容性の確立に不可欠であり、今後の研究の方向性を決定づけるものとなるだろう。

参考文献

Bengio, Y., Ducharme, R., Vincent, P., & Jauvin, C. (2003). A neural probabilistic language model. Journal of Machine Learning Research, 3, 1137–1155.
Bender, E. M., & Koller, A. (2020). Climbing towards NLU: On meaning, form, and understanding in the age of data. Proceedings of ACL 2020, 5185–5198.
Brown, T. B., et al. (2020). Language models are few-shot learners. Advances in Neural Information Processing Systems, 33, 1877–1901.
Chen, M., et al. (2021). Evaluating large language models trained on code. arXiv:2107.03374.
Chen, T., Xu, B., Zhang, C., & Guestrin, C. (2016). Training deep nets with sublinear memory cost. arXiv:1604.06174.
Cho, K., et al. (2014). Learning phrase representations using RNN encoder-decoder for statistical machine translation. Proceedings of EMNLP 2014, 1724–1734.
Cobbe, K., et al. (2021). Training verifiers to solve math word problems. arXiv:2110.14168.
Dao, T., et al. (2022). FlashAttention: Fast and memory-efficient exact attention with IO-awareness. Advances in Neural Information Processing Systems, 35.
Dettmers, T., Pagnoni, A., Holtzman, A., & Zettlemoyer, L. (2023). QLoRA: Efficient finetuning of quantized language models. Advances in Neural Information Processing Systems, 36.
Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of deep bidirectional transformers for language understanding. Proceedings of NAACL-HLT 2019, 4171–4186.
Hendrycks, D., et al. (2021). Measuring massive multitask language understanding. Proceedings of ICLR 2021.
Hochreiter, S., & Schmidhuber, J. (1997). Long short-term memory. Neural Computation, 9(8), 1735–1780.
Hoffmann, J., et al. (2022). Training compute-optimal large language models. Advances in Neural Information Processing Systems, 35.
Hu, E. J., et al. (2022). LoRA: Low-rank adaptation of large language models. Proceedings of ICLR 2022.
Huang, Y., et al. (2019). GPipe: Efficient training of giant neural networks using pipeline parallelism. Advances in Neural Information Processing Systems, 32.
Kaplan, J., et al. (2020). Scaling laws for neural language models. arXiv:2001.08361.
Kingma, D. P., & Ba, J. (2015). Adam: A method for stochastic optimization. Proceedings of ICLR 2015.
Kudo, T., & Richardson, J. (2018). SentencePiece: A simple and language independent subword tokenizer and detokenizer for neural text processing. Proceedings of EMNLP 2018, 66–71.
Loshchilov, I., & Hutter, F. (2017). SGDR: Stochastic gradient descent with warm restarts. Proceedings of ICLR 2017.
Loshchilov, I., & Hutter, F. (2019). Decoupled weight decay regularization. Proceedings of ICLR 2019.
Narayanan, D., et al. (2021). Efficient large-scale language model training on GPU clusters using Megatron-LM. Proceedings of SC 2021.
Ouyang, L., et al. (2022). Training language models to follow instructions with human feedback. Advances in Neural Information Processing Systems, 35.
Radford, A., et al. (2018). Improving language understanding by generative pre-training. OpenAI Technical Report.
Radford, A., et al. (2019). Language models are unsupervised multitask learners. OpenAI Technical Report.
Raffel, C., et al. (2020). Exploring the limits of transfer learning with a unified text-to-text transformer. Journal of Machine Learning Research, 21(140), 1–67.
Rajbhandari, S., et al. (2020). ZeRO: Memory optimizations toward training trillion parameter models. Proceedings of SC 2020.
Schaeffer, R., Miranda, B., & Koyejo, S. (2023). Are emergent abilities of large language models a mirage? Advances in Neural Information Processing Systems, 36.
Shannon, C. E. (1948). A mathematical theory of communication. Bell System Technical Journal, 27(3), 379–423.
Shoeybi, M., et al. (2020). Megatron-LM: Training multi-billion parameter language models using model parallelism. arXiv:1909.08053.
Touvron, H., et al. (2023). LLaMA: Open and efficient foundation language models. arXiv:2302.13971.
Vaswani, A., et al. (2017). Attention is all you need. Advances in Neural Information Processing Systems, 30, 5998–6008.
Wei, J., et al. (2022). Emergent abilities of large language models. Transactions on Machine Learning Research.
Zhang, C., et al. (2021). Understanding deep learning (still) requires rethinking generalization. Communications of the ACM, 64(3), 107–115.