強化学習とRLHFの理論と実践

序論：AIアラインメントと強化学習

大規模言語モデル（LLM）の実用的展開において、モデルの出力を人間の意図・価値観・選好に整合（align）させることは、技術的にも社会的にも最重要の課題である。事前訓練されたLLMは、インターネットテキストの統計的パターンを精緻に学習しているが、そのままでは有害・不正確・意図に反する出力を生成する可能性がある。この課題に対する中核的アプローチが、人間のフィードバックによる強化学習（Reinforcement Learning from Human Feedback; RLHF）である。

RLHFは、Christiano et al.（2017）による先駆的研究に端を発し、InstructGPT（Ouyang et al., 2022）において大規模LLMへの適用が実証された。その後、ChatGPT、Claude、Gemini等の商用LLMはいずれもRLHFまたはその派生手法をアラインメントプロセスに採用しており、現代のLLM開発において不可欠なパイプラインコンポーネントとなっている。

本稿では、RLHFの理論的基盤を、強化学習理論、選好学習（preference learning）、および最適化理論の観点から体系的に解説する。さらに、Direct Preference Optimization（DPO）等のRLHFフリー手法や、Constitutional AI（CAI）等の発展的アプローチを含む、アラインメント手法の包括的な学術的分析を提供する。

強化学習の基礎理論

強化学習（Reinforcement Learning; RL）は、エージェントが環境との相互作用を通じて、累積報酬を最大化する方策（policy）を学習する枠組みである。マルコフ決定過程（Markov Decision Process; MDP）として定式化され、状態空間 S、行動空間 A、遷移確率 P(s'|s,a)、報酬関数 R(s,a)、割引率 γ ∈ [0,1) の五つ組 (S, A, P, R, γ) で記述される。

方策 π(a|s) は、状態 s における行動 a の確率分布として定義され、最適方策 π* は期待累積報酬（リターン）を最大化するものである：

π* = argmax_π 𝔼_π [ Σ_{t=0}^∞ γ^t R(s_t, a_t) ]

価値関数 V^π(s) は状態 s から方策 π に従った場合の期待リターンであり、行動価値関数 Q^π(s,a) は状態 s で行動 a を取った後に方策 π に従った場合の期待リターンである。ベルマン方程式はこれらの再帰的関係を記述する。

方策勾配法（Policy Gradient Methods; Sutton et al., 2000）は、方策をパラメトリックに表現し、目的関数の勾配に基づいて直接最適化する手法群である。REINFORCE（Williams, 1992）は最も基本的な方策勾配アルゴリズムであり、勾配推定量は以下で与えられる：

∇_θ J(θ) = 𝔼_π_θ [ Σ_t ∇_θ log π_θ(a_t|s_t) · (R_t − b) ]

ここで b はベースライン（分散低減のための制御変量）である。この推定量は不偏であるが高分散であり、実用的には分散低減技法が不可欠である。

Actor-Critic法は、方策（Actor）と価値関数（Critic）を同時に学習することで、方策勾配の分散を低減する。A2C（Advantage Actor-Critic）は、アドバンテージ関数 A^π(s,a) = Q^π(s,a) − V^π(s) を用いることで、さらなる分散低減を実現する。Generalized Advantage Estimation（GAE; Schulman et al., 2016）は、TD(λ)に類似した手法で、バイアスと分散のトレードオフを制御可能なアドバンテージ推定を提供する。

Proximal Policy Optimization（PPO）

Proximal Policy Optimization（PPO; Schulman et al., 2017）は、RLHFにおいて標準的に用いられる方策最適化アルゴリズムである。PPOは、Trust Region Policy Optimization（TRPO; Schulman et al., 2015）の実装を簡略化しつつ、同等以上の性能を達成する手法として設計された。

PPOの中核的アイデアは、方策更新の大きさをクリッピングにより制約することで、破壊的な方策変化（catastrophic policy change）を防止することにある。PPO-Clip目的関数は以下で定義される：

L^{CLIP}(θ) = 𝔼_t [ min(r_t(θ) Â_t, clip(r_t(θ), 1−ε, 1+ε) Â_t) ]

ここで r_t(θ) = π_θ(a_t|s_t) / π_{θ_old}(a_t|s_t) は確率比、Â_t はGAEによるアドバンテージ推定量、ε（典型的には0.1〜0.2）はクリッピング範囲である。

この目的関数は、確率比 r_t が [1−ε, 1+ε] の範囲外に出た場合に勾配を打ち切ることで、方策の急激な変化を防止する。アドバンテージが正（良い行動）の場合は確率比の上限を、負（悪い行動）の場合は下限をクリッピングする。この非対称的なクリッピングにより、悲観的な方策更新が自然に実現される。

LLMの文脈でのPPO適用は、テキスト生成をRL問題として定式化することで実現される。LLMが方策 π_θ に対応し、各トークン生成が行動、プロンプトが初期状態、生成されたテキスト全体に対する報酬モデルのスコアが報酬となる。重要な追加制約として、KLダイバージェンスペナルティが導入され、RLHFで最適化された方策が事前訓練済みモデル（参照方策 π_ref）から過度に逸脱することを防止する：

R_total = R_reward(y) − β · D_KL(π_θ || π_ref)

RLHFパイプラインの三段階構成

報酬モデリングの理論

RLHF の第二段階である報酬モデル（Reward Model; RM）の訓練は、人間の選好データから報酬関数を学習するプロセスである。この問題は、選好学習（preference learning）および比較判断のモデリングとして、心理物理学に起源を持つ理論的枠組みに基づいている。

Bradley-Terryモデル（Bradley & Terry, 1952）は、ペアワイズ比較から潜在的なスコアを推定するための古典的確率モデルであり、RLHFにおける標準的な選好モデリング手法として採用されている。プロンプト x に対する二つの応答 y_w（選好される応答）と y_l（劣後する応答）について、選好確率は以下でモデル化される：

P(y_w ≻ y_l | x) = σ(R_θ(x, y_w) − R_θ(x, y_l))

ここで σ はシグモイド関数、R_θ はパラメータ θ を持つ報酬モデルである。報酬モデルの訓練は、人間の選好データに対する負の対数尤度の最小化として定式化される：

L_RM(θ) = −𝔼_{(x,y_w,y_l)} [ log σ(R_θ(x, y_w) − R_θ(x, y_l)) ]

報酬モデルのアーキテクチャは、典型的にはSFTモデルと同じTransformerを基盤とし、最終層のトークン位置に線形ヘッドを付加してスカラー報酬値を出力する。モデルサイズの選択は重要な設計判断であり、報酬モデルが方策モデルより小さい場合、報酬ハッキング（reward hacking）のリスクが増大することが報告されている（Gao et al., 2023）。

報酬モデルの限界として、Goodhart's Law（「指標が目標となるとき、それは良い指標でなくなる」）のRL版が知られている。方策がPPOにより報酬モデルのスコアを過度に最適化すると、報酬モデルの不完全性を悪用した出力が生成される。これが報酬ハッキングまたは報酬過最適化（reward overoptimization）であり、Gao et al.（2023）はこの現象のスケーリング特性を詳細に分析した。

Direct Preference Optimization（DPO）

Direct Preference Optimization（DPO; Rafailov et al., 2023）は、明示的な報酬モデルの訓練とRL最適化の両方を回避し、選好データから直接的に方策を最適化する手法である。DPOは、RLHF目的関数の解析的解を利用して、RL問題を分類問題に変換する。

KLペナルティ付きRL目的関数の最適方策は、以下の閉形式解を持つことが示される：

π*(y|x) = (1/Z(x)) · π_ref(y|x) · exp(R(x,y) / β)

この関係式を反転させると、最適報酬関数は方策と参照方策の対数確率比として表現される：

R*(x,y) = β · log(π*(y|x) / π_ref(y|x)) + β · log Z(x)

この結果をBradley-Terryモデルに代入すると、分配関数 Z(x) が相殺され、以下のDPO損失関数が導出される：

L_DPO(θ) = −𝔼_{(x,y_w,y_l)} [ log σ(β · (log(π_θ(y_w|x)/π_ref(y_w|x)) − log(π_θ(y_l|x)/π_ref(y_l|x)))) ]

DPOの利点は、報酬モデルの訓練が不要であり、PPOの複雑な実装（価値ネットワーク、GAE、クリッピング等）を必要としないことである。実装は標準的な教師あり学習パイプラインで実行可能であり、ハイパーパラメータ調整も容易である。

一方で、DPOにはいくつかの理論的・実践的制約が存在する。第一に、DPOはオフライン最適化であり、方策の改善に伴う新しいデータの収集（オンライン探索）を行わないため、分布シフト問題に脆弱である。Iterative DPO（Xu et al., 2024）やOnline DPO（Guo et al., 2024）は、方策の出力からサンプリングした新しいデータで反復的にDPOを適用することで、この制約を緩和する。

第二に、DPOは暗黙的に単一の報酬関数を仮定しており、人間の選好の多様性や非推移性を十分に捕捉できない可能性がある。Azar et al.（2023）のIdentity Preference Optimization（IPO）は、Bradley-Terryモデルの仮定を緩和した一般化を提案している。

発展的アラインメント手法

RLHFとDPOを超えた、より発展的なアラインメント手法が活発に研究されている。これらの手法は、人間のフィードバックのスケーラビリティ、アラインメントの堅牢性、および多次元的な価値の整合を目指している。

Kahneman-Tversky Optimization（KTO; Ethayarajh et al., 2024）は、ペアワイズ比較データではなく、各応答に対する二値のフィードバック（good/bad）のみを必要とする手法である。プロスペクト理論に着想を得たKTOは、損失回避（loss aversion）の非対称性を目的関数に組み込み、人間の実際の判断パターンにより忠実なモデリングを行う。

Reinforcement Learning from AI Feedback（RLAIF; Bai et al., 2022; Lee et al., 2023）は、人間の代わりにAI（典型的にはより大規模なLLM）がフィードバックを提供する枠組みである。Constitutional AI（CAI; Bai et al., 2022）は、RLAIFの一形態であり、事前に定義された原則（constitution）に基づいてAI自身が応答を評価・改善する自己改善プロセスを実装する。

Self-Play Fine-Tuning（SPIN; Chen et al., 2024）は、モデル自身が生成した応答と人間が作成した応答を区別するゲーム理論的な枠組みに基づく手法であり、外部の報酬モデルやAIフィードバックを必要としない。Iterative DPO（Yuan et al., 2024）やSelf-Rewarding Language Models（Yuan et al., 2024）は、モデルが自身の出力を評価し、選好データを自己生成する自己改善ループを実装する。

RLHF/DPOの訓練においては、報酬ハッキングと過学習のバランスが実践的に重要な課題である。PPO訓練では、KLペナルティ係数 β の適応的調整や、報酬のクリッピング、アーリーストッピング等の正則化技法が用いられる。DPOでは、β パラメータが暗黙的にKL制約の強さを制御し、大きな β は保守的な（参照方策に近い）更新、小さな β は積極的な更新に対応する。

アラインメント手法の比較：複雑性 vs 性能

安全性アラインメントの理論

アラインメントの究極的な目標は、AIシステムの行動を人間の意図と価値観に整合させることであるが、この問題は技術的困難さに加えて、哲学的・倫理的な深淵を含んでいる。

外的アラインメント（outer alignment）は、「正しい目的関数」の定義に関わる問題であり、人間の複雑で多様な価値観をスカラー報酬として表現することの原理的困難さに起因する。内的アラインメント（inner alignment; Hubinger et al., 2019）は、報酬最適化の過程でモデルが「mesa-optimizer」——すなわち、訓練目的関数とは異なる内部目的を持つ最適化プロセス——を発達させるリスクに関わる。

Scalable Oversight（Burns et al., 2023）は、モデルの能力が人間の評価能力を超えた場合のアラインメント維持に関する研究である。この文脈では、モデル支援型評価（model-assisted evaluation）、議論（debate; Irving et al., 2018）、再帰的報酬モデリング（recursive reward modeling; Leike et al., 2018）等の手法が提案されている。

Constitutional AI（Bai et al., 2022）は、具体的な行動規範（constitution）を言語的に定義し、モデル自身がこの規範に照らして応答を評価・改善する手法である。この手法は、人間のフィードバックのスケーラビリティ問題を緩和するとともに、アラインメントの透明性と再現性を向上させる。

Red Teaming（Perez et al., 2022; Ganguli et al., 2022）は、アラインメントの堅牢性をテストするための敵対的評価手法である。自動化されたred teaming（Perez et al., 2022）は、LLMを用いてジェイルブレイク（jailbreak）プロンプトを生成し、アラインメントの脆弱性を体系的に発見する。

実践的課題と今後の展望

RLHFの実践的実装には、多くの工学的課題が伴う。PPO訓練では、方策モデル、参照モデル、報酬モデル、価値モデルの最大四つのLLMを同時にGPUメモリに保持する必要があり、メモリ制約が深刻なボトルネックとなる。DeepSpeed-Chat（Yao et al., 2023）、TRL（von Werra et al., 2023）、OpenRLHF等のフレームワークがこの課題に対処するインフラストラクチャを提供している。

人間の選好データの品質と一貫性は、RLHFの性能を根本的に規定する。アノテーター間の一致率（inter-annotator agreement）は典型的には70〜80%程度であり、主観的な判断が不可避的に含まれる。この不確実性を適切にモデル化し、ロバストな報酬学習を行うことが重要である。

多言語・多文化アラインメントは、グローバルなLLM展開における重要な課題である。文化的価値観の多様性を考慮したアラインメントは、単一の報酬モデルでは不十分であり、コンテキスト依存的な適応メカニズムが必要となる。

今後の研究方向として、以下が特に重要であると考えられる。第一に、スケーラブルな自動評価手法の開発——人間のフィードバックに依存しないアラインメント検証の実現。第二に、多目的アラインメント——有用性、安全性、正直さ等の複数の目的を同時に最適化する手法の確立。第三に、形式的安全性保証——アラインメントの理論的保証を提供する数学的枠組みの構築。これらの課題への取り組みは、LLMの社会的信頼性と持続可能な発展に不可欠である。

参考文献

Azar, M. G., et al. (2023). A general theoretical paradigm to understand learning from human feedback. arXiv:2310.12036.
Bai, Y., et al. (2022). Constitutional AI: Harmlessness from AI feedback. arXiv:2212.08073.
Bradley, R. A., & Terry, M. E. (1952). Rank analysis of incomplete block designs: I. The method of paired comparisons. Biometrika, 39(3/4), 324–345.
Burns, C., et al. (2023). Weak-to-strong generalization: Eliciting strong capabilities with weak supervision. arXiv:2312.09390.
Christiano, P. F., et al. (2017). Deep reinforcement learning from human preferences. Advances in Neural Information Processing Systems, 30.
Ethayarajh, K., et al. (2024). KTO: Model alignment as prospect theoretic optimization. arXiv:2402.01306.
Ganguli, D., et al. (2022). Red teaming language models to reduce harms. arXiv:2209.07858.
Gao, L., et al. (2023). Scaling laws for reward model overoptimization. Proceedings of ICML 2023.
Hubinger, E., et al. (2019). Risks from learned optimization in advanced machine learning systems. arXiv:1906.01820.
Irving, G., Christiano, P., & Amodei, D. (2018). AI safety via debate. arXiv:1805.00899.
Lee, H., et al. (2023). RLAIF: Scaling reinforcement learning from human feedback with AI feedback. arXiv:2309.00267.
Leike, J., et al. (2018). Scalable agent alignment via reward modeling. arXiv:1811.07871.
Ouyang, L., et al. (2022). Training language models to follow instructions with human feedback. Advances in Neural Information Processing Systems, 35.
Perez, E., et al. (2022). Red teaming language models with language models. Proceedings of EMNLP 2022.
Rafailov, R., et al. (2023). Direct preference optimization: Your language model is secretly a reward model. Advances in Neural Information Processing Systems, 36.
Schulman, J., et al. (2015). Trust region policy optimization. Proceedings of ICML 2015.
Schulman, J., et al. (2016). High-dimensional continuous control using generalized advantage estimation. Proceedings of ICLR 2016.
Schulman, J., et al. (2017). Proximal policy optimization algorithms. arXiv:1707.06347.
Sutton, R. S., et al. (2000). Policy gradient methods for reinforcement learning with function approximation. Advances in Neural Information Processing Systems, 12.
Williams, R. J. (1992). Simple statistical gradient-following algorithms for connectionist reinforcement learning. Machine Learning, 8, 229–256.