因果推論とAI — 相関から因果へ
序論:なぜAIに因果推論が必要か
現代の機械学習は、本質的に相関(correlation)の学習に基づいている。深層学習モデルは、入力変数X と出力変数Yの間の統計的関連性P(Y|X)を高精度に近似する能力に優れるが、Xの変化がYの変化を「引き起こす」かどうか——すなわち因果関係(causation)——については何も述べない。Judea Pearl(2009)が繰り返し指摘するように、「相関は因果を含意しない(correlation does not imply causation)」という統計学の基本原則は、現代の機械学習においても依然として中心的な課題である。
因果推論(causal inference)の不在は、AIシステムにおける複数の根本的な限界をもたらす。第一に、分布シフト(distribution shift)に対する脆弱性である。相関ベースのモデルは、訓練データの分布と異なる環境では性能が著しく劣化する。因果関係はメカニズムに基づくため、環境の変化に対してより頑健である(Peters et al., 2016)。第二に、反事実的推論(counterfactual reasoning)の不可能性である。「もし治療Aの代わりに治療Bを行っていたら、患者の予後はどうなったか」という反事実的問いに答えるには、因果モデルが不可欠である。第三に、公正性の評価における限界である。アルゴリズム的公正性の多くの定義は、因果的概念を必要とする(Kusner et al., 2017)。
本稿では、因果推論の二大理論的枠組み——Pearlの構造的因果モデルとRubinの潜在的結果モデル——を概観し、因果発見アルゴリズム、因果推論と機械学習の融合、および因果AIの応用と展望を体系的に論じる。
Pearlの構造的因果モデル
Judea Pearlは、因果推論の理論的基盤として構造的因果モデル(Structural Causal Model, SCM)を体系化した(Pearl, 2009)。SCMは、因果関係を有向非巡回グラフ(Directed Acyclic Graph, DAG)と構造方程式(structural equations)の組み合わせとして形式化する。
SCMは三つ組M = (U, V, F)として定義される。ここで、Uは外生変数(exogenous variables)の集合、Vは内生変数(endogenous variables)の集合、Fは構造方程式の集合であり、各内生変数V_iに対してV_i = f_i(pa_i, U_i)(pa_iはV_iの親変数、U_iは対応する外生変数)が定義される。対応するDAGにおいて、ノードは変数、有向辺は直接的因果関係を表す。
Pearlの理論の核心は、介入(intervention)の概念の形式化にある。do演算子(do-operator)は、変数Xに値xを「設定する」操作を表し、P(Y | do(X = x))は、Xにxを介入的に設定した場合のYの分布を表す。重要なのは、P(Y | do(X = x))が条件付き確率P(Y | X = x)と一般に異なることである。条件付き確率は観察的な関連性を表すのに対し、do確率は因果的な効果を表す。
バックドア基準(back-door criterion)は、観察データから因果効果を同定するための十分条件を提供する。変数の集合Zが(X, Y)に対するバックドア基準を満たすのは、(1) ZがXからYへのすべてのバックドアパス(Xに入るパスのみからなるパス)を遮断し、(2) ZにXの子孫が含まれない場合である。バックドア基準が満たされるとき、因果効果はP(Y | do(X = x)) = Σ_z P(Y | X = x, Z = z) P(Z = z)(バックドア調整公式)として計算できる。
フロントドア基準(front-door criterion)は、バックドア基準が適用できない場合の因果効果同定のための代替基準である。XからYへの因果効果が、中間変数Mを通じてのみ伝達される場合、P(Y | do(X = x)) = Σ_m P(M = m | X = x) Σ_{x'} P(Y | M = m, X = x') P(X = x')として計算できる。
Pearlは、因果推論の階層構造として「因果の梯子(Ladder of Causation)」を提唱した(Pearl and Mackenzie, 2018)。第一段階は「関連(Association)」であり、観察データからの統計的パターンの抽出に対応する(P(Y|X))。第二段階は「介入(Intervention)」であり、能動的な操作の効果の予測に対応する(P(Y|do(X)))。第三段階は「反事実(Counterfactual)」であり、「もし~だったら」という仮定的状況の推論に対応する(P(Y_x | X = x', Y = y'))。現代の機械学習の大部分は第一段階にとどまっており、因果AIの目標は第二・第三段階の能力をAIに付与することである。
図1:因果の梯子(Ladder of Causation)
Rubinの潜在的結果モデル
Donald Rubinの潜在的結果(potential outcomes)フレームワーク(Rubin, 1974)は、因果推論のもう一つの主要な理論的枠組みであり、特に統計学、疫学、および経済学において広く用いられている。このフレームワークは、反事実的アプローチ(counterfactual approach)とも呼ばれ、Neyman-Rubinの因果モデルとして知られる。
潜在的結果モデルでは、個体iに対する処置T(T = 1: 処置群、T = 0: 対照群)の因果効果を、二つの潜在的結果Y_i(1)(処置を受けた場合の結果)とY_i(0)(処置を受けなかった場合の結果)の差として定義する。個体レベルの因果効果(Individual Treatment Effect, ITE)はτ_i = Y_i(1) - Y_i(0)であるが、各個体は処置群または対照群のいずれかにしか属せないため、両方の潜在的結果を同時に観察することはできない。これが「因果推論の根本問題(fundamental problem of causal inference)」(Holland, 1986)と呼ばれる。
この根本問題に対処するため、集団レベルの因果効果——平均処置効果(Average Treatment Effect, ATE)τ = E[Y(1) - Y(0)]——が主要な推定対象となる。ATEの推定には、以下の仮定が必要である。(1) SUTVA(Stable Unit Treatment Value Assumption):個体間の干渉がなく、処置のバージョンが一意であること。(2) 無交絡性(unconfoundedness):(Y(0), Y(1)) ⊥ T | X。すなわち、共変量Xを条件とすれば、処置割当は潜在的結果と独立であること。(3) 共通サポート(positivity):0 < P(T = 1 | X = x) < 1。すなわち、すべての共変量値に対して、処置群・対照群の両方に属する確率が正であること。
傾向スコア(propensity score)e(x) = P(T = 1 | X = x)は、Rosenbaum and Rubin(1983)によって導入された概念であり、高次元の共変量を一次元のスコアに要約することで、因果効果の推定を容易にする。傾向スコアの重要な性質は、バランシング性(balancing property)——e(X)を条件とすれば、処置割当は共変量と独立(X ⊥ T | e(X))——にある。傾向スコアに基づくATEの推定法として、逆確率重み付け(Inverse Probability Weighting, IPW)、傾向スコアマッチング、および傾向スコア層別化がある。
Doubly Robust(DR)推定量(Bang and Robins, 2005)は、結果モデルと傾向スコアモデルのいずれか一方が正しく特定されていれば一致推定量(consistent estimator)となる性質を持ち、実践的な頑健性を提供する。Augmented IPW(AIPW)推定量は、τ̂_AIPW = 1/n Σ_i [μ̂₁(X_i) - μ̂₀(X_i) + T_i(Y_i - μ̂₁(X_i))/ê(X_i) - (1-T_i)(Y_i - μ̂₀(X_i))/(1-ê(X_i))]として定義される。ここで、μ̂_t(x)は結果モデル、ê(x)は傾向スコアの推定値である。
因果発見アルゴリズム
因果発見(causal discovery)は、観察データから因果構造(DAG)を推定する問題であり、因果推論の重要な前提条件である。因果構造が未知の場合、データから因果関係を発見するためのアルゴリズムが必要となる。
制約ベース(constraint-based)のアプローチは、条件付き独立性テストに基づいて因果構造を推定する。PCアルゴリズム(Spirtes et al., 2000)は、その代表的手法であり、以下の手順で因果グラフを構築する。(1) 完全グラフから開始し、条件付き独立なペアの辺を削除する。(2) v-構造(X → Z ← Y、ただしXとYは直接接続されていない)を同定する。(3) 追加の方向付けルールを適用する。PCアルゴリズムは、因果的マルコフ条件(各変数はその非子孫変数と、親変数を条件として独立である)と忠実性条件(faithfulness condition)の下で、真の因果グラフのマルコフ同値類(Markov equivalence class)を同定できることが保証されている。
スコアベース(score-based)のアプローチは、DAGの空間を探索し、データへの適合度を最大化するDAGを選択する。BIC(Bayesian Information Criterion)やBDeu(Bayesian Dirichlet equivalent uniform)スコアなどのスコア関数が用いられる。GES(Greedy Equivalence Search)アルゴリズム(Chickering, 2002)は、マルコフ同値類の空間を貪欲に探索し、スコアを最大化する手法である。NOTEARS(Zheng et al., 2018)は、DAGの非巡回性制約を連続的な等式制約(tr(e^{W⊙W}) - d = 0)として定式化することで、DAG学習を連続最適化問題に変換した画期的な手法である。
関数型因果モデル(Functional Causal Model)に基づくアプローチは、変数間の関数関係の非対称性を利用して因果方向を同定する。加法ノイズモデル(Additive Noise Model, ANM)(Hoyer et al., 2009)は、Y = f(X) + Nにおいて、Xが原因でYが結果である場合、残差Nは独立であるが、逆方向ではこの独立性が一般に成り立たないことを利用する。LiNGAM(Linear Non-Gaussian Acyclic Model)(Shimizu et al., 2006)は、線形SCMにおいて外生変数が非ガウス分布に従う場合、因果構造が完全に同定可能であることを証明した。
因果推論と機械学習の融合
因果推論と機械学習の融合は、近年最も活発な研究分野の一つである。機械学習の予測能力と因果推論の解釈可能性を組み合わせることで、より頑健で説明可能なAIシステムの構築を目指す。
異質処置効果(Heterogeneous Treatment Effect, HTE)の推定は、個人ごとに異なる因果効果を推定する問題であり、パーソナライズド医療や政策評価において重要である。Causal Forest(Wager and Athey, 2018)は、ランダムフォレストを因果推論に拡張した手法であり、条件付き平均処置効果(Conditional ATE, CATE)τ(x) = E[Y(1) - Y(0) | X = x]を直接推定する。Causal Forestは、honest推定(分割と推定に異なるサンプルを使用)と漸近的に正規な信頼区間の構築を可能にする。
CEVAE(Causal Effect Variational Autoencoder)(Louizos et al., 2017)は、変分オートエンコーダ(VAE)を用いて潜在的交絡因子を推定し、因果効果を同定する手法である。代理変数(proxy variables)から潜在的交絡因子の事後分布を推論し、この推論結果に基づいて因果効果を推定する。
因果表現学習(Causal Representation Learning)は、観察データの低次元表現における因果構造を学習する問題であり、Schölkopf et al.(2021)によって体系化された。因果表現学習の目標は、高次元の観察変数から因果的に意味のある潜在変数を抽出し、それらの間の因果関係を同定することである。Independent Causal Mechanisms(ICM)原理——データ生成過程の各因果メカニズムは独立に変化する——は、因果表現学習の中心的な帰納的バイアスとして提案されている。
ドメイン適応(Domain Adaptation)における因果的アプローチは、分布シフトに対する頑健性を因果的観点から理解し、改善する試みである。Peters et al.(2016)のInvariant Causal Prediction(ICP)は、複数の環境で不変な(invariant)予測関係が因果関係に対応するという原理に基づき、因果的な親変数を同定する。Arjovsky et al.(2019)のInvariant Risk Minimization(IRM)は、すべての環境で同時に最適な予測器を学習するメタ学習アプローチとして、因果的不変性を実現する。
図2:因果推論の主要手法と応用領域のマッピング
反事実的推論とAI
反事実的推論(counterfactual reasoning)は、因果の梯子の最高段階に位置し、「実際にはXが起こったが、もしX'が起こっていたら、Yはどうなっていたか」という問いに答える能力である。反事実は、SCMにおいて以下の三段階の手続き(abduction-action-prediction)で計算される。(1) アブダクション:観察されたエビデンスに基づいて外生変数の値を推論する。(2) アクション:介入を表す構造方程式の変更を行う。(3) 予測:変更されたモデルで結果を計算する。
反事実的説明(counterfactual explanation)は、説明可能AI(Explainable AI, XAI)における重要なアプローチであり、「入力のどの特徴が異なっていれば、モデルの予測が変化したか」を提示する。Wachter et al.(2017)は、反事実的説明を最適化問題として定式化し、元の入力からの距離を最小化しつつ、望ましい予測結果を達成する反事実的入力を探索する手法を提案した。反事実的説明は、GDPRの「説明を受ける権利」との関連で法的にも注目されている。
反事実的公正性(counterfactual fairness)は、Kusner et al.(2017)によって提案された公正性の因果的定義であり、「保護属性Aが異なる値であったとしても、個人に対する予測Ŷが変化しない」ことを要求する。形式的には、P(Ŷ_{A←a} | X = x, A = a) = P(Ŷ_{A←a'} | X = x, A = a)がすべてのa, a'に対して成立することが反事実的公正性の条件である。
因果推論とLLM
大規模言語モデル(LLMs)と因果推論の関係は、近年活発に議論されている研究テーマである。Kıcıman et al.(2023)は、GPT-4を含むLLMsの因果推論能力を体系的に評価し、LLMsがペアワイズの因果方向の判定、因果グラフの構造推定、反事実的推論において、一定の能力を示すことを報告した。特に、コモンセンスに基づく因果判断においては、LLMsは従来の因果発見アルゴリズムと比較して競争力のある性能を示した。
しかし、LLMsの因果推論能力には根本的な限界がある。LLMsの「因果推論」は、訓練データ中の因果的記述のパターンマッチングに基づくものであり、真の因果的メカニズムの理解に基づくものではない。Zečević et al.(2023)は、LLMsが因果推論を行う際に、相関ベースのショートカットに依存する傾向があることを実証し、LLMsの因果推論能力の「見かけ上の」性質に注意を促した。
因果推論をLLMsに統合する試みとして、LLMsを因果発見のための事前知識の情報源として活用するアプローチが提案されている。Ban et al.(2023)は、LLMsによる因果的事前知識の抽出と統計的因果発見アルゴリズムを組み合わせたハイブリッドアプローチを提案し、LLMsのコモンセンス知識が因果発見の精度を向上させることを示した。
結論:因果AIの展望
本稿では、因果推論の二大理論的枠組みとAIへの応用を体系的に概観した。Pearlの構造的因果モデルはグラフ的因果推論の理論的基盤を提供し、Rubinの潜在的結果モデルは統計的因果推論の実践的フレームワークを提供する。因果発見アルゴリズムはデータから因果構造を推定し、因果推論と機械学習の融合は両分野の強みを統合する。
今後の研究課題として、以下の方向性が重要である。第一に、因果表現学習の理論的基盤のさらなる強化が必要である。第二に、因果推論の大規模データへのスケーリングが課題であり、特に高次元の交絡因子の処理が重要である。第三に、因果推論とLLMsの統合——LLMsの柔軟な推論能力と因果モデルの厳密性を結合する手法——は有望な研究方向である。第四に、因果AIの実世界応用における検証方法論の確立が急務である。
Pearlが述べるように、「因果革命(causal revolution)」は、データサイエンスとAIの根本的な変革を約束するものである。相関から因果へのパラダイムシフトは、より頑健で、解釈可能で、公正なAIシステムの実現に向けた不可欠のステップである。
参考文献
- Arjovsky, M. et al. (2019). "Invariant Risk Minimization." arXiv preprint arXiv:1907.02893.
- Bang, H. and Robins, J.M. (2005). "Doubly Robust Estimation in Missing Data and Causal Inference Models." Biometrics, 61(4), 962–973.
- Ban, T. et al. (2023). "From Query Tools to Causal Architects: Harnessing Large Language Models for Advanced Causal Discovery from Data." arXiv preprint arXiv:2306.16902.
- Chickering, D.M. (2002). "Optimal Structure Identification with Greedy Search." JMLR, 3, 507–554.
- Holland, P.W. (1986). "Statistics and Causal Inference." JASA, 81(396), 945–960.
- Hoyer, P.O. et al. (2009). "Nonlinear Causal Discovery with Additive Noise Models." NeurIPS, 689–696.
- Kıcıman, E. et al. (2023). "Causal Reasoning and Large Language Models." arXiv preprint arXiv:2305.00050.
- Kusner, M.J. et al. (2017). "Counterfactual Fairness." NeurIPS, 4066–4076.
- Louizos, C. et al. (2017). "Causal Effect Inference with Deep Latent-Variable Models." NeurIPS, 6446–6456.
- Pearl, J. (2009). Causality: Models, Reasoning, and Inference. 2nd ed. Cambridge University Press.
- Pearl, J. and Mackenzie, D. (2018). The Book of Why: The New Science of Cause and Effect. Basic Books.
- Peters, J. et al. (2016). "Causal Inference by Using Invariant Prediction." JRSS-B, 78(5), 947–1012.
- Rosenbaum, P.R. and Rubin, D.B. (1983). "The Central Role of the Propensity Score in Observational Studies." Biometrika, 70(1), 41–55.
- Rubin, D.B. (1974). "Estimating Causal Effects of Treatments in Randomized and Nonrandomized Studies." Journal of Educational Psychology, 66(5), 688–701.
- Schölkopf, B. et al. (2021). "Toward Causal Representation Learning." Proceedings of the IEEE, 109(5), 612–634.
- Shimizu, S. et al. (2006). "A Linear Non-Gaussian Acyclic Model for Causal Discovery." JMLR, 7, 2003–2030.
- Spirtes, P. et al. (2000). Causation, Prediction, and Search. 2nd ed. MIT Press.
- Wachter, S. et al. (2017). "Counterfactual Explanations Without Opening the Black Box." Harvard Journal of Law & Technology, 31(2), 841–887.
- Wager, S. and Athey, S. (2018). "Estimation and Inference of Heterogeneous Treatment Effects Using Random Forests." JASA, 113(523), 1228–1242.
- Zečević, M. et al. (2023). "Causal Parrots: Large Language Models May Talk Causality But Are Not Causal." Transactions on Machine Learning Research.
- Zheng, X. et al. (2018). "DAGs with NO TEARS: Continuous Optimization for Structure Learning." NeurIPS, 9472–9483.