序論:ブラックボックス問題の本質

深層学習(Deep Learning)に代表される現代の機械学習モデルは、画像認識、自然言語処理、音声認識など多くのタスクにおいて人間に匹敵あるいは凌駕する性能を達成している。しかし、これらのモデルの多くは、数百万から数十億のパラメータを持つ複雑な非線形関数であり、その意思決定過程は人間にとって理解困難な「ブラックボックス」となっている。

説明可能AI(Explainable AI, XAI)は、AIシステムの意思決定過程を人間が理解可能な形式で提示するための技術・研究分野である。XAIの重要性は、技術的な関心にとどまらず、法的要件(EUのGDPR第22条における自動的意思決定に対する説明を受ける権利)、社会的信頼の構築、そして科学的発見の促進という多面的な文脈において高まっている。

本稿では、XAI研究の主要なアプローチを体系的に分類・評価し、その技術的成果と限界、そして今後の研究方向を論じる。特に、事後的説明手法(post-hoc explanation methods)、本質的に解釈可能なモデル(inherently interpretable models)、そして説明の評価手法(evaluation of explanations)に焦点を当てる。

XAI手法の分類体系

XAI手法は、複数の軸に沿って分類可能である。第一に、説明のスコープにより、大域的説明(global explanation)——モデル全体の振る舞いを説明する——と、局所的説明(local explanation)——個別の予測を説明する——に分けられる。第二に、モデルとの関係により、モデル非依存的手法(model-agnostic methods)とモデル固有の手法(model-specific methods)に分けられる。第三に、解釈可能性の確保方法により、事後的説明(post-hoc explanation)と本質的解釈可能性(inherent interpretability)に分けられる。

Arrieta et al.(2020)の包括的サーベイは、XAI手法を以下のように分類している:(1) 透明モデル(transparent models)——線形回帰、決定木、ルールベースモデルなど本質的に解釈可能なモデル、(2) 事後的説明手法——特徴量重要度、顕著性マップ、反事実的説明、概念ベース説明など、(3) ハイブリッドアプローチ——解釈可能な構成要素を持つ複雑なモデル(注意機構を持つモデルなど)。

事後的説明手法の技術的詳細

LIME(Local Interpretable Model-agnostic Explanations)

Ribeiro, Singh, & Guestrin(2016)が提唱したLIMEは、最も広く用いられる局所的・モデル非依存的説明手法の一つである。LIMEの基本的なアイデアは、説明対象のインスタンスの近傍において、元のブラックボックスモデルの振る舞いを線形モデルなどの解釈可能なモデルで近似することである。

形式的には、説明 ξ(x) は以下の最適化問題の解として定義される:ξ(x) = argmin_{g∈G} L(f, g, π_x) + Ω(g)。ここで、f は元のモデル、g は解釈可能なモデル(例:線形モデル)、π_x はインスタンス x の近傍を定義するカーネル関数、L は f と g の近傍における一致度を測る損失関数、Ω(g) はモデルの複雑さに対する正則化項である。

LIMEの実用上の課題として、(1) 近傍サンプルの生成方法に結果が敏感であること(Alvarez-Melis & Jaakkola, 2018)、(2) 特徴量間の相関が存在する場合に近傍サンプルが非現実的なインスタンスを含む可能性があること、(3) 同一インスタンスに対して実行ごとに異なる説明が生成される不安定性が指摘されている。

SHAP(SHapley Additive exPlanations)

Lundberg & Lee(2017)が提唱したSHAPは、協力ゲーム理論のShapley値を機械学習の特徴量重要度に応用した手法である。Shapley値は、各特徴量の限界貢献度(marginal contribution)の期待値として定義され、効率性(efficiency)、対称性(symmetry)、ダミー(dummy)、加法性(additivity)の四つの公理を満たす唯一の帰属方法であるという理論的保証を持つ。

特徴量 i のSHAP値は以下で定義される:φ_i(f, x) = Σ_{S⊆N\{i}} [|S|!(|N|-|S|-1)!/|N|!] × [f(S∪{i}) - f(S)]。ここで、N は全特徴量の集合、S は特徴量の部分集合、f(S) は集合 S に含まれる特徴量のみを用いた場合のモデルの出力である。

SHAPの実装には複数の変種が存在する。KernelSHAPはモデル非依存的だが計算コストが高い。TreeSHAPは木モデルに特化した効率的な実装であり、O(TLD²)の計算量で正確なShapley値を算出できる(T: 木の数、L: 最大葉数、D: 最大深度)。DeepSHAPはDeepLIFTとShapley値を結合した深層学習向けの近似手法である。

Grad-CAM と顕著性マップ

Selvaraju, Cogswell, Das, Vedantam, Parikh, & Batra(2017)が提唱したGrad-CAM(Gradient-weighted Class Activation Mapping)は、CNNの最終畳み込み層の勾配情報を利用して、入力画像のどの領域が分類決定に寄与しているかを可視化する。Grad-CAMは、元のCAM(Zhou et al., 2016)の汎用化であり、グローバル平均プーリング層を持たないCNNにも適用可能である。

勾配ベースの顕著性マップ手法としては、Simonyan, Vedaldi, & Zisserman(2014)の入力勾配法、Sundararajan, Taly, & Yan(2017)のIntegrated Gradients、Smilkov, Thorat, Kim, Viégas, & Wattenberg(2017)のSmoothGradなどが存在する。Integrated Gradientsは、完全性(completeness)と感度(sensitivity)の公理を満たすことが理論的に保証されており、勾配ベース手法の中で最も理論的に健全な手法とされる。

図1:XAI手法の分類と特性比較

モデル非依存的 モデル固有 局所的説明 大域的説明 LIME 局所線形近似 SHAP (Kernel) Shapley値ベース 反事実的説明 最近接反事実 Anchors ルールベース局所説明 Grad-CAM CNN勾配ベース Integrated Grad 経路積分勾配 Attention可視化 Transformer向け DeepSHAP DL向けShapley近似 PDP / ICE 部分依存プロット Global SHAP 大域的特徴量重要度 TreeSHAP 木モデル特化 TCAV 概念活性化ベクトル

概念ベース説明とTCAV

Kim, Wattenberg, Gilmer, Carber, Viégas, & Sayres(2018)が提唱したTCAV(Testing with Concept Activation Vectors)は、個別の特徴量ではなく、人間が理解可能な高水準の「概念(concept)」——例えば「縞模様」「テクスチャ」「色」——を用いてモデルの振る舞いを説明する手法である。TCAVは、学習済みモデルの中間層の活性化空間において、特定の概念を表現するベクトル(Concept Activation Vector, CAV)を学習し、このCAVの方向への感度(TCAV score)によってモデルの概念依存性を定量化する。

概念ベース説明の利点は、(1) 個別のピクセルや特徴量ではなく人間の認知に適合した抽象度で説明を提供できること、(2) ユーザーが関心のある概念を自由に定義できること、(3) 大域的な説明を提供できることにある。一方、課題としては、概念の定義に使用するサンプルの選択が結果に影響を与えること、および概念間の相互作用を捉えることが困難であることが挙げられる。

反事実的説明

反事実的説明(Counterfactual Explanations)は、「入力がどのように変化すれば、異なる予測結果が得られたか」という反事実的質問に答える形式の説明である。Wachter, Mittelstadt, & Russell(2017)は、反事実的説明をGDPRにおける「説明を受ける権利」の実装手段として提案した。

形式的には、反事実的説明 x' は以下の最適化問題の解として定義される:argmin_{x'} d(x, x') subject to f(x') ≠ f(x)。ここで、d は入力空間における距離関数であり、元の入力 x に最も近い反事実的インスタンス x' を見つけることが目標である。

反事実的説明の利点として、(1) 行動可能性(actionability)——ユーザーが予測結果を変えるために何をすべきかの指針を得られる、(2) モデル非依存性、(3) 因果的解釈の可能性が挙げられる。Karimi, Barthe, Schölkopf, & Valera(2021)は、因果モデルに基づく反事実的説明のフレームワークを提案し、因果的に実現可能な反事実のみを生成する手法を開発している。

Mothilal, Sharma, & Tan(2020)のDiCE(Diverse Counterfactual Explanations)は、単一ではなく多様な反事実的説明を生成することで、ユーザーにより豊かな情報を提供する。反事実の多様性は、ユーザーの行動選択肢を拡大し、説明の実用的価値を高める。

本質的に解釈可能なモデル

Rudin(2019)は、Nature Machine Intelligenceの論文「Stop Explaining Black Box Machine Learning Models for High Stakes Decisions and Use Interpretable Models Instead」において、高リスクの意思決定には事後的説明ではなく、本質的に解釈可能なモデルを使用すべきだと強く主張している。Rudinの論点は、事後的説明が必ずしも元のモデルの真の意思決定過程を反映するとは限らず、誤った安心感を与える危険があるというものである。

本質的に解釈可能なモデルの代表例として、(1) スパース線形モデル(Lasso回帰など)、(2) 規則リスト(rule lists)——Letham, Rudin, McCormick, & Madigan(2015)のBayesian Rule Lists、(3) 一般化加法モデル(GAM)——Lou, Caruana, Gehrke, & Hooker(2013)のExplainable Boosting Machine(EBM)、(4) スコアカード——Ustun & Rudin(2016)の最適化されたスコアリングシステム、などが挙げられる。

重要な経験的知見として、多くの表形式データ(tabular data)のタスクにおいて、解釈可能なモデルがブラックボックスモデルと同等あるいは近い性能を達成できることが示されている(Rudin, 2019; Angelino et al., 2017)。これは、「解釈可能性と精度のトレードオフ」という広く信じられている前提が、少なくとも一部のタスクにおいては成立しない可能性を示唆している。

図2:解釈可能性と精度のトレードオフ — 実態と誤解

解釈可能性 → 予測精度 → 従来の想定:必ずトレードオフ 実態:多くのタスクで同等精度達成可能 DNN RF XGB EBM GAM 線形 規則 ブラックボックス 解釈可能(高精度) 古典的解釈可能

説明の評価手法

XAI研究の重要な課題の一つは、説明の質をいかに評価するかという問題である。Doshi-Velez & Kim(2017)は、説明の評価を三つのレベルに分類している:(1) 応用ベース評価(application-grounded evaluation)——実際のタスクにおけるエンドユーザーによる評価、(2) 人間ベース評価(human-grounded evaluation)——一般的な人間の判断に基づく評価(実際のドメイン専門知識は不要)、(3) 機能的評価(functionally-grounded evaluation)——人間の実験を伴わない形式的な評価指標による評価。

機能的評価の具体的な指標として、忠実度(faithfulness)——説明がモデルの実際の意思決定過程をどの程度正確に反映しているか、安定性(stability)——類似した入力に対して一貫した説明が得られるか、疎密性(sparsity)——説明が少数の重要な特徴量に焦点を当てているか、などが用いられる。

Adebayo, Gilmer, Muelly, Goodfellow, Hou, & Kim(2018)の「健全性チェック(sanity checks)」は、顕著性マップがモデルのパラメータやデータに対して適切に感応的であるかを検証する手法であり、一部の広く使用されている手法がこのチェックに失敗することを示した。この発見は、XAI手法の妥当性検証の重要性を浮き彫りにした。

大規模言語モデルとXAI

大規模言語モデル(LLM)の登場は、XAI研究に新たな次元をもたらしている。LLMは、自然言語による説明の生成能力を持つため、「自己説明(self-explanation)」の可能性が議論されている。しかし、LLMの「説明」が実際の推論過程を反映しているかどうかは、根本的な研究課題である。

Turpin, Michael, Perez, & Bowman(2024)は、Chain-of-Thought(CoT)推論における「不忠実な説明(unfaithful explanations)」の問題を実証的に研究し、LLMが生成する推論過程の説明が、モデルの実際の計算過程と乖離する場合があることを示した。Bills, Cammarata, Mossing, et al.(2023)のOpenAI内部研究は、GPT-2のニューロンの振る舞いをGPT-4に説明させる試みを行い、自動化された解釈可能性研究の可能性を探っている。

Mechanistic Interpretability(機構的解釈可能性)は、Elhage et al.(2021, 2022)、Olsson et al.(2022)らの研究を中心に急速に発展している分野であり、Transformer内部の計算機構を解明しようとする。「帰納的ヘッド(induction heads)」「重ね合わせ(superposition)」などの現象の発見は、LLMの内部動作の理解に向けた重要な進展である。

規制要件とXAI

EUのGDPR第22条は、「プロファイリングを含む自動的な意思決定のみに基づく決定に服さない権利」を規定しており、第13条・第14条は「関連するロジックに関する有意な情報」の提供を要求している。しかし、「有意な情報」の具体的な内容と技術的な実装方法については、法学者と技術者の間で活発な議論が続いている。

EU AI規則(AI Act, 2024年発効)は、高リスクAIシステムに対して透明性要件を課し、「AIシステムの出力を利用者が解釈し適切に使用するために十分な透明性」を要求している。しかし、「十分な透明性」の技術的基準は未だ明確に定義されておらず、標準化団体(CEN/CENELEC)による具体的な技術標準の策定が進行中である。

米国においても、Equal Credit Opportunity Act(ECOA)に基づくadverse action noticeの要件や、いくつかの州法(例:NYC Local Law 144)がアルゴリズム的意思決定の説明を要求しており、XAIの実装は法的義務として拡大する傾向にある。

結論と展望

XAI研究は過去10年間で急速に発展し、多様な手法が開発されてきたが、いくつかの根本的な課題が残されている。第一に、説明の忠実度と理解しやすさのトレードオフがある。完全に忠実な説明(モデルの全パラメータ)は理解不能であり、理解しやすい説明は必然的に簡略化を伴う。第二に、説明の対象者(ドメイン専門家、一般ユーザー、規制当局)によって求められる説明の形式と粒度が異なり、「一つのサイズですべてに適合する」説明は存在しない。

今後の研究方向として、(1) 対話的説明(interactive explanation)——ユーザーとの対話を通じて段階的に理解を深める説明システム、(2) 因果的説明——相関ではなく因果関係に基づく説明の提供、(3) LLMの機構的解釈可能性の進展、(4) 説明の社会技術的評価——技術的指標だけでなく、説明が実際にユーザーの意思決定を改善するかの評価、が特に重要であると考えられる。

参考文献

  1. Adebayo, J., et al. (2018). "Sanity Checks for Saliency Maps." NeurIPS 2018.
  2. Alvarez-Melis, D., & Jaakkola, T.S. (2018). "On the Robustness of Interpretability Methods." ICML Workshop.
  3. Arrieta, A.B., et al. (2020). "Explainable Artificial Intelligence (XAI): Concepts, Taxonomies, Opportunities and Challenges." Information Fusion, 58, 82–115.
  4. Bills, S., et al. (2023). "Language Models Can Explain Neurons in Language Models." OpenAI Research.
  5. Doshi-Velez, F., & Kim, B. (2017). "Towards A Rigorous Science of Interpretable Machine Learning." arXiv:1702.08608.
  6. Elhage, N., et al. (2022). "Toy Models of Superposition." Anthropic Research.
  7. Karimi, A.H., et al. (2021). "Algorithmic Recourse: From Counterfactual Explanations to Interventions." FAccT 2021.
  8. Kim, B., et al. (2018). "Interpretability Beyond Feature Attribution: Quantitative Testing with Concept Activation Vectors (TCAV)." ICML 2018.
  9. Lundberg, S.M., & Lee, S.I. (2017). "A Unified Approach to Interpreting Model Predictions." NeurIPS 2017.
  10. Mothilal, R.K., Sharma, A., & Tan, C. (2020). "Explaining Machine Learning Classifiers through Diverse Counterfactual Explanations." FAT* 2020.
  11. Olsson, C., et al. (2022). "In-context Learning and Induction Heads." Anthropic Research.
  12. Ribeiro, M.T., Singh, S., & Guestrin, C. (2016). "'Why Should I Trust You?': Explaining the Predictions of Any Classifier." KDD 2016.
  13. Rudin, C. (2019). "Stop Explaining Black Box Machine Learning Models for High Stakes Decisions and Use Interpretable Models Instead." Nature Machine Intelligence, 1, 206–215.
  14. Selvaraju, R.R., et al. (2017). "Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization." ICCV 2017.
  15. Sundararajan, M., Taly, A., & Yan, Q. (2017). "Axiomatic Attribution for Deep Networks." ICML 2017.
  16. Turpin, M., et al. (2024). "Language Models Don't Always Say What They Think." NeurIPS 2023.
  17. Wachter, S., Mittelstadt, B., & Russell, C. (2017). "Counterfactual Explanations without Opening the Black Box." Harvard Journal of Law & Technology, 31(2).