AI倫理と社会的影響

アルゴリズムバイアスの定量的評価手法

最終更新: 2025年2月｜読了目安: 25分

序論：アルゴリズムバイアスの体系的理解

機械学習（Machine Learning, ML）システムの社会的展開が拡大するにつれて、アルゴリズムバイアス（algorithmic bias）は技術倫理の最重要課題の一つとして浮上している。2016年のProPublicaによるCOMPAS（Correctional Offender Management Profiling for Alternative Sanctions）システムの調査は、刑事司法におけるリスク評価アルゴリズムが人種的バイアスを内包していることを実証的に示し、アルゴリズムの公正性（algorithmic fairness）に対する学術的・社会的関心を飛躍的に高めた。

アルゴリズムバイアスとは、機械学習システムが特定の人口統計学的グループに対して体系的かつ不当に不利な結果を生成する傾向を指す。このバイアスは、訓練データに内在する歴史的偏見（historical bias）、データ収集過程における表現の歪み（representation bias）、特徴量選択における測定の偏り（measurement bias）、そしてアルゴリズム設計自体に起因する集約バイアス（aggregation bias）など、多様な発生源を持つ。

本稿では、アルゴリズムバイアスの定量的評価手法を体系的に論じる。まず、公正性の数学的定義を概観し、それらの間の不可能性定理（impossibility theorem）について検討する。次に、バイアスの検出・測定手法、および緩和策（mitigation strategies）を分類・評価する。最後に、実践的な監査（audit）フレームワークの現状と課題を論じる。

公正性の数学的定義

アルゴリズム的公正性の形式的定義は、過去10年間の研究において急速に発展し、現在では少なくとも21の数学的に異なる公正性概念が同定されている（Narayanan, 2018）。これらは大きく、グループ公正性（group fairness）、個人公正性（individual fairness）、因果的公正性（causal fairness）の三つのカテゴリに分類される。

グループ公正性（Group Fairness）

統計的パリティ（Statistical Parity / Demographic Parity）：予測結果Ŷが保護属性（sensitive attribute）Aから統計的に独立であることを要求する。形式的には、P(Ŷ=1|A=0) = P(Ŷ=1|A=1) である。例えば、採用AIにおいて、男性と女性の採用率が等しいことを要求する。この基準は直感的に理解しやすいが、基底率（base rate）の差異を無視するため、適格率（qualification rate）が異なるグループ間では非効率な結果をもたらす可能性がある。

均等化オッズ（Equalized Odds）：Hardt, Price, & Srebro（2016）が提唱した基準であり、真陽性率（True Positive Rate, TPR）と偽陽性率（False Positive Rate, FPR）が保護属性から独立であることを要求する。形式的には、P(Ŷ=1|A=a, Y=y) = P(Ŷ=1|A=a', Y=y) for all y ∈ {0,1} である。この基準は、予測精度を保持しつつ公正性を確保しようとする点で、統計的パリティよりも洗練されている。

較正（Calibration）：予測確率がグループ間で等しく較正されていることを要求する。形式的には、P(Y=1|Ŷ=s, A=a) = P(Y=1|Ŷ=s, A=a') for all s である。COMPASの事例において、Northpointe社（現Equivant）は、自社のシステムがこの較正基準を満たしていることを主張した。

予測的パリティ（Predictive Parity）：陽性予測値（Positive Predictive Value, PPV）がグループ間で等しいことを要求する。P(Y=1|Ŷ=1, A=0) = P(Y=1|Ŷ=1, A=1) である。

個人公正性（Individual Fairness）

Dwork, Hardt, Pitassi, Reingold, & Zemel（2012）は、「類似した個人は類似した扱いを受けるべきである（similar individuals should be treated similarly）」という原理を形式化し、個人公正性の概念を提唱した。形式的には、タスク固有の距離関数d(x, x')に対して、|f(x) - f(x')| ≤ d(x, x') が成立することを要求する。この定義の主要な課題は、「類似性」を定義する距離関数dの構成にある。適切な距離関数の選択自体が実質的な公正性判断を伴うため、「公正性の問題を距離関数の選択問題に還元しただけ」との批判がある。

因果的公正性（Causal Fairness）

Kusner, Loftus, Russell, & Silva（2017）は、反事実的公正性（counterfactual fairness）の概念を提唱した。個人が異なる保護属性値を持っていた場合に、予測結果が同一であることを要求する。形式的には、P(Ŷ_A←a(U) = y | X=x, A=a) = P(Ŷ_A←a'(U) = y | X=x, A=a) である。この定義はJudea Pearlの構造的因果モデル（Structural Causal Model, SCM）に基づいており、バイアスの因果的メカニズムを特定できるという利点を持つ。しかし、因果モデルの正確な特定が実務上困難であるという実用的課題が存在する。

図1：公正性指標の分類体系

不可能性定理：公正性概念間のトレードオフ

アルゴリズム的公正性の研究における最も重要な理論的発見の一つが、異なる公正性定義間の不可能性定理（impossibility theorem）である。Chouldechova（2017）は、二値分類器において、基底率がグループ間で異なる場合、較正（calibration）と均等化オッズ（equalized odds）を同時に満たすことが数学的に不可能であることを証明した。

Kleinberg, Mullainathan, & Raghavan（2016）も独立に類似の不可能性結果を導出している。この定理の実務的含意は深遠である。COMPASの事例において、ProPublicaが指摘した偽陽性率のグループ間格差と、Northpointe社が主張した較正の達成は、不可能性定理に照らせば同時に充足不可能な公正性基準であったことがわかる。すなわち、COMPASの「バイアス」をめぐる論争は、技術的な欠陥の問題ではなく、どの公正性基準を優先すべきかという規範的選択の問題だったのである。

この不可能性定理は、「公正性はトレードオフの問題であり、どのトレードオフを受容するかは技術的判断ではなく、社会的・政治的判断である」という重要な認識をもたらす。Friedler, Scheidegger, & Venkatasubramanian（2016）は、この問題を「世界観の仮定（worldview assumptions）」として定式化し、異なる公正性基準の選択が異なる社会的価値観を反映していることを明示している。

バイアスの発生源と分類

Suresh & Guttag（2021）は、機械学習パイプラインにおけるバイアスの発生源を以下の6つのカテゴリに分類している：

歴史的バイアス（Historical Bias）：訓練データが反映する歴史的・社会的不平等に起因するバイアス。例えば、過去の採用データを学習した採用AIが、過去の性差別的慣行を再現する場合がこれに該当する。Amazonが2018年に廃棄した採用AIは、過去10年間の採用データ（主に男性応募者）を学習した結果、女性候補者に対して体系的な不利益を生じさせた。

表現バイアス（Representation Bias）：訓練データにおける特定グループの過少代表（under-representation）に起因するバイアス。ImageNetにおける人種的・地理的偏りや、自然言語処理における英語中心主義はこの類型に属する。Buolamwini & Gebru（2018）の研究は、商用顔認識システムが肌の色が明るい男性に対して最高の精度を示す一方、肌の色が暗い女性に対して最大34.7%のエラー率を示すことを実証した。

測定バイアス（Measurement Bias）：特徴量やラベルの選択・定義における偏りに起因する。「犯罪リスク」を「逮捕歴」で代理測定する場合、逮捕が人種によって不均等に行われている状況では、この代理変数自体がバイアスを内包する。

集約バイアス（Aggregation Bias）：異質な下位集団を一つのモデルで一括して扱うことに起因する。糖尿病の診断モデルを人種間で共通化した場合、HbA1c値の人種間差異が無視され、特定集団に対する予測精度が低下する。

評価バイアス（Evaluation Bias）：モデル評価に使用されるベンチマークデータの偏りに起因する。評価データが特定の人口統計学的分布に偏っている場合、モデルの公正性は正確に評価されない。

展開バイアス（Deployment Bias）：モデルが設計時の想定とは異なる文脈で使用されることに起因する。採用支援として設計されたシステムが採用決定に用いられる場合などがこれに該当する。

バイアス検出・測定手法

バイアスの定量的検出には、統計的検定に基づくアプローチと、因果推論に基づくアプローチが存在する。

統計的指標として広く用いられるのは、格差影響比率（Disparate Impact Ratio, DIR）である。これは、保護グループと非保護グループの正の結果を得る確率の比率であり、米国のEqual Employment Opportunity Commission（EEOC）の「4/5ルール」では、DIR < 0.8を格差影響の証拠とする。形式的には、DIR = P(Ŷ=1|A=1) / P(Ŷ=1|A=0) である。

Aequitas（Saleiro et al., 2018）は、カーネギーメロン大学が開発したオープンソースのバイアス監査ツールキットであり、複数の公正性指標を一括して計算・可視化する。Aequitasは、統計的パリティ、均等化オッズ、較正などの主要な公正性指標を各保護属性について算出し、「参照グループ」に対する相対的なバイアスの程度を定量的に評価する。

AI Fairness 360（Bellamy et al., 2019）は、IBMが開発した包括的な公正性ツールキットであり、70以上の公正性指標と10以上のバイアス緩和アルゴリズムを提供する。このツールキットは、学術的な公正性研究と産業実務の橋渡しとして重要な役割を果たしている。

因果推論に基づくアプローチでは、Zhang & Bareinboim（2018）がPearlの因果モデルを用いて、バイアスを直接効果（direct effect）、間接効果（indirect effect）、および偽効果（spurious effect）に分解する手法を提案している。この分解により、バイアスのどの成分がどの因果経路を通じて生じているかを特定でき、より的確な緩和策の設計が可能となる。

図2：バイアス緩和手法の分類と適用タイミング

バイアス緩和手法の分類

バイアス緩和手法は、機械学習パイプラインにおける適用タイミングに基づいて、前処理（pre-processing）、学習時（in-processing）、後処理（post-processing）の三つのカテゴリに分類される。

前処理手法は、訓練データの段階でバイアスを緩和しようとする。Kamiran & Calders（2012）のReweighingは、訓練データの各サンプルに対して、保護属性とラベルの結合分布に基づく重みを付与する。Feldman, Friedler, Moeller, Scheidegger, & Venkatasubramanian（2015）のDisparate Impact Removerは、特徴量の分布をグループ間で均等化する変換を施す。また、Zemel, Wu, Swersky, Pitassi, & Dwork（2013）のLearning Fair Representationsは、保護属性の情報を最小化しつつ、予測に有用な情報を保持する表現を学習する。

学習時手法は、モデル学習の過程に公正性制約を組み込む。Zhang, Lemoine, & Mitchell（2018）のAdversarial Debiasingは、敵対的学習（adversarial learning）の枠組みを用いて、予測器が高い精度を維持しつつ、判別器が保護属性を予測できないようにする。Agarwal, Beygelzimer, Dudík, Langford, & Wallach（2018）のReductions Approachは、公正性制約付き分類問題をコスト感応的分類問題の系列に帰着させ、既存の分類アルゴリズムを活用して公正な分類器を学習する。

後処理手法は、学習済みモデルの出力を事後的に調整する。Hardt et al.（2016）の閾値調整は、グループごとに異なる決定閾値を設定することで均等化オッズを達成する。Kamiran, Karim, & Zhang（2012）のReject Option Classificationは、決定境界付近のサンプル（不確実性が高いサンプル）について、不利なグループに有利な決定を行う。

これらの手法の比較評価は、Friedler et al.（2019）によって体系的に行われている。彼らの実験結果は、いかなる単一の緩和手法も全てのデータセットと公正性基準において一貫して最良の性能を示すことはないこと、すなわち「フリーランチ定理」の公正性版が成立することを示唆している。

実践的監査フレームワーク

アルゴリズム監査（algorithmic audit）は、MLシステムの公正性を体系的に評価するための実践的手法として発展してきた。Raji, Smart, White, Mitchell, Gebru, Hutchinson, Smith-Loud, Theron, & Barnes（2020）が提唱したSMACTR（Scoping, Mapping, Artifact Collection, Testing, Reflection）フレームワークは、社内監査のための包括的なプロセスモデルを提供する。

外部監査のアプローチとして、Sandvig, Hamilton, Karahalios, & Langbort（2014）は、アルゴリズム監査の5つの手法を分類している：(1) コード監査（code audit）、(2) 非侵襲的ユーザー監査（noninvasive user audit）、(3) スクレイピング監査（scraping audit）、(4) ソック・パペット監査（sock puppet audit）、(5) 協力的ユーザー監査（collaborative user audit）。これらの手法はそれぞれ異なるアクセスレベルと法的制約のもとで実施される。

Mitchell, Wu, Zaldivar, Barnes, Vasserman, Hutchinson, Spitzer, Raji, & Gebru（2019）が提唱した「モデルカード（Model Cards）」は、モデルの性能と公正性指標を標準化された形式で報告するための枠組みである。モデルカードは、モデルの意図された使用法、性能メトリクス、公正性分析、および限界を明示することで、責任あるAI展開を促進する。同様に、Gebru, Morgenstern, Vecchione, Vaughan, Wallach, Iii, & Crawford（2021）の「データシート（Datasheets for Datasets）」は、訓練データの作成過程、構成、および使用上の注意事項を文書化するための標準フォーマットを提供する。

Raji & Buolamwini（2019）は、商用顔認識システムに対する独立した外部監査を実施し、監査の公開が企業による改善を促進する効果があることを実証した。彼らの研究は、IBM、Microsoft、Face++の顔認識システムについて、2018年の初回監査と2019年のフォローアップ監査を比較し、各社が監査結果を受けて顕著な改善を達成したことを報告している。

交差性とバイアスの複合的分析

Kimberlé Crenshaw（1989）が提唱した交差性（intersectionality）の概念は、アルゴリズムバイアスの分析においても重要である。個人は単一の保護属性によってのみ特徴づけられるのではなく、人種、性別、年齢、障害の有無などの複数の属性が交差的に作用する。Buolamwini & Gebru（2018）の顔認識研究が示したように、「黒人女性」に対するエラー率は、「黒人」または「女性」という単一属性の分析では捕捉できない複合的な不利益を反映している。

Foulds, Islam, Keya, & Pan（2020）は、交差的公正性（intersectional fairness）の数学的定義を提案し、複数の保護属性の組み合わせに対する公正性を評価する手法を展開している。しかし、交差性の考慮は、評価すべきサブグループの数を指数的に増加させるため、統計的検出力の低下やデータの希薄化（data sparsity）という実務的課題を生じさせる。

Kearns, Neel, Roth, & Wu（2018）は、「リッチサブグループ公正性（rich subgroup fairness）」の概念を提唱し、指数的に多数のサブグループに対して効率的に公正性を保証するアルゴリズムを開発している。これは、交差性の課題に対する計算論的なアプローチとして注目に値する。

結論と今後の課題

本稿では、アルゴリズムバイアスの定量的評価手法を、公正性の数学的定義、バイアスの発生源分類、検出・緩和手法、そして実践的監査フレームワークの観点から体系的に論じた。

最も重要な理論的知見は、公正性の不可能性定理が示すように、異なる公正性基準間にはトレードオフが存在し、いかなる技術的解決策も「公正性問題」を完全に解消することはできないという認識である。バイアスの評価と緩和は、技術的営為であると同時に、規範的・政治的選択を伴うプロセスであり、その認識を欠いたまま技術的ソリューションのみに依拠することは「テクノロジカル・ソリューショニズム」の陥穽に嵌る危険がある。

今後の研究課題として、第一に、動的環境における公正性の維持——フィードバックループ（feedback loop）によるバイアスの増幅メカニズムとその制御——が挙げられる。第二に、生成AIモデル（大規模言語モデルを含む）におけるバイアスの定量的評価枠組みの確立が急務である。第三に、規制的枠組みとの接合——EU AI規則における「高リスクAI」のバイアス評価義務をいかに技術的に実装するか——は、実務的に最も重要な課題である。

参考文献

Agarwal, A., Beygelzimer, A., Dudík, M., Langford, J., & Wallach, H. (2018). "A Reductions Approach to Fair Classification." ICML 2018.
Bellamy, R.K.E., et al. (2019). "AI Fairness 360: An Extensible Toolkit for Detecting and Mitigating Algorithmic Bias." IBM Journal of Research and Development, 63(4/5).
Buolamwini, J., & Gebru, T. (2018). "Gender Shades: Intersectional Accuracy Disparities in Commercial Gender Classification." Proceedings of FAT*, 77–91.
Chouldechova, A. (2017). "Fair Prediction with Disparate Impact: A Study of Bias in Recidivism Prediction Instruments." Big Data, 5(2), 153–163.
Crenshaw, K. (1989). "Demarginalizing the Intersection of Race and Sex." University of Chicago Legal Forum, 1989(1), 139–167.
Dwork, C., Hardt, M., Pitassi, T., Reingold, O., & Zemel, R. (2012). "Fairness Through Awareness." ITCS 2012.
Feldman, M., et al. (2015). "Certifying and Removing Disparate Impact." KDD 2015.
Foulds, J.R., Islam, R., Keya, K.N., & Pan, S. (2020). "An Intersectional Definition of Fairness." ICDE 2020.
Friedler, S.A., et al. (2019). "A Comparative Study of Fairness-Enhancing Interventions in Machine Learning." FAT* 2019.
Gebru, T., et al. (2021). "Datasheets for Datasets." Communications of the ACM, 64(12), 86–92.
Hardt, M., Price, E., & Srebro, N. (2016). "Equality of Opportunity in Supervised Learning." NeurIPS 2016.
Kamiran, F., & Calders, T. (2012). "Data Preprocessing Techniques for Classification without Discrimination." KAIS, 33(1), 1–33.
Kearns, M., Neel, S., Roth, A., & Wu, Z.S. (2018). "Preventing Fairness Gerrymandering." ICML 2018.
Kleinberg, J., Mullainathan, S., & Raghavan, M. (2016). "Inherent Trade-Offs in the Fair Determination of Risk Scores." ITCS 2017.
Kusner, M.J., Loftus, J., Russell, C., & Silva, R. (2017). "Counterfactual Fairness." NeurIPS 2017.
Mitchell, M., et al. (2019). "Model Cards for Model Reporting." FAT* 2019.
Narayanan, A. (2018). "Translation Tutorial: 21 Fairness Definitions and Their Politics." FAT*.
Raji, I.D., & Buolamwini, J. (2019). "Actionable Auditing: Investigating the Impact of Publicly Naming Biased Performance Results." AIES 2019.
Raji, I.D., et al. (2020). "Closing the AI Accountability Gap." FAT* 2020.
Saleiro, P., et al. (2018). "Aequitas: A Bias and Fairness Audit Toolkit." arXiv:1811.05577.
Suresh, H., & Guttag, J. (2021). "A Framework for Understanding Sources of Harm throughout the Machine Learning Life Cycle." EAAMO 2021.
Zhang, B.H., Lemoine, B., & Mitchell, M. (2018). "Mitigating Unwanted Biases with Adversarial Learning." AIES 2018.
Zhang, J., & Bareinboim, E. (2018). "Fairness in Decision-Making — The Causal Explanation Formula." AAAI 2018.