序論:AIの脆弱性という根本的問題

深層学習モデルの驚異的な性能向上にもかかわらず、これらのモデルが入力に対する微小な摂動(perturbation)に対して脆弱であるという事実は、AIの安全性とセキュリティに関する根本的な問題を提起する。Szegedy et al.(2014)が初めて体系的に報告した敵対的事例(adversarial examples)の存在は、深層ニューラルネットワークの決定境界(decision boundary)の性質に関する我々の理解を根底から覆した。

敵対的事例とは、人間にとっては知覚的に区別不可能な微小な摂動を正当な入力に加えることで、機械学習モデルを誤った予測に導く入力のことである。例えば、パンダの画像に対して人間の目には見えない程度のノイズを加えるだけで、最先端の画像分類器が99.3%の確信度で「テナガザル」と誤分類する(Goodfellow et al., 2015)。この現象は、単なる学術的な好奇心の対象にとどまらず、自動運転車、医療診断AI、金融取引システムなど、安全性が重要な(safety-critical)応用において深刻なセキュリティリスクとなる。

本稿では、敵対的攻撃と防御の理論的基盤を体系的に考察する。まず、敵対的事例の存在理由に関する理論的説明を概観し、次に主要な攻撃手法と防御手法を分類・評価する。さらに、認証された防御(certified defense)の理論、物理世界における攻撃、およびAIセキュリティの今後の展望について論じる。

敵対的事例の理論的基盤

敵対的事例がなぜ存在するかについては、複数の理論的説明が提案されている。Goodfellow et al.(2015)は「線形仮説(linearity hypothesis)」を提唱し、高次元空間における線形モデルの脆弱性が敵対的事例の根本原因であると主張した。高次元の入力空間において、各次元に対するεの摂動が累積すると、内積wᵀx̃ = wᵀ(x + η)において、摂動ηの寄与wᵀηはεの各成分の和として増大する。入力次元をnとすると、この寄与の期待値はO(εn)であり、高次元空間では微小なεでも大きな出力変化を引き起こす。

Gilmer et al.(2018)は、敵対的事例の存在を高次元空間の幾何学的性質から説明する「測度集中(concentration of measure)」仮説を提案した。高次元空間においては、データ多様体(data manifold)の近傍に、異なるクラスに属する領域が不可避的に存在し、これが敵対的事例の「温床」となる。具体的には、n次元単位球面上の二つのクラスの間のマージンは、次元の増加に伴って指数関数的に縮小する。

Ilyas et al.(2019)は、敵対的事例の存在に関するもう一つの重要な仮説を提出した。彼らは、特徴量を「頑健な特徴量(robust features)」と「非頑健な特徴量(non-robust features)」に分類した。頑健な特徴量は人間が知覚する視覚的パターンと相関する特徴であり、非頑健な特徴量は統計的には予測に有用であるが、人間には知覚できない微細なパターンである。深層学習モデルは、両方の特徴量を活用して高い精度を達成するが、敵対的摂動は主に非頑健な特徴量を操作することでモデルを欺く。Ilyas et al.は、非頑健な特徴量のみで訓練されたモデルが高い標準精度を達成できることを実験的に示し、敵対的脆弱性がモデルの「バグ」ではなく、データの統計的特性を活用する正当な学習の帰結であることを論じた。

Shafahi et al.(2019)は、敵対的事例の不可避性に関する理論的結果を提供した。彼らは、データ分布が十分に複雑である場合、任意の分類器に対して敵対的事例が存在することを証明した。具体的には、ε-分離可能なデータ分布(各クラスのサポートがε以上離れている分布)であっても、次元がO(1/ε²)以上であれば、敵対的事例が高確率で存在することを示した。

攻撃手法の体系的分類

敵対的攻撃手法は、攻撃者の知識、攻撃の目標、および摂動の制約に基づいて体系的に分類される。攻撃者の知識に基づく分類では、ホワイトボックス攻撃(white-box attack)、ブラックボックス攻撃(black-box attack)、およびグレーボックス攻撃(gray-box attack)の三類型が区別される。

ホワイトボックス攻撃は、攻撃者がモデルのアーキテクチャ、パラメータ、および訓練データに完全にアクセスできる状況を想定する。Fast Gradient Sign Method(FGSM)(Goodfellow et al., 2015)は、最も基本的なホワイトボックス攻撃であり、損失関数の入力に対する勾配の符号方向に一定量εの摂動を加える:x̃ = x + ε · sign(∇ₓ J(θ, x, y))。FGSMは計算コストが極めて低い(1回の逆伝播のみ)が、攻撃成功率は比較的低い。

Projected Gradient Descent(PGD)攻撃(Madry et al., 2018)は、FGSMを反復的に適用し、各ステップで摂動をε-球に射影する手法であり、一次の攻撃手法(first-order adversary)として最も強力とされる。PGDは、xₜ₊₁ = Π_{x+S}(xₜ + α · sign(∇ₓ J(θ, xₜ, y)))として定義される。ここで、Πはε-球への射影演算子、αはステップサイズ、Sはε-球の制約集合である。Madry et al.は、PGD攻撃に対して頑健なモデルが、他の一次攻撃に対しても頑健であることを実験的に示した。

Carlini and Wagner(C&W)攻撃(Carlini and Wagner, 2017)は、最適化ベースの攻撃手法であり、摂動の大きさを最小化しつつ誤分類を達成する最適化問題を解く。C&W攻撃は、L₂、L∞、L₀の各ノルム制約に対応する変種を持ち、防御的蒸留(defensive distillation)を含む多くの防御手法を突破できることが示された。

DeepFool(Moosavi-Dezfooli et al., 2016)は、入力xから最も近い決定境界までの最短距離の摂動を反復的に計算する手法であり、攻撃に必要な最小限の摂動量を見積もるために用いられる。AutoAttack(Croce and Hein, 2020)は、複数の攻撃手法を組み合わせたパラメータフリーの評価プロトコルであり、防御手法のベンチマークにおけるデファクトスタンダードとなっている。

ブラックボックス攻撃は、攻撃者がモデルの内部構造にアクセスできず、入出力の問い合わせのみが可能な状況を想定する。転移ベース攻撃(transfer-based attack)は、代替モデル(surrogate model)に対して生成された敵対的事例が、標的モデルに対しても有効である現象(転移性, transferability)を利用する。Papernot et al.(2017)は、ブラックボックスモデルへの問い合わせを通じて代替モデルを訓練し、その代替モデルに対する攻撃を転移させる体系的な手法を提案した。

図1:敵対的攻撃手法の分類体系

敵対的攻撃 ホワイトボックス グレーボックス ブラックボックス FGSM PGD C&W DeepFool AutoAttack 転移ベース クエリベース 攻撃目標による分類 非標的型攻撃 標的型攻撃 摂動制約: L₀ / L₂ / L∞

防御メカニズムの体系

敵対的攻撃に対する防御手法は、大きく「経験的防御(empirical defense)」と「認証された防御(certified defense)」に分類される。経験的防御は、既知の攻撃手法に対する経験的な頑健性を示すものであり、認証された防御は、特定の摂動範囲内でのモデルの正確性を数学的に保証するものである。

敵対的訓練(Adversarial Training, AT)は、最も広く用いられる経験的防御手法であり、訓練過程において敵対的事例を生成し、これをトレーニングデータに含めることで頑健性を獲得する。Madry et al.(2018)のPGD-ATは、ミニマックス最適化問題として定式化される:min_θ E_{(x,y)~D} [max_{δ∈S} L(f_θ(x + δ), y)]。内側の最大化は最強の攻撃を生成し、外側の最小化はその攻撃に対する防御を学習する。PGD-ATは、一次攻撃に対する頑健性の実証的な上限を提供するが、計算コストが通常の訓練の3–10倍に増大するという欠点がある。

TRADES(TRadeoff-inspired Adversarial DEfense via Surrogate-loss minimization)(Zhang et al., 2019)は、標準精度と敵対的頑健性のトレードオフを明示的に最適化する手法であり、損失関数をL_TRADES = L_CE(f(x), y) + β · max_{x'∈B(x,ε)} KL(f(x) || f(x'))として定義する。第一項は標準精度を保証し、第二項はクリーンサンプルと敵対的サンプルの出力分布の一貫性を促進する。TRADESは、頑健性と標準精度のトレードオフを制御するパラメータβを導入することで、実践的な柔軟性を提供する。

入力変換ベースの防御は、入力に対する前処理によって敵対的摂動を除去する手法である。JPEG圧縮(Dziugaite et al., 2016)、ビットデプスの削減(Xu et al., 2018)、空間スムージング、およびニューラルネットワークベースのデノイジング(Liao et al., 2018)などが提案されている。しかし、Athalye et al.(2018)は、Backward Pass Differentiable Approximation(BPDA)と呼ばれる手法を用いて、これらの入力変換ベースの防御の大部分を突破できることを示し、入力変換のみに依存する防御の脆弱性を明らかにした。

検出ベースの防御は、敵対的事例を分類するのではなく、それを検出して拒絶する戦略に基づく。Metzen et al.(2017)は、分類器のネットワークに敵対的事例検出器を付加するアプローチを提案した。Ma et al.(2018)のLocal Intrinsic Dimensionality(LID)は、データの局所的な内在次元を用いて敵対的事例を検出する手法であり、敵対的摂動がデータ多様体の局所構造を変化させることを利用する。しかし、適応的攻撃(adaptive attack)の下では、これらの検出手法も回避される可能性が指摘されている(Carlini and Wagner, 2017b)。

認証された防御の理論

認証された防御(certified defense)は、特定の摂動範囲内でモデルの予測が変化しないことを数学的に保証する手法であり、経験的防御の限界を克服する理論的に厳密なアプローチである。

ランダム化平滑化(Randomized Smoothing)(Cohen et al., 2019)は、認証された防御の中で最も実用的かつスケーラブルな手法である。基本的な考え方は、任意のベース分類器fに対して、ガウスノイズを加えた入力の多数決で分類を行う「平滑化分類器」g(x) = argmax_c P_{ε~N(0,σ²I)}[f(x + ε) = c]を構成することである。Cohen et al.は、平滑化分類器がL₂ノルムの摂動に対して認証された頑健性を持つことを証明した。具体的には、トップクラスの確率をp_Aとすると、認証半径はr = σ/2 · (Φ⁻¹(p_A) - Φ⁻¹(p_B))(Φ⁻¹は標準正規分布の逆関数)として与えられる。

完全検証(complete verification)手法は、混合整数線形計画法(Mixed Integer Linear Programming, MILP)を用いてReLUネットワークの出力範囲を正確に計算する。Tjeng et al.(2019)は、MILPソルバーを用いた検証手法を提案し、小規模なネットワークに対して厳密な頑健性証明を実現した。しかし、MILPの計算複雑性はNP困難であり、大規模ネットワークへのスケーリングが課題である。

不完全検証(incomplete verification)手法は、計算効率を重視し、出力範囲の上界・下界を緩和(relaxation)によって近似する。Wong and Kolter(2018)は、線形緩和に基づくDual Networkアプローチを提案し、ReLUネットワークに対する線形計画問題として検証を定式化した。CROWN(Zhang et al., 2018)やα-CROWN(Xu et al., 2021)は、ニューロンの活性化関数を線形に制限(bound)することで、効率的な検証を実現する。VNN-COMP(Verification of Neural Networks Competition)は、これらの検証手法のベンチマーク競技会として、検証技術の発展を促進している。

図2:防御手法の頑健性と計算コストのトレードオフ

計算コスト(対数スケール) 頑健性保証レベル なし 経験的 部分認証 完全認証 通常の 訓練 入力変換 防御 敵対的 訓練(AT) TRADES ランダム化 平滑化 CROWN/ α-CROWN MILP 完全検証 保証レベルとコストのトレードオフ

物理世界における敵対的攻撃

敵対的攻撃はデジタル空間にとどまらず、物理世界においても実現可能であることが示されている。Kurakin et al.(2017)は、敵対的事例をプリンターで印刷し、カメラで再撮影した場合でも攻撃が成功することを初めて実証した。Eykholt et al.(2018)は、交通標識にステッカーを貼ることで、深層学習ベースの標識認識システムを欺くことに成功した。例えば、一時停止標識に特定のパターンのステッカーを追加することで、速度制限標識として誤認識させることが可能であった。

Sharif et al.(2016)は、敵対的パターンが印刷された眼鏡フレームを着用することで、顔認識システムを欺くことに成功した。この攻撃は、攻撃者が他人になりすます「なりすまし攻撃(impersonation attack)」と、攻撃者が認識されないようにする「回避攻撃(dodging attack)」の両方を実現した。Brown et al.(2017)は、「敵対的パッチ(adversarial patch)」の概念を導入し、シーン内の任意の位置に配置可能なユニバーサルな攻撃パターンを生成する手法を提案した。

物理的攻撃の実現可能性は、自動運転車の安全性に直接的な影響を持つ。Cao et al.(2019)は、LiDARベースの物体検出システムに対する敵対的攻撃を実証し、偽のLiDAR反射を注入することで、存在しない車両を「出現」させたり、実在する車両を「消失」させたりすることが可能であることを示した。これらの研究は、AIシステムの物理的セキュリティの確保が、デジタルセキュリティと同等に重要であることを示唆している。

大規模言語モデルに対する敵対的攻撃

大規模言語モデル(LLMs)の普及に伴い、テキストドメインにおける敵対的攻撃の研究も急速に発展している。プロンプトインジェクション(prompt injection)は、LLMsに対する最も直接的な攻撃手法であり、悪意のある指示をユーザー入力に埋め込むことで、モデルの安全ガードレールを回避する。Perez and Ribeiro(2022)は、プロンプトインジェクションの体系的な分類と評価を行い、直接インジェクション(ユーザーが直接攻撃プロンプトを入力)と間接インジェクション(外部データソースを通じて攻撃プロンプトを注入)を区別した。

「ジェイルブレイク(jailbreak)」攻撃は、LLMsの安全性制約を回避して有害なコンテンツを生成させる攻撃手法の総称である。Zou et al.(2023)は、Greedy Coordinate Gradient(GCG)アルゴリズムを用いて、任意のLLMに対する汎用的なジェイルブレイクサフィックスを自動生成する手法を提案した。GCGは、損失関数の勾配情報を利用してトークン列を最適化し、モデルが有害な応答を生成する確率を最大化する。驚くべきことに、特定のモデルに対して最適化されたサフィックスが、他のモデル(GPT-4、Claude、Llamaなど)に対しても転移可能であることが示された。

バックドア攻撃(backdoor attack)は、訓練段階でトリガーパターンを埋め込み、推論時にトリガーが存在する入力に対してのみ悪意のある振る舞いを引き起こす攻撃手法である。Gu et al.(2019)のBadNetsは、トリガーパターン(例えば、画像の特定位置に配置された小さなパッチ)を含むサンプルに対して標的ラベルを付与してモデルを訓練する。バックドア攻撃は、サプライチェーン攻撃のシナリオにおいて特に脅威であり、事前訓練モデルやサードパーティのデータセットを通じて攻撃が伝播する可能性がある。

頑健性と精度のトレードオフ

Tsipras et al.(2019)は、標準精度(standard accuracy)と敵対的頑健性(adversarial robustness)の間に本質的なトレードオフが存在することを理論的・実験的に示した。彼らは、頑健な分類器と標準的な分類器が学習する特徴表現が質的に異なることを明らかにし、頑健な分類器が人間の知覚とより整合的な特徴を学習することを示した。

Zhang et al.(2019)は、このトレードオフを情報理論的に分析し、ベイズ最適分類器においても標準精度と頑健性の間にトレードオフが存在する条件を特定した。Raghunathan et al.(2020)は、特にデータが不十分な場合、敵対的訓練が標準精度を大幅に低下させることを示し、追加のラベルなしデータの活用が頑健性と精度の両方を向上させることを提案した。

このトレードオフの実践的含意は重大である。安全性が重要な応用において、標準精度の1–5%の低下を受け入れてでも敵対的頑健性を確保すべきかは、リスク評価とドメイン固有の要件に依存する判断である。医療画像診断においては、敵対的攻撃に対する頑健性が患者の安全に直結するため、精度の若干の低下は許容されるべきであろう。一方、大規模な推薦システムにおいては、精度の低下がユーザー体験に直接影響するため、異なる判断が求められる。

結論:AIセキュリティの展望

本稿では、敵対的攻撃と防御に関する理論的基盤と主要な手法を体系的に概観した。敵対的事例の存在は、深層学習モデルの本質的な脆弱性を示すものであり、線形仮説、測度集中、および非頑健な特徴量の存在がその理論的説明として提案されている。攻撃手法は急速に進化しており、物理世界攻撃やLLMに対する攻撃など、新たな脅威が次々と出現している。

防御の観点からは、敵対的訓練が最も実用的な経験的防御として広く用いられているが、計算コストと精度-頑健性トレードオフが課題である。認証された防御は理論的に厳密な保証を提供するが、スケーラビリティの制約が大きい。ランダム化平滑化は、この両者のギャップを埋める有望なアプローチとして位置づけられる。

今後の研究課題として、第一に、認証された防御の大規模モデルへのスケーリングが挙げられる。第二に、マルチモーダルモデルに対する攻撃と防御の体系的研究が必要である。第三に、AIシステムのセキュリティ評価の標準化とレッドチーミング(red teaming)の方法論の確立が重要である。第四に、敵対的頑健性と公正性、プライバシー、説明可能性といった他のAI信頼性要件との相互作用の理解が求められる。

AIセキュリティは、技術的課題であると同時に社会的課題でもある。攻撃と防御の「軍拡競争」を超えて、AIシステムの本質的な頑健性を実現するためには、理論的基盤の深化と実践的フレームワークの構築の両方が不可欠である。

参考文献

  1. Athalye, A. et al. (2018). "Obfuscated Gradients Give a False Sense of Security." Proceedings of ICML, 274–283.
  2. Brown, T.B. et al. (2017). "Adversarial Patch." NeurIPS Workshop.
  3. Cao, Y. et al. (2019). "Adversarial Sensor Attack on LiDAR-based Perception in Autonomous Driving." ACM CCS, 2267–2281.
  4. Carlini, N. and Wagner, D. (2017). "Towards Evaluating the Robustness of Neural Networks." IEEE S&P, 39–57.
  5. Cohen, J. et al. (2019). "Certified Adversarial Robustness via Randomized Smoothing." Proceedings of ICML, 1310–1320.
  6. Croce, F. and Hein, M. (2020). "Reliable Evaluation of Adversarial Robustness with an Ensemble of Attacks." Proceedings of ICML, 2206–2216.
  7. Eykholt, K. et al. (2018). "Robust Physical-World Attacks on Deep Learning Visual Classification." CVPR, 1625–1634.
  8. Gilmer, J. et al. (2018). "Adversarial Spheres." ICLR Workshop.
  9. Goodfellow, I.J. et al. (2015). "Explaining and Harnessing Adversarial Examples." ICLR.
  10. Gu, T. et al. (2019). "BadNets: Evaluating Backdooring Attacks on Deep Neural Networks." IEEE Access, 7, 47230–47244.
  11. Ilyas, A. et al. (2019). "Adversarial Examples Are Not Bugs, They Are Features." NeurIPS, 125–136.
  12. Kurakin, A. et al. (2017). "Adversarial Examples in the Physical World." ICLR Workshop.
  13. Ma, X. et al. (2018). "Characterizing Adversarial Subspaces Using Local Intrinsic Dimensionality." ICLR.
  14. Madry, A. et al. (2018). "Towards Deep Learning Models Resistant to Adversarial Attacks." ICLR.
  15. Moosavi-Dezfooli, S.-M. et al. (2016). "DeepFool: A Simple and Accurate Method to Fool Deep Neural Networks." CVPR, 2574–2582.
  16. Papernot, N. et al. (2017). "Practical Black-Box Attacks Against Machine Learning." ACM ASIACCS, 506–519.
  17. Perez, F. and Ribeiro, I. (2022). "Ignore This Title and HackAPrompt." arXiv preprint arXiv:2211.09527.
  18. Raghunathan, A. et al. (2020). "Understanding and Mitigating the Tradeoff Between Robustness and Accuracy." Proceedings of ICML, 7909–7919.
  19. Shafahi, A. et al. (2019). "Are Adversarial Examples Inevitable?" ICLR.
  20. Sharif, M. et al. (2016). "Accessorize to a Crime: Real and Stealthy Attacks on State-of-the-Art Face Recognition." ACM CCS, 1528–1540.
  21. Szegedy, C. et al. (2014). "Intriguing Properties of Neural Networks." ICLR.
  22. Tjeng, V. et al. (2019). "Evaluating Robustness of Neural Networks with Mixed Integer Programming." ICLR.
  23. Tsipras, D. et al. (2019). "Robustness May Be at Odds with Accuracy." ICLR.
  24. Wong, E. and Kolter, J.Z. (2018). "Provable Defenses Against Adversarial Examples via the Convex Outer Adversarial Polytope." Proceedings of ICML, 5286–5295.
  25. Zhang, H. et al. (2019). "Theoretically Principled Trade-off Between Robustness and Accuracy." Proceedings of ICML, 7472–7482.
  26. Zou, A. et al. (2023). "Universal and Transferable Adversarial Attacks on Aligned Language Models." arXiv preprint arXiv:2307.15043.