LLM生成テキスト検出の手法と限界

LLM生成テキスト検出の背景

大規模言語モデル(LLM: Large Language Model)の急速な発展により、人間が執筆したテキストとAIが生成したテキストの判別は、学術界・教育界・報道界にとって喫緊の課題となっている。GPT-4、Claude 3、Gemini、Llama 3といった最新のLLMは、特定の文体やトーンを模倣し、専門分野の知識を反映した高品質なテキストを生成する能力を持つ。

学術的不正行為の文脈では、学生がLLMを利用してレポートや論文を作成するケースが急増している。Turnitinの2024年報告書によれば、提出されたレポートの約16%にAI生成テキストが含まれていると推定されており、教育機関にとって深刻な課題となっている。ジャーナリズムの分野では、AIが生成したフェイクニュース記事の検出が社会的信頼性の維持に不可欠である。

LLM生成テキストの検出は、画像や音声のディープフェイク検出と比較して、原理的により困難な問題である。画像や音声のAI生成物には生成プロセスに起因する統計的アーティファクトが残る傾向があるが、テキストは離散的なトークン列であり、文法的に正しく意味的に一貫したテキストには「アーティファクト」と呼べる明確な痕跡が残りにくい。Sadasivanらは2023年の重要な論文で、十分に高性能なLLMの出力は情報理論的に人間のテキストと区別不可能になりうることを理論的に示している。

統計的特徴量に基づく検出

LLM生成テキストの統計的特徴に基づく検出手法は、LLMの生成プロセスに固有の統計的パターンを利用する。最も基本的な観察は、LLMが生成するテキストはモデルの確率分布に従うトークン選択に基づいており、この選択パターンが人間の文章作成パターンとは微妙に異なるという点である。

パープレキシティ(Perplexity)は、テキストがある言語モデルにとってどの程度「予測可能」であるかを測る指標であり、以下のように定義される:PPL(x) = exp(-1/N Σ log p(xᵢ|x₁,...,xᵢ₋₁))。LLMが生成したテキストは、その生成元のモデルにとって低いパープレキシティを示す傾向がある。Mitchellらは、生成テキストと人間テキストのパープレキシティ分布の差異を利用した検出手法を分析した。

バースティネス(Burstiness)は、テキスト内の語彙の出現パターンの変動性を測る指標である。人間のテキストでは、特定の語彙が局所的にバースト的に出現する傾向がある(同じ話題について議論する際に関連語が集中的に出現する)。LLM生成テキストでは、このバースト性が弱まり、語彙の出現がより均一な分布を示す傾向がある。

エントロピーに基づく分析も重要である。LLMの生成過程では、次トークンの選択においてソフトマックス分布から(温度パラメータで調整された)サンプリングが行われる。温度パラメータが低い場合、高確率トークンが繰り返し選択されるため、局所的なエントロピーが低くなる。人間のテキストでは、予想外の語彙選択や文体の変化により、エントロピーのパターンがより変動的となる。

人間テキストとLLM生成テキストの統計的差異

テキスト統計量の比較分布 パープレキシティ分布 人間 (高・分散大) LLM (低・集中) ← 低PPL 高PPL → バースティネス 人間: 変動大(バースト的) ...... トークンレベルエントロピー 青: 人間(変動大) 赤: LLM(均一) 検出の困難さ: 分布の重なりが大きいほど検出が困難 GPT-2/3: 分布差が大きく検出容易 → GPT-4/Claude 3: 分布差が縮小し検出困難 パラフレーズ攻撃やプロンプト工学により分布差はさらに縮小する

分類器ベースの検出手法

教師あり学習による分類器ベースの検出手法は、人間テキストとLLM生成テキストのラベル付きデータセットを用いてバイナリ分類器を学習するアプローチである。OpenAI が2023年に公開したAI Text Classifierは、RoBERTaをファインチューニングした分類器であったが、精度不足(正しくAI生成と判定できたのは26%)を理由に同年7月に公開停止となった。

GPTZero は、パープレキシティとバースティネスを組み合わせた特徴量に基づく分類器を商用展開し、教育機関での利用が広がっている。同ツールは、テキストの各文のパープレキシティを計算し、その分布パターンから人間テキストとLLM生成テキストを判別する。短いテキスト(200語未満)では精度が低下するが、長いテキスト(500語以上)では90%以上の精度を報告している。

Transformerベースの分類器では、RoBERTaやDeBERTaをベースモデルとして使用し、最終層の[CLS]トークンの隠れ状態に線形分類ヘッドを追加してファインチューニングする手法が標準的である。Guo らは、マルチスケールのテキスト特徴(文レベル、段落レベル、文書レベル)を融合する階層的分類器を提案し、汎化性能の向上を実現した。

分類器ベースの手法の根本的な限界は、学習データに含まれないLLMの出力に対する汎化性能の低さである。GPT-3の出力で学習した分類器は、GPT-4やClaude 3の出力に対して精度が大幅に低下する。この問題に対して、複数のLLMの出力を含む多様な学習データセットの構築や、ドメイン適応技術の適用が研究されている。

テキスト電子透かし技術

テキスト電子透かし(Text Watermarking)は、LLMの生成過程に介入してテキストに統計的パターンを埋め込み、事後的にそのパターンを検出することでAI生成テキストを識別する技術である。Kirchenbauerらが2023年に提案した「A Watermark for Large Language Models」は、この分野の基盤的研究として広く引用されている。

Kirchenbauerらの手法では、各トークン生成ステップにおいて、直前のトークンに基づく擬似乱数関数を用いて語彙を「グリーンリスト」と「レッドリスト」に二分する。グリーンリストのトークンのlogitに正のバイアス δ を加算することで、生成されるテキストにおいてグリーンリストトークンの出現頻度が統計的に高くなるよう誘導する。検出時には、テキスト中のグリーンリストトークンの割合を計算し、z検定によって透かしの有無を判定する。

この手法の数学的基盤は仮説検定理論に基づく。帰無仮説H₀:「テキストに透かしは埋め込まれていない(グリーントークン比率は期待値0.5)」に対して、検定統計量 z = (|G| - T/2) / √(T·p·(1-p)) を計算する。ここで |G| はグリーントークンの数、T は総トークン数、p はグリーンリストの比率(通常0.5)である。zが閾値を超える場合、透かしの存在を統計的に有意と判定する。

Christらは、より理論的に洗練された「Undetectable Watermarks」を提案した。この手法は、暗号学的疑似乱数関数(PRF)を用いてトークン選択過程にバイアスを加えるが、透かしの秘密鍵を知らない者にとっては透かしの存在が情報理論的に検出不可能である点で優れている。すなわち、鍵を持つ検証者のみが透かしを検出でき、第三者は透かし入りテキストと通常テキストを区別できない。

SynthIDテキスト版(Google DeepMind, 2024)は、Geminiモデルの出力に埋め込まれるテキスト透かし技術である。Tournament Samplingと呼ばれる手法を用いて、生成品質への影響を最小化しつつ検出可能な統計的パターンを埋め込む。Google検索においてSynthIDテキスト透かしの検出結果を表示する機能のテストが進行中である。

ゼロショット検出手法

ゼロショット検出手法は、ラベル付きデータセットを必要とせず、LLMの統計的性質のみに基づいて検出を行うアプローチである。DetectGPT(Mitchell et al., 2023)は、この分野の先駆的手法として広く知られている。

DetectGPTの基本的な着想は、LLM生成テキストは生成元モデルの対数確率関数の局所的な極大点近傍に位置するという仮説に基づく。テキストに小さな摂動(パラフレーズ)を加えると、LLM生成テキストの場合は対数確率が減少する傾向があるが、人間テキストの場合は摂動前後で対数確率の変化が小さい。数学的には、テキスト x に対して対数確率の曲率(摂動方向の二次導関数)が正であればLLM生成、ゼロに近ければ人間テキストと判定する。

Fast-DetectGPT(Bao et al., 2024)は、DetectGPTの計算効率を大幅に改善した手法である。DetectGPTが各テキストに対して100回のマスキング・再サンプリングを必要とするのに対し、Fast-DetectGPTは条件付き確率のサンプリングに基づく効率的な曲率推定を用い、1回のフォワードパスで検出を完了する。計算時間を340倍高速化しつつ、検出精度を維持または向上させている。

DNA-GPT(Yang et al., 2023)は、テキストの「再生成一致度」に基づくゼロショット検出手法である。被検テキストの一部を隠し、残りのテキストを条件として隠した部分をLLMに再生成させる。LLM生成テキストの場合、再生成されたテキストと元のテキストの一致度が高くなる(LLMは同じコンテキストから同様の出力を生成しやすい)。人間テキストの場合、再生成結果との一致度は低くなる。

検出の理論的限界

LLM生成テキスト検出の理論的限界は、情報理論と計算量理論の両面から分析されている。Sadasivanらの2023年の研究は、この分野の根本的な限界を示した重要な成果である。

彼らの主要な定理は、LLMの出力分布が人間のテキスト分布と十分に近い場合(全変動距離 TV(P_human, P_LLM) ≤ ε)、いかなる検出器も偽陽性率と偽陰性率の和が 1 - ε 以下にはできないというものである。直感的には、LLMが人間の文章を完全に模倣できる場合、検出は原理的に不可能になる。

この理論的結果は、パラフレーズ攻撃の脅威と密接に関連している。LLM生成テキストを別のLLMでパラフレーズ(書き換え)することで、元の統計的パターンを破壊し、検出を回避できる。Sadasivanらは、DIPPER(Discourse Paraphraser)を用いたパラフレーズ攻撃により、最先端の検出器の精度がランダム推測レベルまで低下することを実証した。

ただし、この不可能性結果にはいくつかの前提条件が必要である。第一に、LLMの出力分布が人間の分布に十分近い必要がある。現実のLLMは特定の文体的パターン(過剰な丁寧さ、特定の接続詞の多用等)を持つ傾向があり、完全な模倣には至っていない。第二に、テキスト透かし技術はこの不可能性の範囲外である。透かしはLLMの生成過程に介入するものであり、事後的な検出とは異なるフレームワークに基づく。

LLMテキスト検出手法の精度と攻撃耐性

検出手法別: 精度(AUC-ROC)と攻撃耐性 検出手法 通常精度 パラフレーズ後 透かし検出可能性 RoBERTa分類器 0.95 0.55 DetectGPT 0.92 0.52 GPTZero 0.91 0.60 Kirchenbauer透かし 0.99+ 0.80 鍵保有者のみ SynthID Text 0.97 0.85 Google内部API ※ パラフレーズ後: DIPPER (lexical diversity 40%, order diversity 60%) 適用後の精度 ※ 透かし手法はパラフレーズに対しても比較的頑健

検出回避手法とその対策

LLMテキスト検出の回避手法は、大きく以下のカテゴリに分類される。第一はパラフレーズ攻撃であり、LLM生成テキストを別のLLMで書き換えることで統計的パターンを破壊する。第二はプロンプト工学による回避であり、「人間らしく書け」「意図的に文法ミスを含めよ」といった指示を与えることで、検出器が依拠する特徴を人為的に排除する。第三は混合テキスト攻撃であり、人間テキストとLLM生成テキストを交互に組み合わせることで、文書全体の統計的プロファイルを攪乱する。

ホモグリフ攻撃は、視覚的に同一だが Unicode のコードポイントが異なる文字(例:ラテン文字の 'a' とキリル文字の 'а')を挿入することで、トークナイザの処理を攪乱する手法である。この攻撃は、文字レベルの前処理で対策可能であるが、攻撃のバリエーションが多様であるため完全な対策は困難である。

バックトランスレーション攻撃は、テキストを別の言語に翻訳し、再度元の言語に翻訳し戻すことで文体を変化させる手法である。複数言語を経由する多段階バックトランスレーションにより、元のLLMの統計的パターンは大幅に破壊される。

これらの回避手法に対する対策として、アンサンブル検出器(複数の異なる原理に基づく検出器の組み合わせ)、敵対的訓練(回避攻撃を学習データに含める)、テキスト透かしの併用が研究されている。しかし、回避と検出の「いたちごっこ」は本質的に終わりのない問題であり、単一の技術的解決策で完全な検出を実現することは原理的に困難である。

研究の方向性と社会実装

LLMテキスト検出の今後の研究方向性と社会実装に向けた課題を総括する。第一に、透かし技術の標準化と普及が最も有望なアプローチである。事後的な検出には原理的な限界があるが、生成プロセスに介入する透かし技術はこの限界を回避できる。LLMプロバイダーが自主的に透かしを実装するか、法的に義務づけるかが政策的論点となっている。

第二に、人間-AI協働テキスト(AI-assisted writing)の扱いが新たな課題である。現実のユースケースでは、人間がLLMの出力を部分的に利用して文章を作成するケースが増えており、「純粋なAI生成」と「純粋な人間執筆」の二値分類では実態を捉えきれない。テキスト内のAI貢献度を連続値で推定するような検出手法の開発が求められている。

第三に、多言語対応と非英語テキストの検出精度向上が急務である。日本語テキストの場合、形態素の複雑性やトークナイザの違いにより、英語テキスト向けに設計された検出手法の精度が低下する傾向がある。言語固有の統計的特徴を考慮した検出手法の開発が必要とされている。

LLM生成テキストの検出は、技術的には困難だが社会的には不可欠な課題である。完全な検出は原理的に達成できない可能性が高いが、透かし技術、統計的検出、来歴管理(Content Credentials)の組み合わせにより、実用的なレベルの検出・識別システムの構築は可能である。技術、法制度、教育の三位一体の取り組みが求められる。

参考文献

  1. Kirchenbauer, J. et al., "A Watermark for Large Language Models," Proceedings of ICML, 2023.
  2. Mitchell, E. et al., "DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature," Proceedings of ICML, 2023.
  3. Sadasivan, V. S. et al., "Can AI-Generated Text be Reliably Detected?" arXiv:2303.11156, 2023.
  4. Christ, M. et al., "Undetectable Watermarks for Language Models," Proceedings of CRYPTO, 2024.
  5. Bao, G. et al., "Fast-DetectGPT: Efficient Zero-Shot Detection of Machine-Generated Text via Conditional Probability Curvature," Proceedings of ICLR, 2024.
  6. Yang, X. et al., "DNA-GPT: Divergent N-Gram Analysis of Generative Pre-Trained Transformers," Proceedings of AAAI, 2024.
  7. Dathathri, S. et al., "Scalable Watermarking for Identifying Large Language Model Outputs (SynthID Text)," Nature, Vol. 634, 2024.
  8. Turnitin, "AI Writing Detection Statistics and Insights 2024," Turnitin LLC, 2024.
  9. Krishna, K. et al., "Paraphrasing Evades Detectors of AI-Generated Text, but Retrieval is an Effective Defense," Proceedings of NeurIPS, 2023.
  10. Tang, R. et al., "The Science of Detecting LLM-Generated Texts," Communications of the ACM, Vol. 67, No. 4, 2024.