序論:データ品質がAIを決定する

機械学習(Machine Learning, ML)モデルの性能は、アルゴリズムの精巧さのみならず、トレーニングデータの品質に決定的に依存する。Andrew Ng(2021)が「データ中心AI(Data-Centric AI)」の概念を提唱して以来、データの品質管理は学術的にも産業的にも中心的な研究課題として認識されるようになった。従来の「モデル中心AI(Model-Centric AI)」パラダイムが、アーキテクチャの革新やハイパーパラメータの最適化に注力してきたのに対し、データ中心AIは、データの収集、アノテーション、前処理、およびキュレーションのプロセス全体を体系的に改善することで、モデル性能の向上を図る。

「Garbage In, Garbage Out(GIGO)」という古典的な格言は、データ品質の重要性を端的に表現しているが、現代の機械学習においては、この問題はより精緻な理論的分析を要する。深層学習(Deep Learning)モデルは、その高い表現力ゆえにノイズの多いラベルを「記憶」する能力を持ち(Zhang et al., 2017)、これがモデルの汎化性能(generalization performance)を著しく劣化させることが実験的に示されている。Arpit et al.(2017)は、深層ニューラルネットワークがまず「パターン」を学習し、その後「ノイズ」を記憶するという段階的学習過程を明らかにし、ラベルノイズの影響の理論的基盤を提供した。

本稿では、データアノテーションの方法論と品質保証の体系的手法、ラベルノイズが学習過程に与える影響の理論的分析、およびトレーニングパイプライン全体における品質管理のベストプラクティスを包括的に論じる。データアノテーションは単なる「ラベル付け」作業ではなく、認知科学、言語学、統計学、そしてヒューマンコンピュータインタラクション(HCI)の知見を統合した学際的営為であることを示す。

データアノテーションの方法論的基盤

データアノテーション(Data Annotation)とは、機械学習モデルのトレーニングに用いる教師データに対して、正解ラベル(ground truth label)を付与する過程を指す。この過程は一見単純に見えるが、その方法論的基盤は複数の学問分野にまたがる複雑な知的営為である。

アノテーションスキーマ(annotation schema)の設計は、アノテーションプロセスの最も基本的かつ重要な工程である。スキーマとは、アノテーションの対象、カテゴリ体系、判断基準、および境界事例の処理方針を体系的に定義した文書であり、アノテーション品質の上限を規定する。Pustejovsky and Stubbs(2012)は、アノテーションスキーマの設計における「MATTER」サイクル(Model → Annotate → Train → Test → Evaluate → Revise)を提唱し、スキーマ設計がイテレーティブなプロセスであることを強調した。

自然言語処理(NLP)におけるアノテーションでは、言語現象の曖昧性が固有の課題となる。例えば、感情分析(sentiment analysis)における「皮肉」の検出は、文脈依存性が極めて高く、アノテーター間での判断の不一致が生じやすい。Kenyon-Dean et al.(2018)は、感情のスケール化されたアノテーションにおいて、離散的カテゴリよりも連続的スケールを用いることで、アノテーターの認知的負荷を軽減し、一致率を向上させることを示した。

コンピュータビジョンにおけるアノテーションでは、バウンディングボックス(bounding box)、セマンティックセグメンテーション(semantic segmentation)、インスタンスセグメンテーション(instance segmentation)、キーポイント検出(keypoint detection)など、タスクに応じた多様なアノテーション手法が存在する。COCO(Common Objects in Context)データセット(Lin et al., 2014)は、33万枚以上の画像に対して、80カテゴリのオブジェクト検出アノテーション、パノプティックセグメンテーション、およびキャプションアノテーションを提供しており、アノテーションの規模と体系性の両面で重要なベンチマークとなっている。

医療画像のアノテーションは、特に高い専門性と品質基準を要求する。放射線画像における病変の検出や病理画像における細胞分類は、専門医(domain expert)による判断が不可欠であり、一般的なクラウドソーシングベースのアノテーションパイプラインでは対応が困難である。Irvin et al.(2019)のCheXpertデータセットでは、放射線科レポートからの自動ラベリングと専門医によるレビューを組み合わせたハイブリッドアプローチを採用している。

アノテーター間一致度の理論

アノテーション品質の定量的評価において、アノテーター間一致度(Inter-Annotator Agreement, IAA)は中心的な指標である。IAAは、複数のアノテーターが同一のデータに対して独立にアノテーションを行った際の判断の一致度を測定する。

最も基本的なIAA指標は、単純一致率(percentage agreement)であるが、これは偶然の一致(chance agreement)を考慮しないため、アノテーション品質の信頼性のある指標としては不十分である。Cohen's kappa(κ)係数(Cohen, 1960)は、偶然の一致を補正した指標であり、κ = (P_o - P_e) / (1 - P_e) として定義される。ここで、P_oは観察された一致率、P_eは偶然に期待される一致率である。Landis and Koch(1977)は、κの値の解釈基準として、0.81–1.00を「ほぼ完全な一致(almost perfect)」、0.61–0.80を「実質的な一致(substantial)」、0.41–0.60を「中程度の一致(moderate)」と定義した。

しかし、Cohen's kappaには重大な限界がある。第一に、2人のアノテーター間の一致度しか測定できない。3人以上のアノテーターが関与する場合には、Fleiss' kappa(Fleiss, 1971)が用いられるが、これは各アイテムに対してすべてのアノテーターがラベルを付与していることを前提とする。第二に、kappaは順序尺度(ordinal scale)のデータに対しては不適切であり、重み付きkappa(weighted kappa)の使用が必要となる。第三に、カテゴリの分布が偏っている場合、kappaの値は「有病率バイアス(prevalence bias)」によって不当に低下する(Byrt et al., 1993)。

Krippendorff's alpha(α)は、これらの限界の多くを克服する汎用的なIAA指標である(Krippendorff, 2004)。αは、任意の数のアノテーター、欠損データ、および名義・順序・区間・比率の各尺度水準に対応し、偶然の一致を適切に補正する。αの計算は、観察された不一致(D_o)と期待される不一致(D_e)の比に基づき、α = 1 - D_o / D_e として定義される。Krippendorffは、α ≥ 0.800を信頼できるアノテーションの基準として推奨し、0.667 ≤ α < 0.800を暫定的に受容可能としている。

図1:アノテーター間一致度指標の比較

IAA指標の特性比較 偶然補正 多人数対応 欠損対応 多尺度対応 単純一致率 Cohen's κ Fleiss' κ Krippendorff's α 判定基準(Krippendorff推奨) α ≥ 0.800: 信頼可 0.667–0.800: 暫定可

ラベルノイズの理論的分析

ラベルノイズ(label noise)とは、トレーニングデータに含まれる誤ったラベルのことであり、機械学習モデルの性能に直接的な影響を与える。Frénay and Verleysen(2014)は、ラベルノイズを以下の3種類に分類している。

第一に、「完全ランダムノイズ(Noisy Completely At Random, NCAR)」は、真のラベルやインスタンスの特徴に依存せず、すべてのインスタンスに対して等確率で発生するノイズである。これは最も単純なモデルであり、ノイズ率εの下で、各ラベルが確率εで誤りとなる。第二に、「ランダムノイズ(Noisy At Random, NAR)」は、真のラベルに依存するが、インスタンスの特徴には依存しないノイズである。例えば、「犬」を「猫」と誤ラベルする確率が、「犬」を「車」と誤ラベルする確率よりも高いという非対称なノイズ構造がこれに該当する。第三に、「非ランダムノイズ(Noisy Not At Random, NNAR)」は、真のラベルとインスタンスの特徴の両方に依存するノイズであり、最も現実的であるが、理論的分析が最も困難である。

深層学習モデルにおけるラベルノイズの影響は、Zhang et al.(2017)の画期的な実験によって明確に示された。彼らは、ImageNetやCIFAR-10のデータセットにおいて、ラベルを完全にランダム化した場合でも、深層ニューラルネットワークがトレーニングデータの100%を正確に記憶(memorize)できることを実証した。この結果は、深層学習モデルの過パラメータ化(overparameterization)がもたらす本質的な脆弱性を浮き彫りにしている。

ラベルノイズに対する頑健な学習法として、以下のアプローチが提案されている。Natarajan et al.(2013)は、ノイズ遷移行列(noise transition matrix)を推定し、損失関数を補正する手法を提案した。この手法では、ノイズ遷移行列T_{ij} = P(ỹ = j | y = i)を推定し、元の損失関数l(f(x), ỹ)をunbiased surrogate loss l̃(f(x), ỹ) = T^{-1} l(f(x), ỹ)に変換する。理論的には、この補正された損失関数を最小化することで、ノイズのないデータに対する最適分類器に収束することが保証される。

Li et al.(2020)が提案したDivideMix手法は、ラベルノイズへの対処において現在最も効果的な手法の一つである。DivideMixは、ガウス混合モデル(Gaussian Mixture Model, GMM)を用いてトレーニングサンプルを「クリーン」と「ノイジー」に分割し、クリーンサンプルに対しては通常の教師あり学習を、ノイジーサンプルに対してはMixMatch(Berthelot et al., 2019)ベースの半教師あり学習を適用する。co-training戦略により、2つの独立したネットワークが互いの予測を利用してラベルの信頼性を評価する。CIFAR-10において、90%のラベルノイズ率の下でも95.7%のテスト精度を達成している。

クラウドソーシングアノテーションの品質管理

Amazon Mechanical Turk(MTurk)に代表されるクラウドソーシングプラットフォームは、大規模なアノテーションデータの効率的な生成を可能にした。しかし、クラウドワーカーのスキルレベル、動機づけ、および注意力は大きくばらつくため、品質管理が不可欠である。

Dawid and Skene(1979)モデルは、クラウドソーシングアノテーションの品質推定における古典的なアプローチである。このモデルでは、各アノテーターjに対して混同行列(confusion matrix)π_j を推定し、EMアルゴリズム(Expectation-Maximization algorithm)を用いて、真のラベルとアノテーター能力を同時に推定する。E-stepでは、現在のパラメータ推定に基づいて各アイテムの真のラベルの事後分布を計算し、M-stepでは、推定された真のラベルに基づいてアノテーター能力パラメータを更新する。

GLAD(Generative model of Labels, Abilities, and Difficulties)モデル(Whitehill et al., 2009)は、Dawid-Skeneモデルを拡張し、アイテムの難易度(difficulty)をモデルに組み込んだ。GLADでは、アノテーターjがアイテムiに正しいラベルを付与する確率は、アノテーターの能力α_jとアイテムの難易度1/β_iの関数としてモデル化される。これにより、「すべてのアノテーターにとって難しいアイテム」と「特定のアノテーターの能力が低い場合」を区別することが可能となる。

近年では、Bayesian Classifier Combination(BCC)モデル(Kim and Ghahramani, 2012)やMulti-Annotator Competence Estimation(MACE)(Hovy et al., 2013)など、より洗練されたベイズ的アプローチが提案されている。MACEは、各アノテーターが「スパミング」(無作為にラベルを付与する)行動をとる確率を明示的にモデル化し、スパマーの検出と排除を自動的に行う。

品質管理のための実践的手法として、ゴールドスタンダード質問(gold standard questions)の挿入が広く用いられている。これは、正解が既知の質問をアノテーションタスクに混入させ、アノテーターの回答精度をリアルタイムで監視する手法である。しかし、Daniel et al.(2018)は、ゴールドスタンダード質問の過度な使用がアノテーターの信頼感を損ない、作業品質を低下させる可能性を指摘しており、質の管理と心理的安全性のバランスが重要である。

能動学習によるアノテーション効率化

能動学習(Active Learning)は、アノテーションコストを最小化しつつモデル性能を最大化するための方法論であり、モデルが「最も有益な」インスタンスを選択的にアノテーション要求する戦略に基づく。Settles(2012)の包括的なサーベイによれば、能動学習の主要な戦略は以下のように分類される。

不確実性サンプリング(uncertainty sampling)は、最も直感的な戦略であり、モデルの予測が最も不確実なインスタンスを優先的にアノテーション要求する。不確実性の測定には、最大事後確率の最小化(least confidence)、マージンサンプリング(margin sampling)、エントロピーベースサンプリング(entropy-based sampling)などが用いられる。しかし、不確実性サンプリングは、決定境界付近のインスタンスに偏重する傾向があり、特徴空間全体の探索が不十分となるサンプリングバイアス(sampling bias)の問題を抱える。

クエリバイコミッティ(Query-by-Committee, QbC)は、複数のモデルからなる「委員会」を構成し、委員会メンバー間の予測の不一致が最大のインスタンスを選択する戦略である。QbCは、バージョン空間(version space)の効率的な縮小を理論的に保証する(Seung et al., 1992)。Abe and Mamitsuka(1998)は、QbCがPAC学習理論(Probably Approximately Correct learning)の枠組みにおいて、O(d log(1/ε))のクエリ複雑性で学習可能であることを示した(dは仮説空間の次元、εは誤差率)。

情報密度加重(information density weighting)は、Settles and Craven(2008)によって提案された手法であり、不確実性の高さと代表性(representativeness)を同時に考慮する。具体的には、インスタンスxの情報量を、不確実性U(x)と特徴空間における類似インスタンスの密度の積として定義する:φ(x) = U(x) × (1/|U| Σ_{u∈U} sim(x, u))^β。ここで、simは類似度関数、βは密度の重み付けパラメータである。

深層能動学習(Deep Active Learning)は、深層学習モデルの文脈における能動学習の拡張であり、近年急速に発展している。Gal et al.(2017)は、モンテカルロドロップアウト(Monte Carlo Dropout)を用いたベイズ的不確実性推定に基づく深層能動学習手法を提案した。ドロップアウトを推論時にも適用し、複数回の前向き推論の出力の分散をモデル不確実性の近似として利用する。この手法は、アレアトリック不確実性(データ固有のノイズ)とエピステミック不確実性(モデルの知識不足)を区別可能であり、能動学習においてはエピステミック不確実性の高いインスタンスを優先的に選択する。

図2:能動学習のサンプル効率比較

アノテーション済みサンプル数 モデル精度 (%) 50 60 70 80 90 100 0 200 400 600 800 全データ使用時の上限 能動学習 ランダムサンプリング 同一精度で ~50%削減

データ中心AIとカリキュラム学習

データ中心AI(Data-Centric AI)のパラダイムは、モデルのアーキテクチャを固定し、データの品質を体系的に改善することでモデル性能の向上を図るアプローチである。Andrew Ng(2021)が主催したData-Centric AI Competitionでは、固定されたモデルアーキテクチャに対して、参加者がトレーニングデータのみを改善することで競い合い、データ品質の改善がモデルアーキテクチャの変更以上に性能向上に寄与することが実証された。

データクリーニング(data cleaning)は、データ中心AIの基本的な構成要素であり、欠損値の処理、外れ値の検出と除去、重複データの排除、およびラベルエラーの修正を含む。Confident Learning(CL)フレームワーク(Northcutt et al., 2021)は、ラベルエラーの自動検出のための体系的手法を提供する。CLは、モデルの予測確率と与えられたラベルの不一致に基づいてラベルエラーの候補を特定し、ジョイントノイズ分布(joint noise distribution)を推定することで、ラベルの信頼性を定量的に評価する。Northcutt et al.は、ImageNet、MNIST、CIFAR-10を含む10の主要なベンチマークデータセットにおいて、平均3.4%のラベルエラーを発見した。

カリキュラム学習(Curriculum Learning)は、Bengio et al.(2009)によって提案された学習戦略であり、トレーニングサンプルを「易しい」ものから「難しい」ものへと段階的に提示することで、学習の効率と最終的な性能を向上させる。この概念は、人間の教育における段階的なカリキュラム設計からインスピレーションを得ている。カリキュラム学習の理論的根拠は、非凸最適化における局所解の回避にある。「易しい」サンプルから学習を開始することで、損失関数のランドスケープがより滑らかになり、より良い局所解への収束が促進される。

自己ペース学習(Self-Paced Learning, SPL)(Kumar et al., 2010)は、カリキュラム学習の自動化版であり、モデル自身が現在の能力に基づいてトレーニングサンプルの提示順序を決定する。SPLでは、各イテレーションにおいて、現在の損失値が閾値以下のサンプルのみを「易しい」サンプルとして選択し、閾値を徐々に緩和していくことで、全サンプルを段階的にトレーニングに組み込む。

データ拡張(Data Augmentation)もまた、データ品質の改善に寄与する重要な技術である。画像認識においては、幾何学的変換(回転、反転、スケーリング)、色空間変換、および弾性変形などの伝統的手法に加え、AutoAugment(Cubuk et al., 2019)やRandAugment(Cubuk et al., 2020)のような学習ベースの拡張戦略が提案されている。NLPにおいては、バックトランスレーション(back-translation)、同義語置換、およびテキスト生成モデルを用いた合成データ生成が活用されている。

トレーニングパイプラインの品質管理

トレーニングパイプライン全体の品質管理は、個々のコンポーネントの品質保証を超えた、システムレベルの考慮を必要とする。Sculley et al.(2015)は、機械学習システムにおける「技術的負債(technical debt)」の概念を導入し、データの依存関係、フィードバックループ、およびコンフィギュレーションの複雑性が蓄積する問題を指摘した。

データバージョニング(data versioning)は、トレーニングデータの変更を追跡し、再現性(reproducibility)を確保するための基盤技術である。DVC(Data Version Control)やlakeFS等のツールは、Git風のインターフェースでデータセットのバージョン管理を可能にする。データバージョニングにより、特定のモデル性能がどのデータバージョンに起因するかを遡及的に分析することが可能となる。

データシート(Datasheets for Datasets)の概念は、Gebru et al.(2021)によって提案された。データシートは、データセットの作成動機、構成、収集プロセス、前処理手順、推奨用途、制限事項、および倫理的考慮事項を体系的に記述するための標準化されたドキュメントテンプレートである。この概念は、ハードウェアコンポーネントに付随するデータシートからの類推であり、データセットの透明性と説明責任を向上させることを目的とする。

モデルカード(Model Cards)は、Mitchell et al.(2019)によって提案された、訓練されたモデルの評価結果を体系的に報告するためのフレームワークである。モデルカードには、モデルの意図された用途、性能指標、人口統計グループごとの公正性評価、および既知の限界が記載される。データシートとモデルカードを組み合わせることで、データ収集からモデルデプロイメントまでの全パイプラインにおけるトレーサビリティが確保される。

継続的インテグレーション/継続的デプロイメント(CI/CD)の概念をMLパイプラインに適用したMLOps(Machine Learning Operations)は、トレーニングパイプラインの自動化と品質保証のための実践的フレームワークとして普及しつつある。Google(2020)のMLOps成熟度モデルは、Level 0(手動プロセス)からLevel 2(CI/CDパイプライン自動化)までの3段階を定義し、各レベルにおける品質管理の要件を明示している。

大規模言語モデル時代のアノテーション

大規模言語モデル(Large Language Models, LLMs)の登場は、アノテーションの方法論に根本的な変革をもたらしつつある。GPT-4をはじめとするLLMsは、ゼロショット(zero-shot)またはフューショット(few-shot)の設定で、人間のアノテーターに匹敵する品質のアノテーションを生成できることが示されている(Gilardi et al., 2023)。

Gilardi et al.(2023)は、テキスト分類タスクにおいて、ChatGPTのアノテーション品質がクラウドワーカーのそれを上回ることを実証した。特に、政治的ツイートの分類やニュース記事のフレーミング分析において、ChatGPTは人間のアノテーターよりも高いアノテーター間一致度を達成した。しかし、著者らは、LLMベースのアノテーションにはバイアスの増幅リスクがあることを指摘しており、特に文化的に敏感なトピックやマイノリティの視点を含むデータに対しては、LLMのアノテーションを無批判に受容することは危険であると警告している。

Reinforcement Learning from Human Feedback(RLHF)は、LLMの行動をアライメント(alignment)するためのフレームワークであり、その核心は人間によるフィードバックのアノテーションにある。Ouyang et al.(2022)のInstructGPTでは、人間のアノテーターがモデル出力のペアを比較し、選好(preference)ラベルを付与するプロセスを通じて報酬モデル(reward model)を訓練する。このアノテーションプロセスの品質は、最終的なモデルの振る舞いに直接的な影響を与えるため、アノテーターの選定基準、トレーニング、およびフィードバックの品質管理が極めて重要である。

Constitutional AI(CAI)(Bai et al., 2022)は、人間のアノテーションへの依存を軽減するアプローチとして、AIモデル自身が一連の原則(constitution)に基づいて自己のフィードバックを生成する手法を提案している。CAIでは、「有害でない」「正直である」「有用である」といった原則に基づいてモデルが自己批判と改訂を行い、このプロセスを通じて生成された改訂版を教師データとして利用する。この手法は、人間のアノテーションのスケーラビリティの限界を克服する可能性を持つが、原則の設定自体に人間の価値判断が内在するという再帰的な問題は残る。

結論:品質管理の統合的フレームワーク

本稿では、データアノテーションとモデルトレーニングの品質管理に関する主要な理論的基盤と実践的手法を包括的に検討した。データ品質はモデル性能の根本的な規定因であり、アノテーション方法論、ラベルノイズへの対処、クラウドソーシングの品質管理、能動学習による効率化、およびデータ中心AIのパラダイムは、いずれもこの認識に基づく体系的な取り組みである。

今後の研究課題として、以下の方向性が挙げられる。第一に、LLMベースのアノテーションにおけるバイアスの体系的な検出と軽減手法の開発が急務である。第二に、マルチモーダルデータ(テキスト、画像、音声、動画)のアノテーションにおける統一的な品質基準の確立が必要である。第三に、プライバシー保護とアノテーション品質の両立、特に連合学習(federated learning)環境におけるアノテーション品質管理の方法論の開発が重要である。

Andrew Ng(2021)が指摘するように、「AIの性能向上の80%はデータの改善から得られる」。データアノテーションとトレーニングの品質管理は、AI研究とその実践的応用の双方において、今後もますます重要な位置を占めるであろう。

参考文献

  1. Abe, N. and Mamitsuka, H. (1998). "Query Learning Strategies Using Boosting and Bagging." Proceedings of ICML, 1–9.
  2. Arpit, D. et al. (2017). "A Closer Look at Memorization in Deep Networks." Proceedings of ICML, 233–242.
  3. Bai, Y. et al. (2022). "Constitutional AI: Harmlessness from AI Feedback." arXiv preprint arXiv:2212.08073.
  4. Bengio, Y. et al. (2009). "Curriculum Learning." Proceedings of ICML, 41–48.
  5. Berthelot, D. et al. (2019). "MixMatch: A Holistic Approach to Semi-Supervised Learning." NeurIPS, 5049–5059.
  6. Byrt, T. et al. (1993). "Bias, Prevalence and Kappa." Journal of Clinical Epidemiology, 46(5), 423–429.
  7. Cohen, J. (1960). "A Coefficient of Agreement for Nominal Scales." Educational and Psychological Measurement, 20(1), 37–46.
  8. Cubuk, E.D. et al. (2019). "AutoAugment: Learning Augmentation Strategies from Data." CVPR, 113–123.
  9. Daniel, F. et al. (2018). "Quality Control in Crowdsourcing." ACM Computing Surveys, 51(1), 1–40.
  10. Dawid, A.P. and Skene, A.M. (1979). "Maximum Likelihood Estimation of Observer Error-Rates." Applied Statistics, 28(1), 20–28.
  11. Fleiss, J.L. (1971). "Measuring Nominal Scale Agreement Among Many Raters." Psychological Bulletin, 76(5), 378–382.
  12. Frénay, B. and Verleysen, M. (2014). "Classification in the Presence of Label Noise: A Survey." IEEE TNNLS, 25(5), 845–869.
  13. Gal, Y. et al. (2017). "Deep Bayesian Active Learning with Image Data." Proceedings of ICML, 1183–1192.
  14. Gebru, T. et al. (2021). "Datasheets for Datasets." Communications of the ACM, 64(12), 86–92.
  15. Gilardi, F. et al. (2023). "ChatGPT Outperforms Crowd Workers for Text-Annotation Tasks." PNAS, 120(30).
  16. Hovy, D. et al. (2013). "Learning Whom to Trust with MACE." Proceedings of NAACL-HLT, 1120–1130.
  17. Krippendorff, K. (2004). Content Analysis: An Introduction to Its Methodology. Sage Publications.
  18. Kumar, M.P. et al. (2010). "Self-Paced Learning for Latent Variable Models." NeurIPS, 1189–1197.
  19. Li, J. et al. (2020). "DivideMix: Learning with Noisy Labels as Semi-supervised Learning." ICLR.
  20. Lin, T.Y. et al. (2014). "Microsoft COCO: Common Objects in Context." ECCV, 740–755.
  21. Mitchell, M. et al. (2019). "Model Cards for Model Reporting." FAT*, 220–229.
  22. Natarajan, N. et al. (2013). "Learning with Noisy Labels." NeurIPS, 1196–1204.
  23. Northcutt, C. et al. (2021). "Confident Learning: Estimating Uncertainty in Dataset Labels." JAIR, 70, 1373–1411.
  24. Ouyang, L. et al. (2022). "Training Language Models to Follow Instructions with Human Feedback." NeurIPS, 27730–27744.
  25. Pustejovsky, J. and Stubbs, A. (2012). Natural Language Annotation for Machine Learning. O'Reilly Media.
  26. Sculley, D. et al. (2015). "Hidden Technical Debt in Machine Learning Systems." NeurIPS, 2503–2511.
  27. Settles, B. (2012). Active Learning. Morgan & Claypool Publishers.
  28. Zhang, C. et al. (2017). "Understanding Deep Learning Requires Rethinking Generalization." ICLR.