AIリテラシー スループット(Throughput)
カテゴリ: 運用・監視
スループットとは
スループットは、AIシステムが単位時間あたりにどれだけの処理をこなせるかを表す「容量」の指標です。高速道路に例えると、応答時間(レイテンシ)は「1台の車が目的地に着くまでのスピード」であるのに対し、スループットは「1時間に何台の車が通過できるか(交通量)」に相当します。
生成AI(LLM)において特に重要視されるのは「トークン生成速度(Tokens Per Second: TPS)」です。人間が読む速度よりも速く生成できれば快適に感じられますが、システム全体のスループットが低いと、ユーザーが増えた途端に生成がカクついたり、待機行列(キュー)が発生したりします。
監査における負荷テスト
監査では、「ピーク時にどれだけのユーザーをさばけるか」を確認するために負荷テスト(ロードテスト)を行います。想定される最大同時接続数(Concurrent Users)に対して、スループットが維持されるか、エラー率が上昇しないかを検証します。APIのレート制限(Rate Limiting)設定が適切かどうかもチェックポイントとなります。
実務での課題と対策
GPUリソースは高価であるため、無制限にサーバーを増やすことはできません。対策として、リクエストの内容に応じて軽いモデルと重いモデルを使い分けるルーティングや、夜間のバッチ処理へのオフロード、または推論専用の高速化チップ(LPUなど)の導入によるコスト対効果の最適化が行われます。
失敗例・トラブル事例
- 広告キャンペーンでのダウン: テレビCMを打ってアクセスが急増した際、Webサーバーはオートスケールしましたが、背後のAIモデルのAPI制限(クォータ)に引っかかり、サービス全体が「503 Service Unavailable」となりました。サードパーティAPIの上限緩和申請を忘れていたのが原因です。
- バッチ処理の巻き添え: 社内用AIチャットボットと同じインフラで、大量のドキュメント要約バッチ処理を流してしまい、チャットの応答が極端に遅くなりました。リアルタイム処理とバッチ処理のリソース分離(QoS制御)ができていませんでした。
関連リンク
関連キーワード
スループット
TPS
オートスケーリング
負荷テスト
レート制限
キャパシティプランニング