AIリテラシー応答時間（Response Time）

カテゴリ: 運用・監視

応答時間とは

応答時間（レイテンシ）は、ユーザーがアクションを起こしてから、システムが反応を返すまでの時間です。検索エンジンのような従来のシステムでは「0.2秒以内」が理想とされてきましたが、大規模な計算を要する生成AIにおいては、数秒〜数十秒かかることも珍しくありません。

LLMにおいては以下の2つの指標を使い分けることが重要です。

TTFT (Time To First Token): 最初の1文字目が表示されるまでの時間。「考えている時間」に相当し、これが長いとユーザーは「フリーズしたか？」と不安になります。ストリーミング表示を行う場合、最も重視すべき指標です。
Total Generation Time: 全ての回答生成が完了するまでの時間。バックグラウンド処理や要約タスクなど、ユーザーが待機しない場面で重要になります。

監査におけるSLA設定

監査では、応答時間が「SLA（Service Level Agreement）」で定めた基準を満たしているかを確認します。「99%のリクエストに対してTTFTが2秒以内であること」といった具体的な数値目標が設定され、これを継続的にクリアできているかが評価されます。

実務での課題と対策

AIモデルの精度を上げようとしてパラメータサイズを大きくしたり、RAGで検索するドキュメント量を増やしたりすると、必然的に応答時間は悪化します。「精度」と「速度」はトレードオフの関係にあります。対策として、キャッシュ（Semantic Cache）の活用や、小型モデル（蒸留モデル）への切り替え、あるいは「推論の投機的実行（Speculative Decoding）」などの高速化技術が採用されます。

[PR]

失敗例・トラブル事例

タイムアウト多発: 複雑な推論チェーン（Chain of Thought）を実装した結果、回答生成に60秒以上かかるようになり、Webサーバーやロードバランサーのタイムアウト設定（デフォルト30秒）に引っかかってエラーが多発しました、インフラ設定の見直しが必要でした。
UXの悪化: 回答内容は正確でしたが、表示されるまでに毎回10秒待たされるため、ユーザー離脱率が急増しました。ローディングアニメーションの工夫や、一部だけ先に返す工夫が不足していました。

AIリテラシー応答時間（Response Time）

応答時間とは

監査におけるSLA設定

実務での課題と対策

失敗例・トラブル事例

関連リンク

関連キーワード

AIリテラシー 応答時間（Response Time）

応答時間とは

監査におけるSLA設定

実務での課題と対策

失敗例・トラブル事例

関連リンク

関連キーワード

AIリテラシー応答時間（Response Time）