AIリテラシー 応答時間(Response Time)
カテゴリ: 運用・監視
応答時間とは
応答時間(レイテンシ)は、ユーザーがアクションを起こしてから、システムが反応を返すまでの時間です。検索エンジンのような従来のシステムでは「0.2秒以内」が理想とされてきましたが、大規模な計算を要する生成AIにおいては、数秒〜数十秒かかることも珍しくありません。
LLMにおいては以下の2つの指標を使い分けることが重要です。
- TTFT (Time To First Token): 最初の1文字目が表示されるまでの時間。「考えている時間」に相当し、これが長いとユーザーは「フリーズしたか?」と不安になります。ストリーミング表示を行う場合、最も重視すべき指標です。
- Total Generation Time: 全ての回答生成が完了するまでの時間。バックグラウンド処理や要約タスクなど、ユーザーが待機しない場面で重要になります。
監査におけるSLA設定
監査では、応答時間が「SLA(Service Level Agreement)」で定めた基準を満たしているかを確認します。「99%のリクエストに対してTTFTが2秒以内であること」といった具体的な数値目標が設定され、これを継続的にクリアできているかが評価されます。
実務での課題と対策
AIモデルの精度を上げようとしてパラメータサイズを大きくしたり、RAGで検索するドキュメント量を増やしたりすると、必然的に応答時間は悪化します。「精度」と「速度」はトレードオフの関係にあります。対策として、キャッシュ(Semantic Cache)の活用や、小型モデル(蒸留モデル)への切り替え、あるいは「推論の投機的実行(Speculative Decoding)」などの高速化技術が採用されます。
失敗例・トラブル事例
- タイムアウト多発: 複雑な推論チェーン(Chain of Thought)を実装した結果、回答生成に60秒以上かかるようになり、Webサーバーやロードバランサーのタイムアウト設定(デフォルト30秒)に引っかかってエラーが多発しました、インフラ設定の見直しが必要でした。
- UXの悪化: 回答内容は正確でしたが、表示されるまでに毎回10秒待たされるため、ユーザー離脱率が急増しました。ローディングアニメーションの工夫や、一部だけ先に返す工夫が不足していました。
関連リンク
関連キーワード
応答時間
レイテンシ
TTFT
SLA
ストリーミング
UX