1Cademy - Latency Variability as a Drawback of Continuous Batching

Learn Before

Throughput-Latency Trade-off in Prefilling-Prioritized Continuous Batching

Concept

Latency Variability as a Drawback of Continuous Batching

While prioritizing prefilling is effective for maximizing hardware utilization, it introduces a critical trade-off: significant variability in token generation latency. This latency inconsistency becomes especially pronounced in systems that handle a mixed workload of both long and short input sequences, as shorter requests can be delayed by longer ones.

Updated 2025-10-06

Contributors are: