1Cademy - Strategies for Segmenting Output Sequences in Reward Modeling

Learn Before

Segment-Based Reward Computation

Concept

Strategies for Segmenting Output Sequences in Reward Modeling

A key consideration in segment-based reward modeling is determining the method for dividing the output sequence, $\mathbf{y}$ , into smaller segments. Various strategies exist, including partitioning the sequence into fixed-length chunks, using linguistic or semantic features to find natural breaks, or applying dynamic segmentation techniques based on text complexity.