1Cademy - Per-Token Classification for Encoder Training

Learn Before

Self-Supervised Classification Tasks for Encoder Training

Concept

Per-Token Classification for Encoder Training

A method for training Transformer encoders as classifiers involves applying a distinct supervision signal to the output corresponding to each token in a sequence. In this setup, the model learns by making a classification decision for every individual token, such as identifying if a token has been altered. This per-token objective, exemplified by the ELECTRA model, contrasts with approaches that generate a single classification for an entire sequence.

Updated 2026-04-16

Contributors are: