1Cademy - Embedding Size in Transformer Models

Learn Before

BERT (Bidirectional Encoder Representations from Transformers)
Considerations in BERT Model Development
Key Hyperparameters of a Transformer Encoder

Definition

Embedding Size in Transformer Models

In Transformer models, the embedding size, denoted as $d_e$ , defines the dimensionality of the real-valued vectors used to represent each token. As such, the final input vector for any given token is a $d_e$ -dimensional real-valued vector. This vector is formed by summing its constituent parts—the token embedding, positional embedding, and segment embedding—each of which is independently a $d_e$ -dimensional real-valued vector.