1Cademy - FFN Hidden Size in Transformers

Learn Before

Purpose and Structure of the Feed-Forward Network (FFN) in Transformers
Key Hyperparameters of a Transformer Encoder
Considerations in BERT Model Development

Definition

FFN Hidden Size in Transformers

The Feed-Forward Network (FFN) sub-layers within Transformer models feature a hidden layer with a specific size denoted as $d_{\textrm{ffn}}$ . This dimension is typically designed to be larger than the standard hidden size, $d$ . A common architectural setup sets $d_{\textrm{ffn}} = 4d$ . For more recent, larger-scale Transformers, $d_{\textrm{ffn}}$ can be assigned to an even larger value to boost capacity.