1Cademy - Bilingual Sentence Packing for Pre-training

Learn Before

Bilingual Pre-training for Multilingual Models
Cross-Lingual Language Models (XLM)

Activity (Process)

Bilingual Sentence Packing for Pre-training

A specific technique used in bilingual pre-training involves sampling a pair of aligned sentences from two different languages. These sentences are then concatenated to form a single, combined sequence that is used as a training input. This method directly exposes the model to parallel data within a single training instance, facilitating cross-lingual learning.

Updated 2026-04-18

Contributors are: