Transformer 是一种基于自注意力机制的神经网络架构,由 Vaswani 等人在 2017 年论文《Attention Is All You Need》中首次提出。最初用于机器翻译任务,其核心特点是摒弃了循环和卷积结构,通过多头注意力机制并行处理序列数据,解决了长距离依赖问题。Transformer 后续被广泛应用于自然语言处理、计算机视觉、语音识别等领域,成为 BERT、GPT 等主流模型的基础架构。随着预训练范式的兴起,Transformer 推动了大规模语言模型的发展,并逐步拓展至多模态任务。