Transformer

Transformer 是一种基于自注意力机制的神经网络架构，由 Vaswani 等人在 2017 年论文《Attention Is All You Need》中首次提出。最初用于机器翻译任务，其核心特点是摒弃了循环和卷积结构，通过多头注意力机制并行处理序列数据，解决了长距离依赖问题。Transformer 后续被广泛应用于自然语言处理、计算机视觉、语音识别等领域，成为 BERT、GPT 等主流模型的基础架构。随着预训练范式的兴起，Transformer 推动了大规模语言模型的发展，并逐步拓展至多模态任务。