打开/关闭菜单
打开/关闭外观设置菜单
打开/关闭个人菜单
未登录
未登录用户的IP地址会在进行任意编辑后公开展示。

网站测试中,如需帮助或提出建议
联系维护员 @天明

Transformer

来自Ac-Wiki

Transformer 是一种基于自注意力机制的神经网络架构,由 Vaswani 等人在 2017 年论文《Attention Is All You Need》中首次提出。最初用于机器翻译任务,其核心特点是摒弃了循环和卷积结构,通过多头注意力机制并行处理序列数据,解决了长距离依赖问题。Transformer 后续被广泛应用于自然语言处理、计算机视觉、语音识别等领域,成为 BERTGPT 等主流模型的基础架构。随着预训练范式的兴起,Transformer 推动了大规模语言模型的发展,并逐步拓展至多模态任务。