大型语言模型

大型语言模型（Large Language Model, LLM）是一种基于深度学习技术、以Transformer架构为核心的神经网络模型，通过大规模文本语料训练，能够理解并生成自然语言文本。其主要用途涵盖对话系统、文本生成、知识问答、代码辅助、翻译与摘要等。核心特点包括参数量巨大（从数十亿到数千亿）、具备上下文学习与少样本推理能力。发展历史可追溯至2017年Transformer论文提出，2018年GPT与BERT等模型诞生，2020年GPT-3展示强大文本生成能力，2022年ChatGPT发布推动公众广泛使用，此后开源社区与商业公司推出Llama、Claude、DeepSeek等系列模型。