大型语言模型
来自Ac-Wiki
更多操作
大型语言模型(Large Language Model, LLM)是一种基于深度学习技术、以Transformer架构为核心的神经网络模型,通过大规模文本语料训练,能够理解并生成自然语言文本。其主要用途涵盖对话系统、文本生成、知识问答、代码辅助、翻译与摘要等。核心特点包括参数量巨大(从数十亿到数千亿)、具备上下文学习与少样本推理能力。发展历史可追溯至2017年Transformer论文提出,2018年GPT与BERT等模型诞生,2020年GPT-3展示强大文本生成能力,2022年ChatGPT发布推动公众广泛使用,此后开源社区与商业公司推出Llama、Claude、DeepSeek等系列模型。