打开/关闭菜单
打开/关闭外观设置菜单
打开/关闭个人菜单
未登录
未登录用户的IP地址会在进行任意编辑后公开展示。

网站测试中,如需帮助或提出建议
联系维护员 @天明

大型语言模型

来自Ac-Wiki

大型语言模型(Large Language Model, LLM)是一种基于深度学习技术、以Transformer架构为核心的神经网络模型,通过大规模文本语料训练,能够理解并生成自然语言文本。其主要用途涵盖对话系统、文本生成、知识问答、代码辅助、翻译与摘要等。核心特点包括参数量巨大(从数十亿到数千亿)、具备上下文学习与少样本推理能力。发展历史可追溯至2017年Transformer论文提出,2018年GPTBERT等模型诞生,2020年GPT-3展示强大文本生成能力,2022年ChatGPT发布推动公众广泛使用,此后开源社区与商业公司推出LlamaClaudeDeepSeek等系列模型。