多模态

多模态是指人工智能领域同时处理并融合多种数据类型（如文本、图像、音频、视频）的技术。其核心特点是能够跨模态进行理解与生成，实现更丰富的信息交互，常见应用包括视觉问答、图文检索、图像描述生成等。早期多模态研究以传统机器学习方法为主，2010年代后期随着Transformer架构兴起，模型如CLIP、DALL-E、Flamingo推动该领域快速发展。2023年以来，多模态大模型成为主流方向，被广泛应用于内容生成、自动驾驶、医疗影像分析等场景。