使用 ChatGPT 等生成式 AI 时,经常遇到它编造虚假事实、引用不存在的文献或数据的情况(即 “AI 幻觉”),这种现象的根源是什么?有哪些有效的解决办法?
答:AI 幻觉是生成式 AI 的核心痛点,其产生是技术原理、训练数据、模型设计等多因素共同作用的结果,目前已有一系列针对性解决方案,具体分析如下:
一、AI 幻觉的三大核心成因
生成式 AI 的本质是 “基于训练数据的概率性文本生成”,而非 “查询事实数据库并返回答案”。模型在生成内容时,优先保证 “语法通顺、逻辑连贯”,而非 “事实准确”。例如,当用户询问 “2023 年中国 GDP 增长率是多少” 时,若模型训练数据中没有明确的 2023 年数据,它会基于历史数据(如 2022 年 3%、2021 年 8.1%)“猜测” 一个合理数值(如 5%),并编造看似真实的表述(如 “根据国家统计局数据,2023 年中国 GDP 增长率为 5.2%”),形成幻觉。
生成式 AI 的训练目标(如交叉熵损失函数)主要优化 “生成内容的流畅度和连贯性”,而没有专门的 “事实准确性” 优化目标。在训练过程中,模型会优先学习 “如何生成让人类觉得流畅的内容”,而忽略事实是否准确。例如,模型会倾向于生成 “具体、详细的表述”(如 “引用《自然》杂志 2023 年第 5 期论文”),因为这种表述更流畅、更像 “专业答案”,即使该论文并不存在。
二、减少 AI 幻觉的四大有效方案
现状与展望:幻觉无法完全根除,但可大幅降低
目前,通过 RAG 技术、增量训练等方案,AI 幻觉发生率已显著降低(如 ChatGPT-4 的幻觉率较 GPT-3.5 下降约 40%)。但由于生成式 AI 的概率生成本质,幻觉无法完全根除,未来的优化方向是 “让 AI 知道自己不知道”,并引导用户合理使用 AI,将其作为 “辅助工具” 而非 “事实来源”。