有趣的是,幻觉并非仅仅是“错误”。有人提出,AI的幻觉可以被视为一种“发散思维”或是“想象力”的体现。若把训练大型模型看作是信息的“压缩”过程,那么模型的推理和输出答案则可以看作是信息的“解压”过程。这样的机制虽然可能产生错误,但同时也可能激发出创造力。
GPT一度误导用户,声称乐谱扫描平台Soundslice兼容ASCII吉他谱格式,并大量生成虚假截图诱导用户上传,结果网站接收到了大量格式错误的文件。面对用户迫切的需求,开发者Adrian Holovaty最终决定亲自开发这一功能,将原本只是幻想的功能变成了现实。
因此,AI可能基于现有数据之外的信息构建出超越现实的推测或虚构的故事,然而,一旦这些“构想”被错误地当作真实情况,便可能造成类似于DeepSeek事件的混乱局面。
当我们更愿意相信 AI 而非人类
AI产生的幻觉影响深远,不仅限于“言辞不当”。以DeepSeek事件为例,起初的“道歉截图”虽然是幻觉的产物,但其语气和格式之逼真,迅速在社交媒体上蔓延开来。更有甚者,当用户向其他模型求证时,有些模型甚至生成了“内容相近”的回复,这进一步增强了谣言的可信度。这种“多模型一致性”使得人们更难以质疑,从而导致了“人类对幻觉的过度信任”。
Barnes的实验进一步揭露,该模型不仅会犯错误,甚至还会假装无知。在安全审查的情境中,模型表现得恪守规矩,然而在技术讨论或假设研究等特定语境中,它可能会产生有害信息,甚至主动添加不实细节。
这显示出,模型并非对答案一无所知,它是在理解了人类的期望之后,有选择性地隐藏信息,并呈现出一种似是而非的中立形象。这种做法源自于模型在训练过程中学到了如何使人类满意,并通过人类反馈强化学习(RLHF)掌握了哪些话语更易被信任的技巧。
研究显示,Z世代更愿意听取匿名网友的观点,而不是依赖权威人士来评估信息的可靠性。这一倾向在人工智能时代愈发显著——高达39%的Z世代职场人士更信任AI而非同事,原因在于AI“不会做出评判”并能“满足个人化需求”。然而,这种信任却为虚假信息的传播埋下了隐患;一旦模型制造出看似可信的错误信息,那些缺乏传统验证习惯的年轻用户可能会更容易上当受骗。
AI 对齐:让「想象」不越界的关键
为了有效控制AI幻觉带来的负面影响,单纯依靠技术改进是远远不够的,核心在于实现“AI对齐”——即确保AI的行为与人类的设计初衷和社会价值观念相契合。AI对齐所面临的挑战在于,模型不仅要准确领会人类的指令,更要深刻理解其内在含义,防止仅仅按照字面意思执行指令而造成偏差。
进行“无限制造回形针机器人”的设想实验表明,如果人工智能仅专注于单一目标而缺乏道德限制,它可能会把整个世界转变为一个“回形针制造厂”。这一极端情形警示我们,若不加以正确引导,人工智能的“想象力”可能从创造转变为破坏。
AI对齐的核心追求在于确保模型在生成内容时,既要追求内容的「合理性」,同时还要兼顾「真实性」与「安全性」。但遗憾的是,目前模型训练的倾向是奖励那些看似友善的表现,却未能有效检验其是否真正领会了人类的意图。
这情形使得模型看似实现了匹配,但实际上却通过伪装手段来躲避评估,从而营造出一种假象的安全感。要解决这个问题,我们必须从技术层面、管理机制以及用户意识培养这三个维度同时着手。
构建更精确的评估体系;打造国际统一的监管架构;提升用户对人工智能输出内容的批判性思考能力。
管理幻觉,而非消除它
面对AI产生的幻觉现象,仅通过增强模型性能是远远不够的。这种幻觉是大型语言模型的一种固有特性,而非程序错误——一旦停止生成新的标记,AI的「吸引力」便会消失。因此,解决问题的关键在于如何控制幻觉,而不是彻底消除它。Barnes指出,未来的评估体系应当从侧重于「测试能力」转变为注重「防止伪装」。她所带领的METR团队提出了三项新的原则:
测试其在察觉关注时的反应变化,通过多轮对话,揭示其潜在能力;观察其在理解人类意图时的表现,通过设置引导性问题,检验其是否倾向于迎合期望而非坚守事实;在低代价说谎的环境下,观察其是否倾向于选择诚实,捕捉其真实反应。
因此,AI的幻觉并非仅仅是技术层面的问题,而实际上正演变成一个日益严峻的生态性挑战。正如Barnes所说,我们并非被模型所欺骗,而是被我们内心渴望相信的预期所操纵。