3月15日时文讨论: 如何看待AI“一本正经胡说八道”
-
[时文讨论]预习: 如何看待AI“一本正经胡说八道”
阅读以下文章,请你联系自己使用AI的经历,分享对下面问题的想法:- 你在使用AI时,有没有遇到过“AI幻觉”?根据文章,AI幻觉产生的原因是什么?你觉得,AI有没有“智能”(它理解吗?)?
- 这篇文章有没有解决你对于AI的困惑?假如你有机会与AI领域的专家深入交流AI,你会问专家哪些问题?请列出你好奇的问题。
为什么我的DeepSeek总在一本正经胡说八道?
原创 antares 三联生活周刊 2025年03月04日 22:01 北京我有一位朋友小G,身为博物馆策展人,受过良好学术训练的她对历史考据严谨到近乎偏执。两年前,ChatGPT崭露头角,不少人陷入职业焦虑,小G却毫不在意,她将这类AI统统称为“人工智障”,觉得它们输出的内容既浅薄又荒谬,根本无法撼动她在专业领域的自信。但随着DeepSeek重掀热潮,被工作deadline逼得焦头烂额的小G,也不得不向AI求助了。她要为历史展品编写通俗易懂的场景解说,便向DeepSeek询问:“请从钱庄伙计的视角,讲讲在没有科技设备的年代,在工作中会遇到哪些困难。”
很快,DeepSeek便交出一份“钱庄工作手记”,其中详细描写了“天未亮就要在桐油灯下核对账目”的年轻伙计,“用长柄放大镜查验银票边角的暗记纹路”的掌柜师傅,甚至还提到了“苏漕平每百两扣二钱五”这样的专业细节,想想看,“苏漕平” 可不是一般人能知晓的术语(注:漕平,旧时征收漕银的衡量标准,各地标准不同,一般冠以地名)。这让小G眼前一亮,她在聊天群里兴奋夸赞:“确实启发效果不错,比以前的人工智障强多了!”然而,仅仅5小时后,她的态度就来了个180度大转弯:“好多内容是它瞎编的!给我编了个钱庄使用的套色密押印章组,本来还觉得很有道理,但仔细一查,根本就没有这个东西……”不甘心的小G试图要求AI在生成文本时同时提供参考文献,可新生成的说明里,不仅“骑缝章”“法币券”等真实元素与“验钞机”“美钞暗记对照表”等虚构情节交织,给出的参考文献更是子虚乌有,小G只能无奈吐槽:“结果现在我现在不得不给它写的东西做一轮事实验证,我又不是它导师……”被AI坑过的不止小G。随着生成式AI的普及,越来越多的人发现,表面上无所不知的AI,有时会煞有介事地编造看似合理实则虚假的内容。这种现象,被研究者们称为“AI幻觉”(AI Hallucinations)。
“AI幻觉”从何而来 ?
要明白“AI幻觉”,得先搞清楚生成式AI的工作原理。很多人从新闻中的“大语言模型”一词展开想象,以为ChatGPT或DeepSeek像是一个拥有庞大数据库的搜索引擎,能像翻书查文献一样给我们的问题提供准确答案。但其实,今天的生成式AI更像是一个沉浸在语料库海洋中学习说话的学习者,它不是在查找答案,而是在预测,下一个要说的最合理的词应该是什么。这个学习者有专属的大脑结构,那就是Transformer深度学习模型,它于2017年被提出,是如今主流生成式AI们使用的基础模型,在传统机器学习的基础上它改善了性能,并大幅提升了并行运算的效率,因此才可以基于这种架构训练出参数数量巨大的模型,比如DeepSeek的V3满血版拥有高达6710亿个参数,所谓“大语言模型”的“大”字就是由此而来。Transformer处理语言时,会首先把输入的句子拆成一组包含位置信息的词元(token),并用数字对词元编码方便计算机处理。一个词元可能是一个单词,也可能是一个词根、数字或标点等类似单词的东西,比如“生成式AI”可能被拆为“生成”“式”“A”“I”,Transformer可能被拆成“Trans”“former”,这种拆分能让AI更灵活地处理各种语言。
Transformer模型的核心是attention注意力机制,在处理好词元后,它会对输入句子中的每个词元计算上下文中的哪些词元与它相关,即 “该注意” 的内容,借此捕捉句子中远距离词语的联系。想象一下你读到 “阴雨连绵,小伙计仍然要……”这半句话时,大脑会关注 “阴雨”,并依据“仍然”的转折语义,推断接下来小伙计应该不会进行一个适宜雨天的行为,由此判断后面可能出现“出门”之类的户外行动。AI的注意力机制也是如此,分析词元关联,确定“注意”重点,综合注意力权重产生新的语义向量,最终输出基于前文预测的下一个词元的概率分布。AI训练时用了大量高质量文本和书籍等资源,最基本的训练任务就是从这些文本中摘取段落,让模型尽可能准确地预测后续应该出现的词元。之后还会对模型应用领域内的相关文本进行微调。所以,从内部结构到训练过程,AI都没有“理解词意”这一步。它只是模仿训练集中的文本续写文字。人类回答问题时会试图基于知识进行联想推理,而AI则基于训练数据中观察到的语言模式生成答案,它不理解问题,只是按统计规律给出看似合理的输出,因此也有研究者用 “随机鹦鹉” 形容大语言模型的这一特性。这就解释了小G为何会得到“套色密押印章组”这种幻觉回答。AI处理晚清钱庄历史问题时,注意力机制关联训练数据中与“钱庄”“防伪”等相关的所有信息。但它不理解词元的含义,也不区分信息真假,仅按统计关联性选择看似“最可能”的组合。训练数据里,古代金融机构需要防伪,印章是认证工具,套色是印刷技术,密押是银票防伪暗记,这些碎片信息被概率重组,就创造出了看似专业合理实际并不存在的历史细节。
由于模型本身和训练时都未要求AI识别词意,所以它自然容易出现事实错误,尤其是当用户询问训练数据中无直接答案的问题时更是如此。其实,胡说八道并不是Transformer模型的专利,在它之前的循环神经网络模型或者更早的N-tuple,也都能按要求格式生成不存在的文言文、维基词条或网站链接。相对来说,Transformer模型所生成的胡说八道其实比以前更少而不是更多了。只是由于它性能更强,生成内容更像回事,即便有错误也易混在通顺上下文中蒙混过关,所以才引起了更多人的关注。DeepSeek的幻觉率最高?
在众多生成式AI中,DeepSeek系列模型在很多方面表现出色,但“幻觉”问题也饱受诟病。根据Vectara HHEM人工智能幻觉测试,推理模型DeepSeek - R1(R1)的幻觉率达14.3%,是其基座模型DeepSeek - V3的近4倍,远超行业平均水平。这也引发了关于模型推理能力与幻觉率关系的讨论:是否模型推理能力越强,越容易出现幻觉?其实,推理能力与幻觉率并非简单的正相关或负相关。例如,对比同一系列里有思维链能力的推理模型和通用大模型的话,DeepSeek的推理模型R1跟基座大模型V3相比,R1推理能力更强,幻觉率也显著提高;而Chatgpt的推理模型o1,比通用模型4o推理能力更高,幻觉率却更低。所以,不能简单认为推理能力越强,幻觉率就越高。
这种矛盾的现象表明,影响AI幻觉率的因素很复杂,可能与模型训练数据、优化目标、架构设计等多方面有关,并非仅和推理能力相关。一个合理的推测是,某些推理模型在优化思维链和逻辑推理能力时,可能牺牲了对事实准确性的严格要求,或者增强了模型“自圆其说”的能力,从而产生更具迷惑性的幻觉。有什么办法能消除幻觉吗?
有一种常见说法,降低大语言模型的“温度”参数就能消除幻觉。温度参数一般不在生成式AI用户界面(如网站或APP)直接显示,自己搭建本地模型或利用 API 接口时才能看到。这个参数决定预测词元概率的集中或分散程度。比如前文是 “猫吃了……”,模型预测下文概率从高到低可能是“鱼”“罐罐”“老鼠”“毛团”“一惊”等。温度越高,输出概率越分散,“一惊”这种低概率结果出现可能性越大,也就是模型的回答会更有创意;温度越低,输出概率越集中,若设为0,则回答理论上一定是概率最高的“鱼”。但如果认为把温度设为0幻觉就会消失,则是错误的。因为AI回答仍受训练数据影响,若模型算出的最高概率下文有误,温度为0时仍会产生幻觉,而且是 “必然”产生。另一种说法是用外部记忆加指令限制可消除幻觉,即给大语言模型加载各种具有准确信息的知识库,接到用户指令后,模型会先在知识库中查询与问题相关的信息,然后在检索得出的上下文词元基础上再去计算概率生成文本。但实际上,这也不能完全消除幻觉,因为这种流程仍需大语言模型依赖训练集中学习的概率进行总结提炼,它仍可能产生与知识库不符的答案。当然,这些方法都能在一定程度上降低幻觉,但彻底消除幻觉并不现实。模型从训练到运行,每一步都可能引入幻觉。训练集本身可能有错误、偏向或虚构内容,训练过程要在准确性与过拟合间平衡,用户输入也可能有诱导性或无法回答的问题,模型对用户意图判断也可能出错。
或许有人设想,在理想场景下,训练集只含真实完备资料,用户问题都能在其中找到答案,且模型训练完全准确,这样的大模型是否就不会产生幻觉?但如此一来,它就只是单纯查阅训练集,失去了额外的价值。创造力和幻觉:一体两面?
理解了AI的工作方式,就能看清两种常见却相互矛盾的误解,它们都源于对AI本质的误解。第一种误解认为AI只会复制拼接,没有真正创造力,觉得AI只是重组训练数据,拼接知识碎片,创造不出新东西,认为它是高级复制粘贴工具。第二种误解则相反,期待AI永远准确无误,一旦发现AI编造内容就愤怒,仿佛AI是知识的绝对守护者。但实际上,创造力和幻觉是一枚硬币的两面,从技术角度看机制完全相同,都是基于已有知识和概率分布生成语言,区别只在于用户期望和应用场景:在创意性任务中,我们希望AI有 “创造力”;事实性任务中,我们希望它“准确”。与其期待用巧妙方法彻底消除大语言模型的幻觉,不如学会与之共处,选择更明智灵活的使用方式。例如,别问太模糊或误导性问题,通过联网功能和特定提示词限制回答范围,为AI提供更准确信息源等等。最重要的是,始终保持独立思考的能力,对AI答案持谨慎怀疑态度。在熟悉领域很容易识别幻觉,但在陌生领域,我们往往轻信AI的权威性,这恰恰是最危险的。在信息爆炸时代,辨别信息真伪的能力比获取信息的能力更宝贵。
当然,换个浪漫视角思考,人类的创造力是否也是幻觉的另一种表达?那些一闪而过的天才直觉,不也是基于知识累积的灵感?AI那些被视为“错误”的回答,是否展示了平行宇宙的其他可能性?或许在另一个时空,真有小伙计发明了 “套色密押印章组”,在小G的博物馆里,它正等待着来访者好奇的目光?毕竟,连爱因斯坦也真的说过:“想象力比知识更重要” 。 -
问题一:你在使用AI时,有没有遇到过“AI幻觉”?根据文章,AI幻觉产生的原因是什么?你觉得,AI有没有“智能”(它理解吗?)?
有,比如在做行走调查报告施工方案的时候,AI妄图使用3根螺栓和一桶环氧树脂胶来固定一根三米高的混凝土石柱……
原因在于它不具有连贯性的思维,而是即时地生成随机字符串的一种方式回答问题。
虽然R1会在回答之前列出思考路径,但是都是基于已有材料的分析,而没有思考和延展。问题二:这篇文章有没有解决你对于AI的困惑?假如你有机会与AI领域的专家深入交流AI,你会问专家哪些问题?请列出你好奇的问题。
解决了一部分,或者说提醒我在使用AI时应该注意什么。
我的问题:deepseek等前沿的AI能否通过图灵测试?如果AI选择诚实而非伪装,是否意味着它“失败”了?
AI在生物学和科学意义上属不属于硅基产物?未来能否搭载在像硅基生物体一类的载体上? -
- 你在使用AI时,有没有遇到过“AI幻觉”?根据文章,AI幻觉产生的原因是什么?你觉得,AI有没有“智能”(它理解吗?)?
遇到过,我认为原因之一可能是互联网上的训练数据可能存在一些错误、偏见或不完整,导致AI模型学习到错误的信息。AI似乎只是一个类似通过大数据和模式匹配生成内容的工具,而不是像人类一样用逻辑思考问题。 - 这篇文章有没有解决你对于AI的困惑?假如你有机会与AI领域的专家深入交流AI,你会问专家哪些问题?请列出你好奇的问题。
文章确实解决了我对于AI不合常理回答的困惑。
好奇的问题:
未来是否有技术能让AI像人类一样真正理解问题,而不仅仅是基于规律生成答案?
AI将来会不会逐渐取代人类?
将来有没有可能出台关于AI的相关法律?
- 你在使用AI时,有没有遇到过“AI幻觉”?根据文章,AI幻觉产生的原因是什么?你觉得,AI有没有“智能”(它理解吗?)?
-
1.你在使用AI时,有没有遇到过“AI幻觉”?根据文章,AI幻觉产生的原因是什么?你觉得,AI有没有“智能”(它理解吗?)?
根据文章我认为Ai幻觉产生是因为当前的Ai并不是为我们而查找答案,而仅仅是在预测。Ai没有真正意义上的“智能”,它不理解问题和知识,只是基于训练数据中的语言模式生成答案。他不理解词元的含义也不区分信息真假,仅安统计关联性选择看似最可能的组合。而各种新型的Ai因为他们的性能强,生成内容因此更像回事。即使有了错误也容易混在通顺上下文中蒙混过关,所以才引起了更多人的关注。
2.这篇文章有没有解决你对于AI的困惑?假如你有机会与AI领域的专家深入交流AI,你会问专家哪些问题?请列出你好奇的问题
在当代ai的搜索机制下,ai能否分辨什么是想象?什么是客观的真理? -
1.你在使用AI时,有没有遇到过“AI幻觉”?根据文章,AI幻觉产生的原因是什么?你觉得,AI有没有“智能”(它理解吗?)?
我遇到过,比如在AI软件里问草莓的英语有几个r,它的回答是有两个,但是strawberryp拼写中却有三个r。我还看过类似报道,有人已经用AI看病了,但是存在瞎编药物名称和医疗建议,整合诊断和建议看似很合理,却把一些错误的不存在的信息描述出来了,让人误导。我觉得AI幻觉产生的原因,是因为它并不理解我们的问题,只是按统计规律给出了看似合理的输出,以及数据本身就有错误的信息。我认为AI没有“智能”,只是基于一些大数据,提供具体理论和方案,根据关键词把数据抓取出来,不能判断出信息的真假与对错,所以不存在“智能”。2.这篇文章有没有解决你对于AI的困惑?假如你有机会与AI领域的专家深入交流AI,你会问专家哪些问题?请列出你好奇的问题。
这篇文章解决了我对AI的一部分困惑。如果我和专家交流,我会问能不能让AI更加准确严谨?AI数据的可靠性该怎么去衡量?是否可以按照它的优势来进行运用?比如在罕见病的诊断上,可能AI就有优势,可以将极少数的病例汇总,来帮助医师更快的诊断。 -
1.你在使用AI时,有没有遇到过“AI幻觉”?根据文章,AI幻觉产生的原因是什么?你觉得,AI有没有“智能”(它理解吗?)?
目前还没有…我认为是因为AI的本质是通过大量计算和海量的网络文章“学习”的语言模仿,而他们是无法真正理解知识的。当ai模型遇到训练数据或网络资料中未覆盖或矛盾的内容时,会基于概率去拼凑这些“看似合理”的答案,就给人以“一本正经胡说八道”的感觉。
2.这篇文章有没有解决你对于AI的困惑?假如你有机会与AI领域的专家深入交流AI,你会问专家哪些问题?请列出你好奇的问题
解决了不少,也稍微给我科普了一下。一个比较实际的问题:当AI幻觉导致事实性错误传播时,责任应如何划分(开发者/用户/平台)?当ai在生活中的普及性越来越强,我们又应该如何去衡量对于ai的使用?(是否有具体的能使ai稳定发展并可靠使用的岗位?) -
1.你在使用AI时,有没有遇到过“AI幻觉”?根据文章,AI幻觉产生的原因是什么?你觉得,AI有没有“智能”(它理解吗?)?
我之前也遇到过AI幻觉,这种幻觉主要的产生原因就是AI的transformer模型让AI在思考的时候不是以句子为单位,而是以词语为单位,再根据词语,结合注意力机制去组成相应的回答,这些回答之间可能毫无关联性,是因为AI的生成过程中没有“理解词义”的部分,也相对应的,就不能理解输入的内容本质是什么。2.这篇文章有没有解决你对于AI的困惑?假如你有机会与AI领域的专家深入交流AI,你会问专家哪些问题?请列出你好奇的问题。
说实话,没有(因为我之前看过一些国外的外刊文章,这篇文章讲到的内容也基本差不多)。
问题:
1.现有的transport模型,能否有做出真正有思考能力的架构
2.注意力机制是现在AI的最优解?
3.对于所谓的“AI幻觉”,能不能通过early fusion(前融合)的方式进行解决?
4.AI的数据越多,出错的概率是会变高还是变低
5.AI的数据能否在录入前进行筛查(至少剔除客观错误) -
1.你在使用AI时,有没有遇到过“AI幻觉”?根据文章,AI幻觉产生的原因是什么?你觉得,AI有没有“智能”(它理解吗?)?
我目前还没有遇到过因为处理文字有误而导致的“AI幻觉”,但是最近在用它写班级活动总结的时候,它确实会给出很多不符合高中生背景的“一眼假”内容,可能和它被喂的语料库有关吧。根据文章,AI幻觉产生的原因是主流模型处理数据的方式。它的“理解”是先破句再编码处理。我觉得目前不能算有“智能”,只能说是模仿人脑的学习方式,根据语料库用代码生成一段文字。
2.这篇文章有没有解决你对于AI的困惑?假如你有机会与AI领域的专家深入交流AI,你会问专家哪些问题?请列出你好奇的问题。
我好奇,如果医生利用ai诊断导致误诊,或是其它使用AI辅助工作但是出错的情况,应该如何归责? -
你在使用AI时,有没有遇到过“AI幻觉”?根据文章,AI幻觉产生的原因是什么?你觉得,AI有没有“智能”(它理解吗?)?
我很少使用AI,有的时候主要是寻找一些专业性的资料没有找到才去问AI。所以我通常都没有遇到过。对我来说AI可能更像是一个图书管理员。它通过分析你语句中的关键词把你可能想要的资料混合在一起。或者说是一个只会套公式的学生。我觉得AI是不算是智能的。
这篇文章有没有解决你对于AI的困惑?假如你有机会与AI领域的专家深入交流AI,你会问专家哪些问题?请列出你好奇的问题。
1、对于那些比较依赖 AI 进行决策的领域,如何建立有效的监督和审核机制,确保 AI 输出的信息准确可靠,避免因 AI 幻觉导致严重的后果?
2、目前有没有正在研究的、更有效的方法来大幅降低 AI 幻觉的出现概率,而不仅仅是在一定程度上缓解?
3、随着 AI 技术的不断发展,未来 AI 是否有可能在不牺牲其生成能力的前提下,真正实现对词意的理解和对问题的思考,从而从根本上解决 AI 幻觉的问题? -
1.你在使用AI时,有没有遇到过“AI幻觉”?根据文章,AI幻觉产生的原因是什么?你觉得,AI有没有“智能”(它理解吗?)?
有。我在问他某项赛事的预测时他将一个已经淘汰的队伍认作冠军。就是他们会根据问题几个词语来选出概率最高的词语,从而形成回答,导致很可能会将几个互不关联的词连在一起。我觉得deepseek似乎主要是根据查询到的网页来回答的,他只是把几个网页的关键信息整理了出来,所以它应该是可以理解的,不然它没法鉴别信息的真伪和准确性
2.这篇文章有没有解决你对于AI的困惑?假如你有机会与AI领域的专家深入交流AI,你会问专家哪些问题?请列出你好奇的问题。
大概可以,我就是比较好奇ai写作的原理是什么 -
阅读以下文章,请你联系自己使用AI的经历,分享对下面问题的想法:
1、你在使用AI时,有没有遇到过“AI幻觉”?根据文章,AI幻觉产生的原因是什么?你觉得,AI有没有“智能”(它理解吗?)?
有,而且不少。幻觉产生的原因是ai生成文字其实是通过学习的大量相似语境生成下一个字而形成的。很明显,这个问题我们先需要解释什么是理解,我不太懂脑科学,可是人类的理解也是个很神奇的过程,扪心自问我们自己怎么知道自己有没有理解这个词语,ai也可以把这些词语用出来……
2、这篇文章有没有解决你对于AI的困惑?假如你有机会与AI领域的专家深入交流AI,你会问专家哪些问题?请列出你好奇的问题。
1、ai是否可能不用文字而直接由文图结合的方式进行思考,即用来判定的媒介不仅仅是文字还有图像……这样就可以更加接近人脑的“思考”功能。
2、为什么不能直接把事实的输出写作优先级最高的? -
你在使用AI时,有没有遇到过“AI幻觉”?根据文章,AI幻觉产生的原因是什么?你觉得,AI有没有“智能”(它理解吗?)?
当问同类型的问题时,ai生成的答案是一个统一的模板,给你一个看似合理的回答,但它似乎并不理解真正的内容,也无法判断真假。它仅仅是利用大量的数据进行组合和模仿。这篇文章有没有解决你对于AI的困惑?假如你有机会与AI领域的专家深入交流AI,你会问专家哪些问题?请列出你好奇的问题。
这篇文章让我理解了一些ai为什么会“胡说八道”,因为它并不是真的知道答案。
随着AI的普及,怎么防止它被滥用?
随着科技发展,AI会不会真的理解内容?是否能像人类一样思考? -
预习作业1:
遇到过AI幻觉。我认为,AI幻觉产生的原因是AI的模型不具备“理解词意”的功能,无法理解人类所给出的指令的含义。它只是将指令拆分成词元,并预测看似“最可能”的组合,而不在意它的真实性,所以会出现许多子虚乌有的信息。我觉得AI没有“智能”,它不能理解我们的意思。因为AI只是一个推理模型,它根据输入的数据和信息,通过算法进行预测和推断。虽然AI在某些任务上表现得非常出色,甚至超过了人类,但这并不意味着AI具有真正的“智能”。它无法像人类一样理解复杂的情感、价值观和道德准则。
预习作业2:
并没有完全解决。我会问:1.AI是如何从6710亿个参数中快速找出回答?
2.AI在处理信息时,是否会受到预设偏见的影响,从而导致结果的不公正?
3.随着技术的发展,AI是否有可能在未来具备真正的“智能”,甚至超越人类的智能水平? -
问题一:
我在使用AI的时候也遇到过AI的大模型幻觉,而根据文章,AI的幻觉根源其实并不是我搜索的信息流,而是AI特殊的处理问题的形式——transformer。它在处理词的时候,会将各种词拆解成一个个包含位置信息的词源,这样可以方便进行数字编程和计算处理,让AI更灵活地处理各种语言。但是由于这种拆分,AI并不会进行理解词义这个步骤,它更像是在进行一种预测。在这个过程中,它按照统计的相关数据选择它认为是最可能的组合,但并没有考虑其真正的含义或引申义。它的答案都是基于概率分布去看待重点,只能尽量准确地预测后续应出现的单词或词句。它只是在模仿基本的训练,然后尽可能准确地进行文本续写。所以我觉得AI其实并没有智能,虽然它深沉的话语充满了人情味,感觉就像一个真人在和你说话,理解的程度也很深,但是它就是一个计算机,把训练存储的数据一一提取出来,组成句子,看似十分精准,但是它并不理解所回答的问题,不能说它智能。
问题二:这篇文章更加完善了我对AI大模型幻觉的理解。倘若我能与AI领域的专家进行深入交流,我会问以下这几个问题:
(1)有什么办法能让我更方便地找出AI大模型产生幻觉的错误之处?
(2)将AI大模型的训练内容进行修正或者升级,能不能降低大模型出现幻觉的概率?(3)可不可以将AI大模型独特的transformer系统进行改变或者升级来降低大模型幻觉的概率?AI的前景如何?