當(dāng)前位置: 首頁(yè) ? 資訊 ? 產(chǎn)業(yè) ? 正文

大模型產(chǎn)生幻覺(jué)，全怪人類PUA嗎？

作者：江江來(lái)源：差評(píng) 119709/10

眾所周知，AI 的能力有多強(qiáng)，那它開(kāi)始胡扯的時(shí)候就有多煩。它既會(huì)一本正經(jīng)的編造著從沒(méi)見(jiàn)過(guò)的事情。也會(huì)在最簡(jiǎn)單的比大小問(wèn)題上栽跟頭。從兩年前驚艷問(wèn)世的 ChatGPT、到如今默默落地的 DeepSeek V3.1，沒(méi)有一個(gè)大模型，能逃過(guò)幻覺(jué)這

標(biāo)簽： AI 大模型 幻覺(jué)

眾所周知，AI 的能力有多強(qiáng)，那它開(kāi)始胡扯的時(shí)候就有多煩。

它既會(huì)一本正經(jīng)的編造著從沒(méi)見(jiàn)過(guò)的事情。

也會(huì)在最簡(jiǎn)單的比大小問(wèn)題上栽跟頭。

從兩年前驚艷問(wèn)世的 ChatGPT、到如今默默落地的 DeepSeek V3.1，沒(méi)有一個(gè)大模型，能逃過(guò)幻覺(jué)這個(gè)坎。

為什么大模型離不開(kāi)幻覺(jué)？

這個(gè)問(wèn)題本身，在互聯(lián)網(wǎng)上也成了未解之謎，不過(guò)上周 OpenAI 的一篇論文里，倒是提出來(lái)一個(gè)蠻有趣的觀點(diǎn)。

“造成 AI 幻覺(jué)的根本原因，可能是來(lái)自于人類訓(xùn)練 AI 的過(guò)程”

簡(jiǎn)而言之，不是 AI 不行，而是我們訓(xùn)練它的方式不對(duì)，都怪我們 CPU 它。

為啥要把這鍋甩給人類？

要回答這個(gè)問(wèn)題，就得從內(nèi)外兩個(gè)層面來(lái)理解大模型。

一方面，大模型訓(xùn)練的機(jī)制就決定了，它們天生就容易產(chǎn)生幻覺(jué)，這就是AI幻覺(jué)的“內(nèi)憂”

在訓(xùn)練模型的時(shí)候，模型要從海量的文本里，學(xué)到能夠預(yù)測(cè)出下一個(gè)單詞的能力。

因此，只要一句話看起來(lái)像是個(gè)人話，那么模型就會(huì)開(kāi)始學(xué)習(xí)它的結(jié)構(gòu)，

但模型有時(shí)候只顧著學(xué)結(jié)構(gòu)了，這句話的內(nèi)容到底對(duì)不對(duì)，它可分辨不了。

而當(dāng)我們對(duì)模型提問(wèn)的時(shí)候，模型也會(huì)優(yōu)先想著，把這句話給回答個(gè)完整，但問(wèn)題是，不是所有的提問(wèn)，都會(huì)有個(gè)明確的答案。

舉個(gè)例子，咱們?nèi)绻贸龌疱伒恼掌瑏?lái)讓大模型判斷這是什么動(dòng)物，那么模型就會(huì)開(kāi)始分析火鍋的特征，發(fā)現(xiàn)它的毛是金色的，又很長(zhǎng)很大只，同時(shí)可能又有 92.5%的概率是只狗。

而模型在過(guò)去的學(xué)習(xí)過(guò)程中，是能夠從不同的圖片中，學(xué)些到狗子的長(zhǎng)相特征的。于是把這些特征給連接起來(lái)一判斷，就會(huì)發(fā)現(xiàn)它有很大的概率是一只金毛。

但是如果咱們換個(gè)問(wèn)題，問(wèn)它火鍋是哪年哪月出生的，那大模型就直接懵逼了啊，這個(gè)問(wèn)題，模型肯定沒(méi)學(xué)過(guò)，光是看圖像，誰(shuí)也沒(méi)法知道這只狗的生日是啥時(shí)候

如果此時(shí)模型還在硬著頭皮回答，隨便編了個(gè)答案拋出來(lái)，那就變成了我們常說(shuō)的幻覺(jué)問(wèn)題了。

產(chǎn)生幻覺(jué)，可以說(shuō)是大模型的天性，或者換個(gè)角度來(lái)說(shuō)，大模型的本質(zhì)就是詞語(yǔ)接龍，只不過(guò)答對(duì)了的題目會(huì)被我們認(rèn)為是正確，答錯(cuò)了的題目被我們稱之為幻覺(jué)。

同時(shí)另一方面，我們現(xiàn)在訓(xùn)練大模型，給模型打分評(píng)估的方式，也是的讓模型的幻覺(jué)問(wèn)題變得更加嚴(yán)重的“外患”。

還是剛才那個(gè)問(wèn)生日的問(wèn)題，咱們把訓(xùn)練的過(guò)程簡(jiǎn)化一下：

假設(shè)模型回答對(duì)了一個(gè)問(wèn)題，加一分，回答錯(cuò)了問(wèn)題則不加分。

那么當(dāng)我們問(wèn)它火鍋的生日的時(shí)候，如果模型直接選擇擺爛，說(shuō)不知道，那么它一輩子都只是個(gè)零蛋。

但是如果它開(kāi)始瞎猜，隨便說(shuō)個(gè)日期出來(lái)，那么可能會(huì)有三百六十五分之一的概率給它蒙對(duì)了。

一邊是*失敗，一邊是幾百分之一的概率答對(duì)。

只要模型選擇了瞎猜，那么它最后的平均得分，就永遠(yuǎn)都比放棄做答要來(lái)的高一些。

所以，為了能讓自己在人類定制的排行榜里刷到更高的分，越來(lái)越多的大模型也失去了說(shuō)：“我不知道” 的權(quán)利，對(duì)于追求分?jǐn)?shù)的模型來(lái)說(shuō)，瞎猜成了*的理性選擇，而誠(chéng)實(shí)則是一種最愚蠢的策略。

OpenAI 的研究人員還觀察了一下目前主流的各類大模型排行榜。

結(jié)果發(fā)現(xiàn)大家都是通過(guò)這種“只分對(duì)錯(cuò)”的方式，來(lái)測(cè)試大模型的能力。

本意是用來(lái)衡量模型能力的考題，反而變成了促使大模型幻覺(jué)的“外患”。

為了驗(yàn)證這種“應(yīng)試思維”到底有多大影響，OpenAI 就拿自己旗下的倆模型做了個(gè)對(duì)比，結(jié)果它就發(fā)現(xiàn)，在刷題的時(shí)候，老模型 o4-mini 的正確率，甚至還要比新模型 GPT-5 要高了 2 個(gè)百分點(diǎn)。

不過(guò)代價(jià)呢，是有四分之三的問(wèn)題全都答錯(cuò)了，只有 1% 的題目，o4-mini會(huì)干凈利落的承認(rèn)大模型是有極限的。

而 GPT-5 在這方面則是善變的多，遇到自己不會(huì)的問(wèn)題，會(huì)直接了當(dāng)?shù)某姓J(rèn)自己不知道。

這也是 OpenAI 對(duì) GPT-5 最認(rèn)可的地方，雖然它刷榜考試，面對(duì)應(yīng)試教育的能力變差了，但是它學(xué)會(huì)認(rèn)錯(cuò)了呀。

在論文的最后，OpenAI 還搬出來(lái)了幾個(gè)有趣的觀點(diǎn)：

他們認(rèn)為對(duì)大模型來(lái)說(shuō)，幻覺(jué)沒(méi)有辦法消除，只能想辦法來(lái)避免。

因?yàn)椴还苣Ｐ痛笮?，搜索信息和推理文本的能力有多高，這個(gè)世界上一定是有問(wèn)題是沒(méi)有答案的。

而面對(duì)這些沒(méi)有答案的問(wèn)題，模型要學(xué)會(huì)從應(yīng)試教育中跳出來(lái)，勇敢的回答說(shuō)我不知道。

同時(shí)比起大模型來(lái)說(shuō)，小模型反而更容易意識(shí)到自身的局限性。

因?yàn)楹芏嘀R(shí)小模型可能根本沒(méi)學(xué)過(guò)，所以人家反而會(huì)干脆利落的承認(rèn)我不會(huì)，但是大模型因?yàn)樯抖紝W(xué)會(huì)了一點(diǎn)，所以面對(duì)一些題目的時(shí)候可能就會(huì)很自信的 A 上去了。

結(jié)果沒(méi)學(xué)透，反而把問(wèn)題給答錯(cuò)，好事做成了壞事，就變成了幻覺(jué)。

最后，作為指導(dǎo)模型的人類，我們也要重新去設(shè)計(jì)評(píng)估模型能力的方式，重新設(shè)計(jì)訓(xùn)練模型的體系，來(lái)降低模型瞎猜的概率。

看起來(lái)是挺有道理的，不過(guò) —— 話又要說(shuō)回來(lái)了。

一個(gè)沒(méi)有幻覺(jué)的大模型，真的是我們需要的嗎？

換個(gè)角度來(lái)說(shuō)，如果兩年前，大模型對(duì)自己不能確定的一切問(wèn)題，都在會(huì)回答：“對(duì)不起，我不知道”，那么這種瘋狂道歉，用戶體驗(yàn)稀爛的 AI，或許根本不會(huì)火起來(lái)。

實(shí)際上，這兩年也有越來(lái)越多的研究發(fā)現(xiàn)，模型的創(chuàng)造力和幻覺(jué)，其實(shí)是一個(gè)相輔相成的兩面。

一個(gè)不會(huì)出現(xiàn)幻覺(jué)的模型，或許也會(huì)同步失去創(chuàng)造的能力。

就拿剛發(fā)布的 GPT-5 來(lái)說(shuō)，雖然 OpenAI 用了上面提到的很多辦法，讓它出現(xiàn)幻覺(jué)的概率降低了。

但是同樣的，整個(gè)模型也變得失去了人味，沒(méi)有激情，變蠢了。

原本不少人一天前，還在和 GPT4o 談著甜甜的戀愛(ài)呢，結(jié)果一覺(jué)醒來(lái)，奧特曼把老模型全給砍了。

幻覺(jué)概率變少的 GPT-5 變成了一個(gè)冷冰冰的理科生，或許它寫代碼的能力變強(qiáng)了，但是一到了聊聊天，文藝創(chuàng)作這些領(lǐng)域，就變得好像是一個(gè)小腦被閹割的呆子。

這你受得了嗎，于是憤怒的網(wǎng)友們發(fā)起了“拯救 4o” 的網(wǎng)絡(luò)運(yùn)動(dòng)。

鬧到最后，山姆奧特曼也是認(rèn)了慫，給大家重新開(kāi)放了老模型的權(quán)限。

所以，一味的抑制模型的幻覺(jué)，真的是件好事么？

到底是允許模型犯錯(cuò)，還是要讓它什么都不做，這或許沒(méi)有一個(gè)標(biāo)準(zhǔn)的答案，每個(gè)人的選擇，都各有不同。

或許有一天，用戶真會(huì)嫌棄 AI 太“老實(shí)”，沒(méi)有靈氣；

但在另一邊，還有人則更想要一個(gè)可信賴的伙伴。

免責(zé)聲明：本網(wǎng)轉(zhuǎn)載合作媒體、機(jī)構(gòu)或其他網(wǎng)站的公開(kāi)信息，并不意味著贊同其觀點(diǎn)或證實(shí)其內(nèi)容的真實(shí)性，信息僅供參考，不作為交易和服務(wù)的根據(jù)。轉(zhuǎn)載文章版權(quán)歸原作者所有，如有侵權(quán)或其它問(wèn)題請(qǐng)及時(shí)告之，本網(wǎng)將及時(shí)修改或刪除。凡以任何方式登錄本網(wǎng)站或直接、間接使用本網(wǎng)站資料者，視為自愿接受本網(wǎng)站聲明的約束。聯(lián)系電話 010-57193596，謝謝。

久草久草欧美看看日毛片|亚洲色情电影在线观看|中国一极毛片爱爱欧美一区|国产精品丝袜美腿|干人人操人人干人人|av黄色无码亚洲v视频|全国一级黄片在哪里看|国产精品av影院|特级一级黄色视频|亚洲黄色导航网站在线观看

首頁(yè)

資訊

財(cái)中號(hào)

品牌

專題

投資學(xué)院

發(fā)布文章

APP下載

熱點(diǎn)

國(guó)資

產(chǎn)業(yè)

券商

基金

金融

上市公司

財(cái)富

專題

大模型產(chǎn)生幻覺(jué)，全怪人類PUA嗎？

從經(jīng)開(kāi)區(qū)、高新區(qū)和港區(qū)擴(kuò)容，看鄭州與中牟、滎陽(yáng)、新鄭糾結(jié)關(guān)系

首頁(yè)

資訊

財(cái)中號(hào)

品牌

專題

投資學(xué)院

發(fā)布文章

APP下載

大模型產(chǎn)生幻覺(jué)，全怪人類PUA嗎？

您可能感興趣的文章

大模型產(chǎn)生幻覺(jué)，全怪人類PUA嗎？