久草久草欧美看看日毛片|亚洲色情电影在线观看|中国一极毛片爱爱欧美一区|国产精品丝袜美腿|干人人操人人干人人|av黄色无码亚洲v视频|全国一级黄片在哪里看|国产精品av影院|特级一级黄色视频|亚洲黄色导航网站在线观看

當(dāng)前位置: 首頁 ? 資訊 ? 產(chǎn)業(yè) ? 正文

大模型產(chǎn)生幻覺,全怪人類PUA嗎?

作者:江江 來源:差評 115509/10

眾所周知,AI 的能力有多強(qiáng),那它開始胡扯的時(shí)候就有多煩。它既會(huì)一本正經(jīng)的編造著從沒見過的事情。也會(huì)在最簡單的比大小問題上栽跟頭。從兩年前驚艷問世的 ChatGPT、到如今默默落地的 DeepSeek V3.1,沒有一個(gè)大模型,能逃過幻覺這

標(biāo)簽: AI 大模型 幻覺

眾所周知,AI 的能力有多強(qiáng),那它開始胡扯的時(shí)候就有多煩。

它既會(huì)一本正經(jīng)的編造著從沒見過的事情。

也會(huì)在最簡單的比大小問題上栽跟頭。

從兩年前驚艷問世的 ChatGPT、到如今默默落地的 DeepSeek V3.1,沒有一個(gè)大模型,能逃過幻覺這個(gè)坎。

為什么大模型離不開幻覺?

這個(gè)問題本身,在互聯(lián)網(wǎng)上也成了未解之謎,不過上周 OpenAI 的一篇論文里,倒是提出來一個(gè)蠻有趣的觀點(diǎn)。

“造成 AI 幻覺的根本原因,可能是來自于人類訓(xùn)練 AI 的過程”

簡而言之,不是 AI 不行,而是我們訓(xùn)練它的方式不對,都怪我們 CPU 它。

為啥要把這鍋甩給人類?

要回答這個(gè)問題,就得從內(nèi)外兩個(gè)層面來理解大模型。

一方面,大模型訓(xùn)練的機(jī)制就決定了,它們天生就容易產(chǎn)生幻覺,這就是AI幻覺的“內(nèi)憂”

在訓(xùn)練模型的時(shí)候,模型要從海量的文本里,學(xué)到能夠預(yù)測出下一個(gè)單詞的能力。

因此, 只要一句話看起來像是個(gè)人話,那么模型就會(huì)開始學(xué)習(xí)它的結(jié)構(gòu),

但模型有時(shí)候只顧著學(xué)結(jié)構(gòu)了,這句話的內(nèi)容到底對不對,它可分辨不了。

而當(dāng)我們對模型提問的時(shí)候,模型也會(huì)優(yōu)先想著,把這句話給回答個(gè)完整,但問題是,不是所有的提問,都會(huì)有個(gè)明確的答案。

舉個(gè)例子,咱們?nèi)绻贸龌疱伒恼掌瑏碜尨竽P团袛噙@是什么動(dòng)物,那么模型就會(huì)開始分析火鍋的特征,發(fā)現(xiàn)它的毛是金色的,又很長很大只,同時(shí)可能又有 92.5%的概率是只狗。

而模型在過去的學(xué)習(xí)過程中,是能夠從不同的圖片中,學(xué)些到狗子的長相特征的。于是把這些特征給連接起來一判斷,就會(huì)發(fā)現(xiàn)它有很大的概率是一只金毛。

但是如果咱們換個(gè)問題,問它火鍋是哪年哪月出生的,那大模型就直接懵逼了啊,這個(gè)問題,模型肯定沒學(xué)過,光是看圖像,誰也沒法知道這只狗的生日是啥時(shí)候

如果此時(shí)模型還在硬著頭皮回答,隨便編了個(gè)答案拋出來,那就變成了我們常說的幻覺問題了。

產(chǎn)生幻覺,可以說是大模型的天性,或者換個(gè)角度來說,大模型的本質(zhì)就是詞語接龍,只不過答對了的題目會(huì)被我們認(rèn)為是正確,答錯(cuò)了的題目被我們稱之為幻覺。

同時(shí)另一方面,我們現(xiàn)在訓(xùn)練大模型,給模型打分評估的方式,也是的讓模型的幻覺問題變得更加嚴(yán)重的“外患”。

還是剛才那個(gè)問生日的問題,咱們把訓(xùn)練的過程簡化一下:

假設(shè)模型回答對了一個(gè)問題,加一分,回答錯(cuò)了問題則不加分。

那么當(dāng)我們問它火鍋的生日的時(shí)候,如果模型直接選擇擺爛,說不知道,那么它一輩子都只是個(gè)零蛋。

但是如果它開始瞎猜,隨便說個(gè)日期出來,那么可能會(huì)有三百六十五分之一的概率給它蒙對了。

一邊是*失敗,一邊是幾百分之一的概率答對。

只要模型選擇了瞎猜,那么它最后的平均得分,就永遠(yuǎn)都比放棄做答要來的高一些。

所以,為了能讓自己在人類定制的排行榜里刷到更高的分,越來越多的大模型也失去了說:“我不知道” 的權(quán)利,對于追求分?jǐn)?shù)的模型來說,瞎猜成了*的理性選擇,而誠實(shí)則是一種最愚蠢的策略。

OpenAI 的研究人員還觀察了一下目前主流的各類大模型排行榜。

結(jié)果發(fā)現(xiàn)大家都是通過這種“只分對錯(cuò)”的方式,來測試大模型的能力。

本意是用來衡量模型能力的考題,反而變成了促使大模型幻覺的“外患”。

為了驗(yàn)證這種“應(yīng)試思維”到底有多大影響,OpenAI 就拿自己旗下的倆模型做了個(gè)對比,結(jié)果它就發(fā)現(xiàn),在刷題的時(shí)候,老模型 o4-mini 的正確率,甚至還要比新模型 GPT-5 要高了 2 個(gè)百分點(diǎn)。

不過代價(jià)呢,是有四分之三的問題全都答錯(cuò)了,只有 1% 的題目,o4-mini會(huì)干凈利落的承認(rèn)大模型是有極限的。

而 GPT-5 在這方面則是善變的多,遇到自己不會(huì)的問題,會(huì)直接了當(dāng)?shù)某姓J(rèn)自己不知道。

這也是 OpenAI 對 GPT-5 最認(rèn)可的地方,雖然它刷榜考試,面對應(yīng)試教育的能力變差了,但是它學(xué)會(huì)認(rèn)錯(cuò)了呀。

在論文的最后,OpenAI 還搬出來了幾個(gè)有趣的觀點(diǎn):

他們認(rèn)為對大模型來說,幻覺沒有辦法消除,只能想辦法來避免。

因?yàn)椴还苣P痛笮。阉餍畔⒑屯评砦谋镜哪芰τ卸喔?,這個(gè)世界上一定是有問題是沒有答案的。

而面對這些沒有答案的問題,模型要學(xué)會(huì)從應(yīng)試教育中跳出來,勇敢的回答說我不知道。

同時(shí)比起大模型來說,小模型反而更容易意識到自身的局限性。

因?yàn)楹芏嘀R小模型可能根本沒學(xué)過,所以人家反而會(huì)干脆利落的承認(rèn)我不會(huì),但是大模型因?yàn)樯抖紝W(xué)會(huì)了一點(diǎn),所以面對一些題目的時(shí)候可能就會(huì)很自信的 A 上去了 。

結(jié)果沒學(xué)透,反而把問題給答錯(cuò),好事做成了壞事,就變成了幻覺。

最后,作為指導(dǎo)模型的人類,我們也要重新去設(shè)計(jì)評估模型能力的方式,重新設(shè)計(jì)訓(xùn)練模型的體系,來降低模型瞎猜的概率。

看起來是挺有道理的,不過 —— 話又要說回來了。

一個(gè)沒有幻覺的大模型,真的是我們需要的嗎?

換個(gè)角度來說,如果兩年前,大模型對自己不能確定的一切問題,都在會(huì)回答:“對不起,我不知道”,那么這種瘋狂道歉,用戶體驗(yàn)稀爛的 AI,或許根本不會(huì)火起來。

實(shí)際上,這兩年也有越來越多的研究發(fā)現(xiàn),模型的創(chuàng)造力和幻覺,其實(shí)是一個(gè)相輔相成的兩面。

一個(gè)不會(huì)出現(xiàn)幻覺的模型,或許也會(huì)同步失去創(chuàng)造的能力。

就拿剛發(fā)布的 GPT-5 來說,雖然 OpenAI 用了上面提到的很多辦法,讓它出現(xiàn)幻覺的概率降低了。

但是同樣的,整個(gè)模型也變得失去了人味,沒有激情,變蠢了。

原本不少人一天前,還在和 GPT4o 談著甜甜的戀愛呢,結(jié)果一覺醒來,奧特曼把老模型全給砍了。

幻覺概率變少的 GPT-5 變成了一個(gè)冷冰冰的理科生,或許它寫代碼的能力變強(qiáng)了,但是一到了聊聊天,文藝創(chuàng)作這些領(lǐng)域,就變得好像是一個(gè)小腦被閹割的呆子。

這你受得了嗎,于是憤怒的網(wǎng)友們發(fā)起了“拯救 4o” 的網(wǎng)絡(luò)運(yùn)動(dòng)。

鬧到最后,山姆奧特曼也是認(rèn)了慫,給大家重新開放了老模型的權(quán)限。

所以,一味的抑制模型的幻覺,真的是件好事么?

到底是允許模型犯錯(cuò),還是要讓它什么都不做,這或許沒有一個(gè)標(biāo)準(zhǔn)的答案,每個(gè)人的選擇,都各有不同。

或許有一天,用戶真會(huì)嫌棄 AI 太“老實(shí)”,沒有靈氣;

但在另一邊,還有人則更想要一個(gè)可信賴的伙伴。

免責(zé)聲明:本網(wǎng)轉(zhuǎn)載合作媒體、機(jī)構(gòu)或其他網(wǎng)站的公開信息,并不意味著贊同其觀點(diǎn)或證實(shí)其內(nèi)容的真實(shí)性,信息僅供參考,不作為交易和服務(wù)的根據(jù)。轉(zhuǎn)載文章版權(quán)歸原作者所有,如有侵權(quán)或其它問題請及時(shí)告之,本網(wǎng)將及時(shí)修改或刪除。凡以任何方式登錄本網(wǎng)站或直接、間接使用本網(wǎng)站資料者,視為自愿接受本網(wǎng)站聲明的約束。聯(lián)系電話 010-57193596,謝謝。

財(cái)中網(wǎng)合作