當前位置: 首頁 ? 資訊 ? 熱點 ? 正文

OpenAI勁敵丟炸彈，新一代大模型性能超越GPT-4o

作者：Jessica 來源：硅星人 232006/23

今天， OpenAI勁敵Anthropic忽然丟炸彈，發(fā)布下一代旗艦大模型Claude 3.5 Sonnet。3個月前Claude 3曾艷壓全場，首次讓大批用戶有了超越GPT-4的推背體驗。這次作為最新升級，也是即將推出的Claude 3.

標簽： Claude 3.5 Sonnet 大模型 AI

今天， OpenAI勁敵Anthropic忽然丟炸彈，發(fā)布下一代旗艦大模型Claude 3.5 Sonnet。

3個月前Claude 3曾艷壓全場，首次讓大批用戶有了超越GPT-4的推背體驗。這次作為最新升級，也是即將推出的Claude 3.5全系列中*版本，Anthropic更是自豪地稱Claude 3.5 Sonnet已領(lǐng)跑全行業(yè)智能水準，不僅在廣泛評估中勝過GPT-4o等一眾競爭對手，也保持了中端模型Sonnet的*性價比。

價格上，Claude 3.5 Sonnet每百萬輸入3美元，每百萬輸出15美元，只有上一代超大杯Opus的1/5，運行速度卻是它的兩倍，并擁有20萬 token上下文窗口。

現(xiàn)在所有用戶都可以登錄Claude.ai和移動客戶端免費體驗新模型，訂閱用戶將獲得更高訪問權(quán)限（官方稱比免費版5倍好用）。也可以通過Anthropic API、Amazon Bedrock等平臺獲得。

一向眼疾手快的Poe表示，已經(jīng)安排上了。

速度翻倍，寫作更自然、編程更智能

具體來看性能表現(xiàn)。Claude 3.5 Sonnet在研究生級推理能力(GPQA)、本科生級知識(MMLU)和編程能力(Humaneval)方面樹立了新的行業(yè)基準。在把握語義的細微差別、幽默和復雜指令上有顯著改進，能以更自然、親和的語氣輸出高質(zhì)量的寫作內(nèi)容。

代碼方面表現(xiàn)優(yōu)異。在團隊考察AI能否根據(jù)文字需求改進代碼的內(nèi)部編程測試中， Claude 3.5 Sonnet成功解決了64%的問題，而Claude 3 Opus只解決了38%。研究人員發(fā)現(xiàn)，只要給Claude 3.5 Sonnet清晰的指令和必要工具, 它就能獨立編寫、編輯和執(zhí)行代碼，并具備復雜推理和故障排除能力。并能輕松處理代碼翻譯，特別適合更新遺留應(yīng)用程序和遷移代碼庫。

Anthropic開發(fā)者關(guān)系工程師Alex Albert表示，Claude在編寫代碼和自主修復pull requests方面變得非常出色?！帮@然，一年之后，大部分代碼將由大語言模型編寫?！?/p>

他在日常工作中發(fā)現(xiàn)，代碼測試和修復通常比編寫本身更花時間。此時Cloud 3.5 Sonnet可以充當一個成熟的編程代理。Albert在視頻中展示了如何在最少輸入和沒有互聯(lián)網(wǎng)訪問的沙盒環(huán)境下，借助Claude將一個裁切圓形頭像的bug函數(shù)修復，并轉(zhuǎn)變?yōu)橐粋€包括單元測試在內(nèi)的功能齊全的實現(xiàn)。

最強視覺模型，解放生產(chǎn)力

此次3.5 Sonnet在視覺能力上也實現(xiàn)了巨大突破，是Anthropic迄今為止最強大的視覺模型。

它在解釋圖表、圖形等視覺推理任務(wù)中改進明顯?？梢詼蚀_地從粗略圖像中轉(zhuǎn)錄文本，并輸出更多洞察，這也是零售、物流和金融服務(wù)等領(lǐng)域的核心能力。

示例視頻中，用戶表示要做一個人類基因組的班級演講。給出一張測序里程碑時間線圖片和一個測序成本隨時間變化的圖表，要求Claude 3.5 Sonnet把圖中數(shù)據(jù)轉(zhuǎn)錄成 JSON格式。Claude 3.5 Sonnet馬上從圖中抓取數(shù)據(jù)，創(chuàng)建了兩個主要數(shù)組的 JSON 結(jié)構(gòu)。接著根據(jù)進一步指令，將兩個數(shù)組相結(jié)合創(chuàng)建了一個交互式 Plotly.js 圖表。最后繼續(xù)出大招，把完整的演講demo給搞定了。

圖像信息提取和轉(zhuǎn)錄、數(shù)據(jù)結(jié)構(gòu)化、上下文理解、用戶協(xié)作....Claude 3.5 Sonnet*示范了什么叫解放生產(chǎn)力。再加上速度提升和成本效益，使它成為處理例如上下文敏感的客戶支持、協(xié)調(diào)多步驟工作流程等復雜任務(wù)的理想選擇。

引入新功能Artifacts，實時查看任務(wù)的小監(jiān)視器

此外另一個亮點是在Claude.ai上引入Artifacts預覽版。

這也是這個此前一直強調(diào)模型安全和底層研究的Anthropic ，在產(chǎn)品交互上的一次大更新。

這是一項擴展用戶與Claude互動方式的新功能。當要求Claude生成代碼、文本或網(wǎng)站設(shè)計等內(nèi)容時，Artifacts會出現(xiàn)在對話旁邊的專用窗口中，供用戶實時查看、編輯和構(gòu)建Claude的創(chuàng)作。相當于形成了一個動態(tài)工作空間，將AI生成的內(nèi)容更無縫集成到自己的項目和工作流程中。

Anthropic稱，這項功能標志著Claude從對話式AI向協(xié)作工作環(huán)境的演變。這只是Claude.ai更廣泛愿景的開始，不久的將來將擴展到支持團隊協(xié)作。最終甚至整個組織都能夠在同一個共享空間中安全地集中他們的知識、文檔和正在進行的工作，Claude將作為一個隨時待命的隊友。

這乍聽有點像微軟的團隊助手Team Copilot。但Team Copilot管理會議、分配任務(wù)、記錄筆記等的定位類似一個項目經(jīng)理；Claude則聽起來更像把團隊請進一間屋子舒服地坐著，動動手指，一起觀看Claude“為打工人打工”。

Anthropic：我每隔幾個月就會厲害一次

作為一家主打安全的AI公司， Anthropic當然也用大量篇幅強調(diào)新一代模型經(jīng)過了嚴格的安全測試。

抱著每隔幾個月就大幅改善智能、速度和成本之間的權(quán)衡曲線的目標，Anthropic還表示將在今年晚些時候發(fā)布同系列的另兩個成員：Claude 3.5 Haiku和Claude 3.5 Opus。除此以外，公司也在開發(fā)新的模態(tài)和功能，以支持更多的企業(yè)用例。

自從今年3月初發(fā)布Claude 3系列以來，Anthropic久未有大動作。上次被社區(qū)熱議還是Jan Leike和Sam Altman鬧翻，從OpenAI激情離職加入“我方陣營”的時候。

Jan Leike在社交平臺表示，自己已加入Anthropic繼續(xù)大模型可解釋性和超級對齊研究。

此次Claude 3.5 Sonnet發(fā)布，Jan Leike也繼宣告入職消息后首次發(fā)文站臺。

“我喜歡新的Sonnet。我經(jīng)常讓它為我解釋機器學習論文。雖然不總是百分百準確，但可能比我粗略閱讀要好，而且速度快得多。自動化的對齊研究正在越來越接近現(xiàn)實...”

鑒于昨天Ilya Sutskever宣布成立新公司的消息，也有八卦的網(wǎng)友問，“是什么讓你選擇加入Anthropic而不是SSI ?”

一位用戶實測讓Claude 3.5 Sonnet創(chuàng)建一個能在短時間內(nèi)玩的原創(chuàng)游戲。它隨即設(shè)計了「Color Cascade」，一個需要從一系列掉落的形狀中抓住正確顏色的游戲。這名用戶表示，感受到了AGI的味兒。

Perplexity CEO Aravind Srinivas也發(fā)文說，Claude 3.5 Sonnet現(xiàn)已對平臺訂閱用戶開放。在Perplexity內(nèi)部評估中，它取得了比GPT-4o更高的分數(shù)。

不過也有人發(fā)現(xiàn)了華點：

當然，這湊巧只是某位Anthropic測試員工的名字。但典中典已成，另外一位在Anthropic做AI對齊的Sam Bowman回復說：“我想我們整代人中大約有三分之一都叫Sam。Anthropic至少有十幾個叫這個名字的，包括聯(lián)合創(chuàng)始人在內(nèi)?！?/p>

原來世界是一個巨大的Sam。

免責聲明：本網(wǎng)轉(zhuǎn)載合作媒體、機構(gòu)或其他網(wǎng)站的公開信息，并不意味著贊同其觀點或證實其內(nèi)容的真實性，信息僅供參考，不作為交易和服務(wù)的根據(jù)。轉(zhuǎn)載文章版權(quán)歸原作者所有，如有侵權(quán)或其它問題請及時告之，本網(wǎng)將及時修改或刪除。凡以任何方式登錄本網(wǎng)站或直接、間接使用本網(wǎng)站資料者，視為自愿接受本網(wǎng)站聲明的約束。聯(lián)系電話 010-57193596，謝謝。

久草久草欧美看看日毛片|亚洲色情电影在线观看|中国一极毛片爱爱欧美一区|国产精品丝袜美腿|干人人操人人干人人|av黄色无码亚洲v视频|全国一级黄片在哪里看|国产精品av影院|特级一级黄色视频|亚洲黄色导航网站在线观看

首頁

資訊

財中號

品牌

專題

投資學院

發(fā)布文章

APP下載

熱點

國資

產(chǎn)業(yè)

券商

基金

金融

上市公司

財富

專題

OpenAI勁敵丟炸彈，新一代大模型性能超越GPT-4o

2023年中國經(jīng)濟面臨巨大挑戰(zhàn)，只有知道如何破局，才能縱橫股市

首頁

資訊

財中號

品牌

專題

投資學院

發(fā)布文章

APP下載

OpenAI勁敵丟炸彈，新一代大模型性能超越GPT-4o

您可能感興趣的文章

OpenAI勁敵丟炸彈，新一代大模型性能超越GPT-4o