DeepSeek最新論文介紹新機(jī)制，可使AI模型進(jìn)一步降本增效

來源：財(cái)聯(lián)社 158502/19

2月18日，DeepSeek團(tuán)隊(duì)發(fā)布一篇論文介紹了新的注意力機(jī)制NSA（Natively Sparse Attention，原生稀疏注意力機(jī)制）。NSA專為長文本訓(xùn)練與推理設(shè)計(jì)，能利用動態(tài)分層稀疏策略等方法，通過針對現(xiàn)代硬件的優(yōu)化設(shè)計(jì)，顯著

標(biāo)簽： DeepSeek 注意力機(jī)制 人工智能

2月18日，DeepSeek團(tuán)隊(duì)發(fā)布一篇論文介紹了新的注意力機(jī)制NSA（Natively Sparse Attention，原生稀疏注意力機(jī)制）。

NSA專為長文本訓(xùn)練與推理設(shè)計(jì)，能利用動態(tài)分層稀疏策略等方法，通過針對現(xiàn)代硬件的優(yōu)化設(shè)計(jì)，顯著優(yōu)化傳統(tǒng)AI模型在訓(xùn)練和推理過程中的表現(xiàn)，特別是提升長上下文的推理能力，在保證性能的同時(shí)提升了推理速度，并有效降低了預(yù)訓(xùn)練成本。

DeepSeek創(chuàng)始人梁文鋒現(xiàn)身論文著作者之中，在作者排名中位列倒數(shù)第二。

其他研究人員來自DeepSeek、北大和華盛頓大學(xué)，其中*作者Jingyang Yuan（袁景陽）是在DeepSeek實(shí)習(xí)期間完成的這項(xiàng)研究。

資料顯示，袁景陽目前為北京大學(xué)碩士研究生。他的研究領(lǐng)域包括大型語言模型（LLM）、人工智能在科學(xué)中的應(yīng)用（AI for Science）。他是DeepSeek-V3技術(shù)報(bào)告的主要作者之一，還參與了DeepSeek-R1項(xiàng)目，該項(xiàng)目旨在通過強(qiáng)化學(xué)習(xí)激勵(lì)大型語言模型的推理能力。

在論文中，DeepSeek團(tuán)隊(duì)表示，隨著大型語言模型的發(fā)展，長上下文建模變得越來越重要，但傳統(tǒng)注意力機(jī)制的計(jì)算復(fù)雜度隨著序列長度的增加而呈平方級增長，成為制約模型發(fā)展的關(guān)鍵瓶頸。

NSA便是為高效處理長上下文任務(wù)而生的一種技術(shù)路徑，其核心創(chuàng)新在于：

1）動態(tài)分層稀疏策略：結(jié)合粗粒度的Token壓縮和細(xì)粒度的Token選擇，既保證全局上下文感知，又兼顧局部信息的精確性。
2）硬件對齊與端到端訓(xùn)練：通過算術(shù)強(qiáng)度平衡的算法設(shè)計(jì)和硬件優(yōu)化，顯著提升計(jì)算速度，同時(shí)支持端到端訓(xùn)練，減少預(yù)訓(xùn)練計(jì)算量。

實(shí)驗(yàn)表明，NSA不僅在通用任務(wù)和長上下文任務(wù)中表現(xiàn)出色，還在鏈?zhǔn)酵评淼葟?fù)雜任務(wù)中展現(xiàn)了強(qiáng)大的潛力，且推理速度加快。在通用基準(zhǔn)測試、長文本處理以及基于指令的推理任務(wù)中，NSA的表現(xiàn)均能達(dá)到甚至超越傳統(tǒng)全注意力（Full Attention）模型的水平，其以性價(jià)比極高的方式，罕見地在訓(xùn)練階段應(yīng)用稀疏性，在訓(xùn)推場景中均實(shí)現(xiàn)速度的明顯提升，特別是在解碼階段實(shí)現(xiàn)了高達(dá)11.6倍的提升。

通過高效的長序列處理能力，NSA使模型能夠直接處理整本書籍、代碼倉庫或多輪對話（如千輪客服場景），擴(kuò)展了大語言模型在文檔分析、代碼生成、復(fù)雜推理等領(lǐng)域的應(yīng)用邊界。例如，Gemini 1.5 Pro已展示長上下文潛力，NSA可進(jìn)一步降低此類模型的訓(xùn)練與推理成本。

免責(zé)聲明：本網(wǎng)轉(zhuǎn)載合作媒體、機(jī)構(gòu)或其他網(wǎng)站的公開信息，并不意味著贊同其觀點(diǎn)或證實(shí)其內(nèi)容的真實(shí)性，信息僅供參考，不作為交易和服務(wù)的根據(jù)。轉(zhuǎn)載文章版權(quán)歸原作者所有，如有侵權(quán)或其它問題請及時(shí)告之，本網(wǎng)將及時(shí)修改或刪除。凡以任何方式登錄本網(wǎng)站或直接、間接使用本網(wǎng)站資料者，視為自愿接受本網(wǎng)站聲明的約束。聯(lián)系電話 010-57193596，謝謝。

久草久草欧美看看日毛片|亚洲色情电影在线观看|中国一极毛片爱爱欧美一区|国产精品丝袜美腿|干人人操人人干人人|av黄色无码亚洲v视频|全国一级黄片在哪里看|国产精品av影院|特级一级黄色视频|亚洲黄色导航网站在线观看

首頁

資訊

財(cái)中號

品牌

專題

投資學(xué)院

發(fā)布文章

APP下載

熱點(diǎn)

國資

產(chǎn)業(yè)

券商

基金

金融

上市公司

財(cái)富

專題

DeepSeek最新論文介紹新機(jī)制，可使AI模型進(jìn)一步降本增效

從經(jīng)開區(qū)、高新區(qū)和港區(qū)擴(kuò)容，看鄭州與中牟、滎陽、新鄭糾結(jié)關(guān)系

首頁

資訊

財(cái)中號

品牌

專題

投資學(xué)院

發(fā)布文章

APP下載

DeepSeek最新論文介紹新機(jī)制，可使AI模型進(jìn)一步降本增效

您可能感興趣的文章

DeepSeek最新論文介紹新機(jī)制，可使AI模型進(jìn)一步降本增效