<span id="r1dp9"></span>
<span id="r1dp9"><video id="r1dp9"><ruby id="r1dp9"></ruby></video></span><ruby id="r1dp9"><video id="r1dp9"><del id="r1dp9"></del></video></ruby>
<strike id="r1dp9"></strike>
<ruby id="r1dp9"></ruby>
<th id="r1dp9"><video id="r1dp9"></video></th><strike id="r1dp9"></strike><strike id="r1dp9"><dl id="r1dp9"><ruby id="r1dp9"></ruby></dl></strike>
<span id="r1dp9"></span>
<strike id="r1dp9"><dl id="r1dp9"><ruby id="r1dp9"></ruby></dl></strike>
您當前的位置:首頁 > 電腦百科 > 人工智能

DenseMamba:大模型的DenseNet時刻,Mamba和RetNet精度顯著提升

時間:2024-03-11 10:48:46  來源:機器之心Pro  作者:
近期,來自華為諾亞方舟實驗室的研究者提出了 DenseSSM,用于增強 SSM 中各層間隱藏信息的流動。通過將淺層隱藏狀態有選擇地整合到深層中,DenseSSM 保留了對最終輸出至關重要的精細信息。DenseSSM 在保持訓練并行性和推理效率的同時,通過密集連接實現了性能提升。該方法可廣泛應用于各種 SSM 類型,如 Mamba 和 Re.NET。

隨著 ChatGPT 的突破性進展,大型語言模型(LLMs)迎來了一個嶄新的里程碑。這些模型在語言理解、對話交互和邏輯推理方面展現了卓越的性能。過去一年,人們目睹了 LLaMA、ChatGLM 等模型的誕生,它們基于 Transformer 架構,采用多頭自注意力(MHSA)機制來捕捉詞匯間的復雜關系,盡管 MHSA 模塊在模型中扮演著核心角色,但其在推理過程中對計算和內存資源的需求卻極為龐大。具體來說,對于長度為 N 的輸入句子,自注意力的計算復雜度高達 O (N^2),而內存占用則達到了 O (N^2D),其中 D 是模型的維度。

為了應對這一挑戰,最新的研究致力于簡化 Transformer 架構,以降低其在計算和空間上的復雜度。研究者們探索了多種創新方法,包括卷積語言模型、循環單元、長上下文模型,以及狀態空間模型(SSMs)。這些新興技術為構建高效能的 LLMs 提供了強有力的替代方案。SSMs 通過引入高效的隱藏狀態機制,有效處理長距離依賴問題,同時保持了訓練的并行性和推理的高效率。隱藏狀態能夠在時間維度上傳遞信息,減少了在每一步中訪問歷史詞匯的計算負擔。通過狀態轉移參數 A,隱藏狀態能夠將前一時間步的信息傳遞至當前時間步,實現對下一個詞匯的自回歸預測。

盡管隱藏狀態在 SSMs 中起著至關重要的作用,但其在以往的研究中并未得到充分研究。不同層的權重和隱藏特征包含了從細粒度到粗粒度的多層次信息。然而,在早期的 SSMs 版本中,隱藏狀態僅在當前層內流動,限制了其傳遞更深層信息的能力,從而影響了模型捕獲豐富層次信息的能力。

為了解決這個挑戰,華為諾亞方舟實驗室的科研團隊發表了新工作《DenseMamba: State Space Models with Dense Hidden Connection for Efficient Large Language Models》, 提出一個適用于各類 SSM 模型例如 Mamba 和 RetNet 的 DenseSSM 方法,該方法有選擇地將淺層隱藏狀態整合到深層,保留了對最終輸出至關重要的淺層細粒度信息,以增強深層感知原始文本信息的能力。

  • 論文鏈接:https://arxiv.org/abs/2403.00818
  • 項目主頁:https://Github.com/WAIlordHe/DenseSSM

文章首先分析了狀態空間模型(SSMs)中的隱藏狀態退化問題,

上標 “l” 表示第 l 個塊。其中,Θ(·) 是從 SSM 模塊的最后一個輸出到輸入的轉換,例如卷積和前饋網絡(FFN)。從公式 (7) 可以看出,從第 (l-m) 層到第 l 層的隱藏信息傳遞需要經過 m 個變換塊和 m 次 BC 矩陣乘法。這樣復雜的計算過程可能導致顯著的信息丟失,這意味著在第 l 層嘗試檢索淺層的某些信息變得非常困難和不清晰。

方法

密集(Dense)隱藏層連接

在上述分析中發現隨著層深度的增加,SSM 中重要隱藏狀態的衰減。因此,DenseSSM 提出了一種密集連接的隱藏狀態方法,以更好地保留來自淺層的細粒度信息,增強深層感知原始文本信息的能力。對于第 l 個塊,DenseSSM 在其前 m 個塊中密集連接隱藏狀態。

首先,收集淺層隱藏狀態,并引入一個選擇性轉換模塊 φ,同時將它們投影到目標層的子空間并選擇有用的部分:

操作是融合中間隱藏向量和當前隱藏狀態的函數。具有所提出的密集隱藏層連接的 SSM 被稱為 DenseSSM, 下圖為遞歸模式的 DenseSSM 示例。

DenseSSM 也可以基于卷積模式以實現高效訓練。根據狀態空間模型(SSM)的公式可以得到:

這個過程可以通過對輸入序列進行卷積來實現:

在文章所提出的 DenseSSM 中,可以獲得隱藏狀態加強的 SSM 的輸出:

DenseSSM 方法的并行實現示例圖:

Selective Transition Module (選擇性轉換模塊)

選擇性轉換模塊 φ(·) 的目的是將輸入投影到目標子空間,并同時選擇隱藏信息的有用部分。通過投影層和門控選擇機制實現了選擇性轉換模塊,如上圖所示。首先,前 m 個 SSM 塊中的隱藏狀態會被投影到相同的空間:

然后,根據輸入生成門控權重,并使用它們來選擇有用的隱藏狀態:

在實踐中作者保持了簡單且高效的實現。投影層使用線性變換實現,而門控模塊則使用參數高效的帶有激活函數的兩層 MLP。

Hidden Fusion Module (隱藏層融合模塊)

選擇性轉換模塊后從淺層獲得了選擇的隱藏狀態,即后,DenseSSM 方法利用一個隱藏融合模塊將這些精選的淺層隱藏狀態與當前層的隱藏狀態結合起來。由于這些精選狀態已經被投影到相同的空間,因此可以簡單地將它們累加到當前層的隱藏狀態上:

為了保持模型的高效性,其他可能的實現方式,例如拼接和交叉注意力機制沒有被使用。

擴展到 RetNet

RetNet 可以被視為一種狀態空間模型,它利用線性注意力來簡化自注意力的計算復雜度。與標準 Transformer 相比具有快速推理和并行化訓練兼得的優勢。

其中,是循環狀態, RetNet 的密集 KV 連接執行方式如下。首先,淺層的 K 和 V 被連接起來:

然后,這些 K 和 V 被注入到當前層的原始鍵(或值)中:

配備了使用所提出 DenseSSM 方法的密集鍵值(KV)連接的 RetNet 被稱為 DenseRetNet,如下圖所示。

此外,DenseRetNet 也可以在并行模式下實現,也就是說,可以在 GPU 或 NPU 上并行訓練。DenseRetNet 的并行模式公式如下:

實驗

文章進行了全面的實驗,以驗證所提出的 DenseSSM 的有效性。這些實驗在不同的架構上進行,包括 RetNet 和 Mamba。

預訓練數據

在實驗中,選擇了 The Pile 數據集的一個子集,并從頭開始訓練所有模型。為了確保訓練集包含 150 億(15B)個 tokens,對數據集進行了隨機抽樣。在所有實驗中,統一使用了 LLaMA 分詞器來處理這些數據。

評估數據集

在評估模型性能時,特別關注了模型在多種下游任務上的零樣本和少樣本學習能力。這些任務包括了一系列測試常識推理和問答的數據集,例如 HellaSwag、BoolQ、COPA、PIQA、Winograd、Winogrande、StoryCloze、OpenBookQA、SciQ、ARC-easy 和 ARC-challenge。此外,文章還報告了 WikiText 和 LAMBADA 的詞困惑度指標。所有評估都通過使用 LM evaluation harness 標準化的評估工具進行,以確保評估模型能力的一致性。

實驗設置

為了驗證提出的 DenseSSM 機制的有效性,選擇了 350M 和 1.3B 兩種模型規格進行實驗。所有模型都是從頭開始訓練的,并進行了一個 Epoch 的訓練,共使用了 1.5B tokens。訓練時,設置訓練的 batch size 為 0.5M,序列長度為 2048 個 token。訓練過程中使用了 AdamW 優化器,并采用了多項式學習率衰減,warm-up 比例設置為總訓練步數的 1.5%。權重衰減設置為 0.01,梯度裁剪設置為 1。

DenseRetNet 的實驗

DenseRetNet 模型的大小和超參數設置詳細列出如下。此外,DenseRetNet 模型中還進一步集成了全局注意力單元(GAU)。GAU 將注意力機制與前饋網絡(FFN)塊結合為一個單元,這使得模型能夠同時進行通道混合和 token 混合。與原始的 GAU 不同,多頭機制仍然被采用以實現多尺度的指數衰減,這種設計旨在提高模型對不同尺度特征的捕捉能力,從而提升性能。

在通用語料庫以及包括常識推理和問答在內的多種下游任務上,對 DenseRetNet 模型進行了評估。實驗結果的比較表格顯示,DenseRetNet 模型在 Wikitext 和 LAMBADA 語料庫上取得了更低的困惑度。此外,在零樣本和少樣本設置的下游任務中,DenseRetNet 表現出了顯著的優勢。與 RetNet 相比,DenseRetNet 顯著提升了性能,并且在與基于 Transformer 的語言模型的比較中,實現了更優越的性能表現。這些結果表明,DenseRetNet 在處理自然語言處理任務時,具有強大的能力和潛力。

DenseMamba 的實驗

下表詳細列出了 DenseMamba 模型的參數設置。由于 DenseMamba 使用的分詞器相比于 Mamba 模型中使用的 GPT-NeoX 分詞器規模較小,為了使參數數量相匹配,作者在模型中增加了兩層。除此之外,模型結構和其他訓練設置均遵循了 Mamba 論文中的描述。具體而言,對于 360M 參數的模型,學習率被設定為 3e-4;對于 1.3B 參數的模型,學習率被設定為 2e-4。在這兩種情況下,均沒有采用 dropout 技術。

下表比較了 DenseMamba 與相對應模型的性能。DenseMamba 在測試集上表現出卓越的困惑度和準確性,優于 Mamba 和其他基于 Transformer 的模型。

總結

文章提出了一個新的框架 ——DenseSSM(密集狀態空間模型),旨在通過增強隱藏信息在不同層之間的流動來提升狀態空間模型(SSM)的性能。在 SSM 中,隱藏狀態是存儲關鍵信息的核心單元,更有效地利用這些狀態對于模型的基本功能至關重要。為了實現這一目標,作者提出了一種方法,即從淺層收集隱藏狀態,并將它們有選擇性地融合到深層的隱藏狀態中,這樣可以增強 SSM 對文本低層信息的感知能力。

DenseSSM 方法的設計考慮到了保持 SSM 原有的優點,如高效的自回歸推理能力和高效的并行訓練特性。通過將 DenseSSM 方法應用于流行的架構,例如 RetNet 和 Mamba,作者成功地創造了具有更強大的基礎語言處理能力的新架構。這些新架構在公共基準測試中表現出了更高的準確性,證明了 DenseSSM 方法的有效性。



Tags:大模型   點擊:()  評論:()
聲明:本站部分內容及圖片來自互聯網,轉載是出于傳遞更多信息之目的,內容觀點僅代表作者本人,不構成投資建議。投資者據此操作,風險自擔。如有任何標注錯誤或版權侵犯請與我們聯系,我們將及時更正、刪除。
▌相關推薦
AI程序員上崗 垂類大模型應用迎來井噴期
能自動寫代碼的“AI員工”、逐漸告別不夠好用的智能客服,無需費時費力開發的工業AI控制器&hellip;&hellip;隨著人工智能大模型能力開始深入多個行業,IT、工業生產、金融、服務...【詳細內容】
2024-04-08  Search: 大模型  點擊:(3)  評論:(0)  加入收藏
AI程序員上崗 垂類大模型應用迎來井噴期
能自動寫代碼的“AI員工”、逐漸告別不夠好用的智能客服,無需費時費力開發的工業AI控制器&hellip;&hellip;隨著人工智能大模型能力開始深入多個行業,IT、工業生產、金融、服務...【詳細內容】
2024-04-07  Search: 大模型  點擊:(2)  評論:(0)  加入收藏
AI干掉聲優?音頻大模型追逐“圖靈時刻”
七十年前,“人工智能之父”圖靈提出,如果人無法判斷屏幕的另一側究竟是人還是機器,就證明機器具備了人一樣的智能。這一經典的圖靈測試如同北斗星一般,指引著AI行業的工作者們不...【詳細內容】
2024-04-03  Search: 大模型  點擊:(5)  評論:(0)  加入收藏
大模型Kimi火了,長文本“卷”出新高度
近日,AI智能助手Kimi宣布支持200萬字無損上下文,在長上下文窗口技術上再次取得突破,引燃人工智能領域新一輪投資熱情?! z影/寧穎OpenAI官方去年11月發布的GPT-4 Turbo,支持1...【詳細內容】
2024-03-29  Search: 大模型  點擊:(13)  評論:(0)  加入收藏
大模型應用的 10 種架構模式
作者 | 曹洪偉在塑造新領域的過程中,我們往往依賴于一些經過實踐驗證的策略、方法和模式。這種觀念對于軟件工程領域的專業人士來說,已經司空見慣,設計模式已成為程序員們的重...【詳細內容】
2024-03-27  Search: 大模型  點擊:(13)  評論:(0)  加入收藏
超長文本是AI大模型的能力突破口嗎?
◎記者 劉怡鶴近日,能“一口氣讀完20萬字小說”的AI大模型應用Kimi再次為國內AI產業添了一把火。業內認為,國產大模型能力提升或成今年國內AI領域最核心的主線。超長上下文是...【詳細內容】
2024-03-26  Search: 大模型  點擊:(8)  評論:(0)  加入收藏
百度AI“咬”了一口蘋果 大模型商用有戲了?
百度3月25日突傳利好。據知情人士透露,百度將為蘋果今年發布的iPhone16、Mac系統和ios18提供AI功能。消息人士稱,蘋果曾與阿里以及另外一家國產大模型公司進行過洽談,最后確定...【詳細內容】
2024-03-26  Search: 大模型  點擊:(17)  評論:(0)  加入收藏
Kimi引燃大模型“長文本競賽”,阿里360百度急出手
從ChapGPT到Sora,從數千億參數到千萬長文本,大模型浪潮下,永遠不缺熱點。近日,“Kimi概念股暴漲”“Kimi為宕機道歉”等詞條先后沖上微博熱搜,讓月之暗面這家剛成立一年的人工智...【詳細內容】
2024-03-25  Search: 大模型  點擊:(15)  評論:(0)  加入收藏
Kimi爆了 國產大模型應用元年還遠嗎?
國產大模型應用Kimi近日可謂橫空出世。根據Similarweb數據,Kimi智能助手的周度訪問量由23年12月初的15萬提升至近期(3.10-3.16)的超過200萬,APP端下載量也快速提升,從2月初的效率...【詳細內容】
2024-03-22  Search: 大模型  點擊:(14)  評論:(0)  加入收藏
國產大模型開卷“比誰長”?Kimi爆火點燃長文本競爭賽道
來源:財聯社近日,又一現象級AI應用Kimi爆火出圈,在用戶端和資本市場都掀起波瀾,引發多個Kimi相關概念股異常波動。海天瑞聲(688787.SH)、中廣天擇(603721.SH)等上市公司紛紛回應“無...【詳細內容】
2024-03-22  Search: 大模型  點擊:(5)  評論:(0)  加入收藏
▌簡易百科推薦
多方熱議人工智能產業新機遇
編者按&emsp;&emsp;從前沿科技展會到高層對話平臺,從上海、重慶到博鰲,從線上到線下&hellip;&hellip;一場場高規格、大規模的盛會中,人工智能正在成為各界熱議的高頻詞。賦能千...【詳細內容】
2024-04-08    中國家電網  Tags:人工智能   點擊:(2)  評論:(0)  加入收藏
?人形機器人時代來了嗎
日前,由中國人形機器人(11.080, -0.05, -0.45%)百人會主辦的人形機器人大賽在北京經濟技術開發區開賽。工作人員向參觀者展示一款人形機器人。參觀者與一款陪護型人形機器人...【詳細內容】
2024-04-08    中國青年報  Tags:?人形機器人   點擊:(2)  評論:(0)  加入收藏
AI重塑社交:騰訊與字節跳動的新賽場
文|新火種 一號編輯|美美最近,騰訊和字節跳動這兩大互聯網巨頭幾乎同步推出了各自的AI社交產品,盡管騰訊和字節跳動在前段時間剛剛“破冰”,但這一舉措不僅意味著這兩大巨頭之...【詳細內容】
2024-04-07    藍鯨財經  Tags:AI   點擊:(6)  評論:(0)  加入收藏
第一批用 Kimi 做內容的網紅已經殺瘋了
作者:王東東 文章來自:斗戰圣佛小組技術信仰派 VS 市場信仰派 朱嘯虎和月之暗面老板楊植麟在前幾天有一場不算 battle 的 battle。battle 的爭論點是:大模型有沒有戲。技術派...【詳細內容】
2024-04-04    斗戰圣佛小組  Tags:Kimi   點擊:(4)  評論:(0)  加入收藏
昆侖萬維發布面向人工智能時代的六條人才宣言
過去的一年多,是人工智能取得非凡進步的一年。在這充滿突破性技術飛躍和備受爭議的一年里,我們見證了人工智能的快速發展和廣泛的影響,人工智能已經迅速地融入了我們的生活,深刻...【詳細內容】
2024-04-03    砍柴網  Tags:昆侖萬維   點擊:(7)  評論:(0)  加入收藏
AI干掉聲優?音頻大模型追逐“圖靈時刻”
七十年前,“人工智能之父”圖靈提出,如果人無法判斷屏幕的另一側究竟是人還是機器,就證明機器具備了人一樣的智能。這一經典的圖靈測試如同北斗星一般,指引著AI行業的工作者們不...【詳細內容】
2024-04-03    第一財經網  Tags:AI   點擊:(5)  評論:(0)  加入收藏
生成式人工智能有哪些新趨勢?
相較于去年,當下我們所能體驗的人工智能技術的范圍已經大幅提升。從搜索引擎、電商平臺再到社媒平臺,只要是以搜索結果為導向的內容,都會出現它的身影。但其實,人工智能的應用場...【詳細內容】
2024-04-03  品談教師幫    Tags:人工智能   點擊:(6)  評論:(0)  加入收藏
AI世界的新難題:互聯網的信息不夠用了!
高質量數據的緊缺正成為AI發展的重要障礙。4月1日,據媒體報道,隨著OpenAI、Google等企業不斷深入發展AI技術,科技巨頭們遇到了一個新問題:現有的互聯網信息量可能不足以支撐他們...【詳細內容】
2024-04-02  硬AI    Tags:AI   點擊:(6)  評論:(0)  加入收藏
今天起,ChatGPT無需注冊就能用了!
 來源:量子位    金磊 克雷西 發自 凹非寺  就在剛剛,OpenAI狠狠地open了一把:從今天起,ChatGPT打開即用,無需再注冊帳號和登錄了!  像這樣,直接登錄網站,然后就可以開啟對...【詳細內容】
2024-04-02    量子位   Tags:ChatGPT   點擊:(7)  評論:(0)  加入收藏
AI時代,面對死亡有了第二種選擇?
今年春節期間,羅佩璽瞞著媽媽用AI技術“復活”了外婆,她將媽媽現在的模樣和外婆留下的老照片合成在一起。時隔60多年,媽媽和外婆終于又“見面”了,這是她送給媽媽的生日禮物。收...【詳細內容】
2024-04-02    中國青年報  Tags:AI時代   點擊:(7)  評論:(0)  加入收藏
站內最新
站內熱門
相關頭條
站內頭條
日无码在线观看