<span id="r1dp9"></span>
<span id="r1dp9"><video id="r1dp9"><ruby id="r1dp9"></ruby></video></span><ruby id="r1dp9"><video id="r1dp9"><del id="r1dp9"></del></video></ruby>
<strike id="r1dp9"></strike>
<ruby id="r1dp9"></ruby>
<th id="r1dp9"><video id="r1dp9"></video></th><strike id="r1dp9"></strike><strike id="r1dp9"><dl id="r1dp9"><ruby id="r1dp9"></ruby></dl></strike>
<span id="r1dp9"></span>
<strike id="r1dp9"><dl id="r1dp9"><ruby id="r1dp9"></ruby></dl></strike>
您當前的位置:首頁 > 新聞資訊 > 科技

不依賴token,字節級模型來了!直接處理二進制數據

時間:2024-03-12 10:25:10  來源:量子位  作者:

不依賴token,字節級模型來了!直接處理二進制數據

來源:華爾街見聞 量子位

bGPT顯著提高了處理大規模數字數據序列的效率和可擴展性。

最新GPT,不預測token了。

微軟亞研院等發布bGPT,仍舊基于Transformer,但是模型預測的是下一個字節(byte)。

通過直接處理原生二進制數據,bGPT將所有輸入內容都視為字節序列,從而可以不受限于任何特定的格式或任務。

能預測CPU行為,準確率超過99.99%;還能直接模擬MIDI——一種音樂傳輸和存儲的標準格式。

研究團隊認為,傳統的深度學習往往忽視了字節——數字世界的構建基石。

不論是信息的形式還是操作,都是通過二進制格式編碼和處理的。字節構成了所有數據、設備和軟件的基礎,從計算機處理器到我們日常使用的電子產品中的操作系統。

這篇論文的標題清晰地指出了其目標:

模擬CPU行為準確率超99.99%

bGPT通過字節級處理,不僅能夠應用于常規的AI生成和理解任務,還能處理更多非傳統應用。

例如,它能夠直接模擬MIDI——一種音樂傳輸和存儲的標準格式,之前的研究由于MIDI的二進制本質而避免了直接對這類數據的建模。

但bGPT天生適合此類任務。它能夠準確模擬符號音樂數據轉換算法,在將ABC記譜法轉換為MIDI格式時,達到極低的錯誤率(0.0011 BPB)。

在模擬CPU行為方面,bGPT展現出超過99.99%的準確率。這些實驗顯示了bGPT在處理原生二進制數據方面的強大能力和可擴展性。

bGPT還展示了在處理諸如文本、圖像和音頻傳統媒體文件的生成/分類任務上的潛力,而且不需要任何針對特定模態的定制。

研究團隊訓練了一個大約有100M參數的bGPT,根據論文中的實驗結果,bGPT可以與同樣規模的文本模型(GPT-2)、視覺模型(ViT)和音頻模型(AST)在各自的模態下有著可比的性能。

字節到塊策略:拓展序列建模長度

在處理數字數據時,bGPT代表了一次重要的進步。

因為字節的粒度非常細,處理的字節序列通常較長,這對基于Transformer的傳統模型來說是一個挑戰。由于自注意機制的復雜度是二次方的,處理長序列的效率和可擴展性受到了限制。

bGPT的研發團隊此前在音樂AI領域推出了CLaMP項目,并因此在ISMIR 2023上獲得了最佳學生論文獎。

基于這項成果,bGPT采取了一種“字節到塊(patch)”的轉化方法。這個方法不僅極大提升了數據處理效率,還讓長序列數據的處理和擴展變得更加簡便。

bGPT包含三個關鍵組成部分:

線性投影層:通過線性投影將每個字節塊轉化為密集向量表示,既保留了關鍵信息,又降低了維度。

塊級解碼器:順序處理塊的embeddings以預測下一個塊的特征,使用自回歸機制學習字節序列的整體結構。

字節級解碼器:根據塊級解碼器的預測特征來預測每個塊內的字節序列,這一過程獨立于每個塊進行,依據當前塊的特征表示。

bGPT提供了一種有前景的解決方案來應對傳統模型在處理字節級數據時面臨的挑戰,顯著提高了處理大規模數字數據序列的效率和可擴展性。

拓寬邊界:bGPT與未來數字世界的無限潛力

盡管bGPT展現出巨大的潛力,但其也存在一定的局限性和改進空間。

目前,bGPT只能處理不超過8KB的數據序列,對于需要生成大量數據的現代應用來說,這一容量顯然不夠。這一局限主要由于訓練和部署這類模型需要巨大的計算資源需求。

為了推進bGPT的實用性和適用范圍,未來的研究將專注于開發更高效的算法和利用硬件進步以降低計算成本,使bGPT能夠更加經濟高效地處理更大規模的數據序列,從而拓寬其應用前景。

在探討字節模型未來的話題中,來自世界各地的網友們已經提出了一系列腦洞。

他們探討了在裸機上運行純粹的神經網絡,以取代操作系統執行命令的前景,或者利用網絡修剪和自我學習來優化連接,使得超大規模網絡具備自我重構的能力。

雖然實現這些目標需要時間,但bGPT有望實現將所有數據以字節形式輸入,通過超大規模自我重構網絡處理后再以字節形式輸出的終極目標。

或許,在探索bGPT能力的邊界時,想象力才是唯一的限制。

長期來看,bGPT展示的字節模型在推動人工智能進步方面展現了兩大巨大潛能。

首先,它有望實現一個統一模型,將計算機中的所有數據整合起來,為實現真正的通用人工智能(AGI)邁出關鍵一步。

其次,bGPT推動了將AI作為操作系統(LLM OS)的概念,即利用這種字節模型作為核心,直接與文件、軟件及底層硬件數據進行深度交互。

這不僅與Andrej Karpathy的AI愿景不謀而合,更重要的是,它開啟了使用AI模擬數字世界各種層面的可能性——從精確模擬CPU操作到系統級軟件的行為模擬,bGPT的能力遠超傳統界限。通過這種方式,bGPT有望成為數字世界的全面模擬器,探索和理解從基礎硬件到復雜系統級軟件操作的每一個角落。

單憑對計算機文本數據的深入建模,我們已經見證了ChatGPT如何引發社會的廣泛關注。

然而,文本數據在數字世界中海量數據的宏觀圖景里,不過只是冰山一角而已。想象一下,如果我們能夠利用計算機中存儲的所有形式的數據——無論是文本、圖像、音頻,還包括更復雜的二進制數據,乃至軟件、操作系統和硬件本身的信息——來訓練模型,能否創造出一個更加深入理解和精確模擬數字世界各個層面的模型?

bGPT的代碼和模型已開源,如果你對探索字節級模型感興趣,可以嘗試在自己的數據集上使用bGPT進行訓練,大膽探索它的潛能。

本文來源:量子位,原文標題:《不依賴token,字節級模型來了!直接處理二進制數據》



Tags:token   點擊:()  評論:()
聲明:本站部分內容及圖片來自互聯網,轉載是出于傳遞更多信息之目的,內容觀點僅代表作者本人,不構成投資建議。投資者據此操作,風險自擔。如有任何標注錯誤或版權侵犯請與我們聯系,我們將及時更正、刪除。
▌相關推薦
如何使用免費網絡安全工具Canary Tokens查明黑客何時訪問了您的文件?
譯者 | 布加迪審校 | 重樓擔心您的個人文件被黑客竊取嗎?Canary Tokens是一款免費且易于使用的工具,可以快速部署。如果黑客打開您的文件,它就會通知您。什么是Canary Tokens?Ca...【詳細內容】
2024-03-26  Search: token  點擊:(13)  評論:(0)  加入收藏
不依賴token,字節級模型來了!直接處理二進制數據
不依賴token,字節級模型來了!直接處理二進制數據來源:華爾街見聞 量子位bGPT顯著提高了處理大規模數字數據序列的效率和可擴展性。最新GPT,不預測token了。微軟亞研院等發布bGPT...【詳細內容】
2024-03-12  Search: token  點擊:(12)  評論:(0)  加入收藏
關于“Cookie、Session、Token”徹底懂了
Cookie、Session、token的發展歷程隨著互聯網的發展,身份驗證和用戶管理變得愈發重要,而Cookie、Session和Token便是這一領域發展的關鍵里程碑。綜合而言,這三者的發展歷程既是...【詳細內容】
2023-12-11  Search: token  點擊:(188)  評論:(0)  加入收藏
jwt與token+redis,哪種方案更好用?
在選擇 JWT 與 Token+Redis 時,系統的具體需求和設計目標將是決定性因素。這兩種方案都有各自的優缺點,適用于不同的場景。JWT 方案: 優點:無狀態性:后端不需要存儲 Token,減輕了...【詳細內容】
2023-12-03  Search: token  點擊:(18)  評論:(0)  加入收藏
解讀大模型(LLM)的token
當人們談論大型語言模型的大小時,參數會讓我們了解神經網絡的結構有多復雜,而token的大小會讓我們知道有多少數據用于訓練參數。正像陸奇博士所說的那樣,大型語言模型為從文本...【詳細內容】
2023-10-06  Search: token  點擊:(403)  評論:(0)  加入收藏
只有理解Token和內存,才能更好掌握ChatGPT!
作者 | Rusell Kohn編譯 | 言征 ChatGPT 等大型語言模型 (LLM) 已經改變了 AI 格局,了解其復雜性對于充分發揮其潛力至關重要。這篇短文將重點討論大語言模型中的Token限制和...【詳細內容】
2023-08-21  Search: token  點擊:(288)  評論:(0)  加入收藏
碾壓LLaMA,「獵鷹」徹底開源!400億參數,萬億token訓練,霸榜Hugging Face
新智元報道編輯:潤 拉燕【新智元導讀】來自阿聯酋的免費商用開源大模型登頂Hagging Face排行榜,AI大模型創業者的春天就這樣到來了。大模型時代,什么最重要?LeCun曾經給出的答案...【詳細內容】
2023-06-02  Search: token  點擊:(98)  評論:(0)  加入收藏
將26個token壓縮成1個,新方法極致節省ChatGPT輸入框空間
進入正文之前,先考慮一下像 ChatGPT 這樣的 Transformer 語言模型(LM)的 prompt: 隨著每天產生數百萬用戶和查詢,ChatGPT 使用自注意力機制對 prompt 進行反復編碼,其時間和內存...【詳細內容】
2023-05-08  Search: token  點擊:(242)  評論:(0)  加入收藏
無感知刷新Token
引言在前后端分離的應用中,使用Token進行認證是一種較為常見的方式。但是,由于Token的有效期限制,需要不斷刷新Token,否則會導致用戶認證失敗。為了解決這個問題,可以實現無感知...【詳細內容】
2023-04-04  Search: token  點擊:(235)  評論:(0)  加入收藏
一個接口優雅的實現 Spring Cloud OAuth2 自定義token返回格式
大家好,我是不才陳某~最近讀者朋友針對Spring Security oauth2.0 想要陳某補充一些知識,如下: 今天這篇文章就來回答其中一個問題:如何自定義token的返回格式?問題描述Spring Se...【詳細內容】
2023-01-07  Search: token  點擊:(275)  評論:(0)  加入收藏
▌簡易百科推薦
谷歌搜索史上最大變革!考慮對AI搜索收費
快科技4月7日消息,據國外媒體報道,谷歌正計劃對由生成式人工智能驅動的新高級功能收費,這將是谷歌搜索業務歷史上最大的一次變革。自2000年以來,谷歌的搜索產品一直依靠廣告盈利...【詳細內容】
2024-04-08    快科技  Tags:谷歌搜索   點擊:(5)  評論:(0)  加入收藏
為訓練AI,OpenAI等科技巨頭花式淘數據
[環球時報特約記者 甄翔]《紐約時報》6日披露了科技公司訓練人工智能的秘密&mdash;&mdash;利用語音識別工具轉錄視頻網站YouTube上的視頻,形成對話文本數據,供其最新的AI學習...【詳細內容】
2024-04-08    環球網  Tags:AI   點擊:(5)  評論:(0)  加入收藏
當“機器人”有了“AI大腦” 人形機器人時代來了嗎
數智風向標當“機器人”有了“AI大腦”?人形機器人時代來了嗎簡單明了的口令下達后,機器人便開始搬箱子、運小球,在各類不同的地形行走&hellip;&hellip;這些身上布滿芯片和傳...【詳細內容】
2024-04-08    中國青年報  Tags:機器人   點擊:(2)  評論:(0)  加入收藏
報告稱 OpenAI 采集了超一百萬小時的 YouTube 視頻來訓練 GPT-4
IT之家 4 月 7 日消息,本周早些時候,《華爾街日報》報道稱 AI 公司在收集高質量訓練數據方面遇到了困難。今天,《紐約時報》詳細介紹了 AI 公司處理此問題的一些方法,其中涉及到...【詳細內容】
2024-04-07    IT之家  Tags:OpenAI   點擊:(4)  評論:(0)  加入收藏
量子計算會和經典計算一樣融入人們的日常生活
作為2024中國網絡媒體論壇打造的創新活動之一,“技術賦能&middot;八點見”創新項目發布會于3月30日晚在云南昆明舉行?;顒蝇F場,本源量子計算科技(合肥)股份有限公司(以下簡稱“...【詳細內容】
2024-04-03    人民網  Tags:量子計算   點擊:(8)  評論:(0)  加入收藏
ChatGPT官宣免注冊,全球互聯網變天!OpenAI將取代谷歌搜索?
新智元報道編輯:編輯部【新智元導讀】OpenAI這份愚人節禮物,實在是太大了:今天起,ChatGPT不用注冊,可以直接使用。用戶狂歡,競品顫抖,我們仿佛已經聽到,谷歌搜索引擎這位巨人轟然倒...【詳細內容】
2024-04-02    新智元  Tags:ChatGPT   點擊:(7)  評論:(0)  加入收藏
谷歌為了結集體訴訟,同意刪除 Chrome 無痕模式下收集的用戶數據
IT之家 4 月 2 日消息,根據華爾街日報報道,谷歌為了結追溯到 2020 年的集體訴訟案,近日同意刪除通過 Chrome 瀏覽器“無痕(Incognito)模式”下收集的用戶數據。這起訴訟原告認為,...【詳細內容】
2024-04-02    IT之家  Tags:Chrome   點擊:(7)  評論:(0)  加入收藏
哥倫比亞大學華人開發「人臉機器人」,照鏡子自主模仿人類表情超逼真
【新智元導讀】OpenAI 機器人理解力雖強,卻無法進行非語言交流。最近,哥倫比亞大學華人團隊打造了全新的機器人 Emo,不僅可以提前預測和模擬人類表情,還可以進行眼神交流。此前,...【詳細內容】
2024-04-01    IT之家  Tags:哥倫比亞   點擊:(17)  評論:(0)  加入收藏
谷歌服務現已支持使用 Windows Hello 人臉和指紋解鎖登錄
IT之家 3 月 28 日消息,谷歌近日對其賬戶登錄頁面進行了重大更新,現在能夠在用戶登錄谷歌賬戶時,使用 Windows Hello 作為身份驗證方法。使用通行密鑰,用戶將不再局限于使用密碼...【詳細內容】
2024-03-29    IT之家  Tags:谷歌服務   點擊:(15)  評論:(0)  加入收藏
GPT商店熱度不盡人意 僅用在寫論文和炒股票上較受歡迎
財聯社3月28日訊(編輯 趙昊)今年1月,OpenAI推出了定制聊天機器人商店“GPTs”,以期為業務增添新的動力。但兩個多月后,GPTs的吸引力仍然有限,很難達到公司CEO山姆&middot;奧爾特曼...【詳細內容】
2024-03-29    財聯社  Tags:GPT   點擊:(13)  評論:(0)  加入收藏
站內最新
欄目相關
  • · 谷歌搜索史上最大變革!考慮對AI搜索收費
  • · 為訓練AI,OpenAI等科技巨頭花式淘數據
  • · 當“機器人”有了“AI大腦” 人形機器人時代來了嗎
  • · 報告稱 OpenAI 采集了超一百萬小時的 YouTube 視頻來訓練 GPT-4
  • · 量子計算會和經典計算一樣融入人們的日常生活
  • · ChatGPT官宣免注冊,全球互聯網變天!OpenAI將取代谷歌搜索?
  • · 谷歌為了結集體訴訟,同意刪除 Chrome 無痕模式下收集的用戶數據
  • · 哥倫比亞大學華人開發「人臉機器人」,照鏡子自主模仿人類表情超逼真
  • · 谷歌服務現已支持使用 Windows Hello 人臉和指紋解鎖登錄
  • · GPT商店熱度不盡人意 僅用在寫論文和炒股票上較受歡迎
  • · 距實現全球安全量子通信更近一步:量子點源產生近乎完美糾纏光子對
  • · 中國三大運營商共同發布通過GSMA Open Gateway認證的一次性密碼 API
  • · 馬斯克腦機接口再造奇跡:癱瘓小伙意念玩賽車擊敗正常人
  • · 國家數據局局長劉烈宏:充分發揮數據要素價值 培育新質生產力
  • · 谷歌Chrome巨變:第三方Cookie的終結將重塑互聯網格局
  • · 百度+蘋果,“AI手機元年”真的來了?
  • · 百度AI“咬”了一口蘋果 大模型商用有戲了?
  • · 大地磁暴或將出現,有何影響?
  • · 大地磁暴上熱搜!對普通人有何影響?多地或能看到極光
  • · 互聯網大廠,集體“圍剿”Kimi
  • 站內熱門
    相關頭條
  • · 谷歌搜索史上最大變革!考慮對AI搜索收費
  • · ChatGPT官宣免注冊,全球互聯網變天!OpenAI將取代谷歌搜索?
  • · 馬斯克腦機接口再造奇跡:癱瘓小伙意念玩賽車擊敗正常人
  • · Kimi引燃大模型“長文本競賽”,阿里360百度急出手
  • · 癱瘓8年小哥植入馬斯克腦機接口,狂打8小時「文明6」!Neuralink首個人類植入者直播來了
  • · 英偉達“算力核彈”強在哪里?
  • · AI大模型之爭遠未落幕
  • · 世界首款!英偉達重磅發布人形機器人模型
  • · 全程回顧黃仁勛GTC演講:Blackwell架構B200芯片登場
  • · 真“Open ” AI?馬斯克旗下大模型Grok宣布開源:參數量全球最大
  • · 全球首位AI程序員誕生 人類程序員會失業嗎?
  • · 谷歌宣布更新搜索算法:打擊AI生成內容,提高搜索結果質量
  • · 英偉達、微軟等巨頭“抱團”,AI有望助推6G時代到來 國內產業如何接招?
  • · OpenAI Sora已開放對外申請 網友爆料:可能還有其它重磅產品發布
  • · 周鴻祎再談Sora:真正給人工智能補上了“眼睛”
  • · Sora爆火超100小時:美國狂“卷”算力,國內則賣 AI 課程“撈金”一年5000萬|鈦媒體AGI
  • · 爆火Sora參數規模僅30億?謝賽寧等大佬技術分析來了
  • · “AI女友”霸占GPT商店,OpenAI苦不堪言:開發者也難出頭!
  • · 從居家到工作,CES 2024上演 AI硬件大秀
  • · OpenAI新年頭號重磅!GPT Store上線,企業客戶新品也來了
  • 站內頭條
    日无码在线观看