<span id="r1dp9"></span>
<span id="r1dp9"><video id="r1dp9"><ruby id="r1dp9"></ruby></video></span><ruby id="r1dp9"><video id="r1dp9"><del id="r1dp9"></del></video></ruby>
<strike id="r1dp9"></strike>
<ruby id="r1dp9"></ruby>
<th id="r1dp9"><video id="r1dp9"></video></th><strike id="r1dp9"></strike><strike id="r1dp9"><dl id="r1dp9"><ruby id="r1dp9"></ruby></dl></strike>
<span id="r1dp9"></span>
<strike id="r1dp9"><dl id="r1dp9"><ruby id="r1dp9"></ruby></dl></strike>
您當前的位置:首頁 > 電腦百科 > 人工智能

當prompt策略遇上分治算法,南加大、微軟讓大模型煉成「火眼金睛」

時間:2024-03-12 10:26:25  來源:機器之心Pro  作者:

近年來,大語言模型(LLMs)由于其通用的問題處理能力而引起了大量的關注?,F有研究表明,適當的提示設計(prompt enginerring),例如思維鏈(ChAIn-of-Thoughts),可以解鎖 LLM 在不同領域的強大能力。

然而,在處理涉及重復子任務和 / 或含有欺騙性內容的任務(例如算術計算和段落級別長度的虛假新聞檢測)時,現有的提示策略要么受限于表達能力不足,要么會受到幻覺引發的中間錯誤的影響。

為了使 LLM 更好地分辨并盡可能避免這種中間錯誤,來自南加州大學、微軟的研究者提出了一種基于分治算法的提示策略。這種策略利用分治程序來引導 LLM。

論文地址:https://arxiv.org/pdf/2402.05359.pdf

具體來講,我們將一個大任務的解決過程解耦為三個子過程:子問題劃分、子問題求解以及子問題合并。理論分析表明,我們的策略可以賦予 LLM 超越固定深度 Transformer 的表達能力。實驗表明,我們提出的方法在受到中間錯誤和欺騙性內容困擾的任務中(例如大整數乘法、幻覺檢測和錯誤信息檢測)可以比經典的提示策略獲得更好的性能。

太長不看版:我們發現在應用 LLM 處理較長的問題輸入時,把輸入拆分然后分而治之可以取得更好的效果。我們從理論上解釋了這一現象并實驗角度進行了驗證。

研究動機

本文的研究動機來自于實驗中觀察到的有趣現象。具體來說,我們發現對于涉及重復子任務和 / 或含有欺騙性內容的任務(如段落級別長度的虛假新聞檢測),對輸入進行拆分可以提升模型對于錯誤信息的分辨能力。下圖展示了一個具體的例子。

在這個例子當中,我們調用大語言模型來評估一段總結性文本是否與完整的新聞報道存在事實性沖突。

在這個任務中,我們嘗試了兩種策略:耦合策略和分治策略。在耦合策略下,我們直接為模型提供完整的新聞報道和整段總結性文本,然后要求模型評估二者是否存在沖突。模型錯誤地認為二者不存在沖突,并且忽視了我們標紅的沖突點(新聞中明確表示調查人員否定了錄像的存在,然而總結中的第一句話表示錄像已被成功復原)。

而當我們采取分治策略,也就是簡單地將總結性文本拆分成多句話,然后分別對每句話進行評估,模型成功地識別出了沖突。

這個例子向我們展示了:對長輸入進行劃分可以幫助我們更好地解鎖模型的能力?;谶@一點,我們提出利用分治程序來引導 LLM,從而賦予模型更強的分辨力。

基于分治的提示(prompting)策略

我們提出使用分治(Divide-and-Conquer, DaC)程序來引導 LLM。該程序包括三個不同的子過程:子問題劃分、子問題求解以及子解答合并。

在子問題劃分,我們提示 LLM 將任務分解為一系列具有較小規模的并行同質子任務(例如將長段落分解為句子)。這里的并行原則保證模型可以分別處理這些子任務而不依賴于某些特定的求解順序。也因此,一個子任務的解答不會依賴于其它子任務的解答的正確性,這增強了模型對于中間錯誤的魯棒性,使模型獲得更強的分辨力。

之后,在子問題求解階段,我們提示 LLM 分別求解每個子任務。

最后,在子解答合并階段,我們提示 LLM 將每個子任務的答案組合起來并獲得最終答案。在這個過程中,所有三個階段的推理過程都被隔離開來以避免干擾。它們都由一個程序而不是 LLM 來引導,以避免幻覺或來自輸入上下文的欺騙。

在下面的示意圖中,我們將自己的方法和目前流行的提示策略進行了對比。

為了解決不同規模的任務,我們提出了兩種變體:單級分治策略 (Single-Level Divide-and-Conquer) 多級分治策略 (Multi-Level Divide-and-Conquer)。單級策略中,我們只對輸入進行一次劃分,然后就開始進行求解。在多級策略中,我們可以遞歸調用分治程序,從而把求解過程展開成一棵多層的樹。

理論分析

我們通過理論分析展示了為什么分治策略能夠提升大語言模型的分辨力。

此前的工作(Feng et al 2023, Merrill & Sabharwal 2023)已經證明,現有的通用大語言模型所普遍采用的固定深度與對數精度的預訓練 Transformer,存在表達能力上的限制。

具體來說,假設 NC1 類問題嚴格難于 TC0 類時(TC0 和 NC1 是并行計算理論中的兩大類問題,其關系類似 P 與 NP),那么這些 Transformer 模型在處理 NC1 完全問題時,其模型寬度需要以超多項式(如指數)級別的速度隨問題規模增長。NC1 完全問題包含了很多常見的問題,比如兩色 2 叉子樹匹配問題。

而我們此前提到的評估兩段文本是否存在事實性沖突的問題,恰好可以被視為判斷總結文本所對應的語義樹是否匹配新聞材料的語義樹的一棵子樹。因此,當總結性文本足夠長時,大語言模型會面臨表達能力不足的問題。我們的理論分析嚴格證明了,在基于分治的提示策略下,存在一個寬度和深度均為常數的 Transformer,可以在 log(n)的時間復雜度下解決任意規模的兩色 2 叉子樹匹配問題

實驗結果

我們考慮了三個任務:大整數乘法、幻覺檢測、新聞驗證。我們基于 GPT-3.5-Turbo 和 GPT-4 進行評估。對于大整數乘法,此前的工作已經證明,ChatGPT 難以正確計算 4 位以上的整數乘法問題。因此我們使用 5 位乘 5 位的乘法來驗證我們的提示策略的有效性。

結果如下圖所示,可以看出,無論是準確率指標還是編輯距離指標,我們的方法相對其他 baseline 都具有明顯優勢。

對于幻覺檢測,我們采用 HaluEval 數據集中的 Summarization Hallucination Detection 子集。對于該子集,模型需要根據一段新聞材料判斷一段總結性文本是否包含幻覺。我們將總結性文本劃分為單句并分別進行檢測。

檢測結果如下,可以看到,我們的方法相對 baseline 更好的平衡了精確度和召回率,從而取得了更好的準確率和 F1 score。

對于新聞驗證,我們基于 SciFact 數據集構造了一個段落驗證數據集。對于該數據集,模型需要根據一篇學術論文中的段落判斷一段新聞報道是真新聞還是假新聞。我們將新聞報道劃分為單句并分別進行檢測。

檢測結果如下,可以看到,我們的方法相對 baseline 取得了更好的準確率和 G-Mean score。

引用

Merrill, W. and Sabharwal, A. The parallelism tradeoff: Limitations of log-precision transformers. Transactions of the Association for Computational Linguistics.

Feng, Guhao, et al. "Towards revealing the mystery behind chain of thought: a theoretical perspective." Advances in Neural Information Processing Systems 36 (2024).



Tags:大模型   點擊:()  評論:()
聲明:本站部分內容及圖片來自互聯網,轉載是出于傳遞更多信息之目的,內容觀點僅代表作者本人,不構成投資建議。投資者據此操作,風險自擔。如有任何標注錯誤或版權侵犯請與我們聯系,我們將及時更正、刪除。
▌相關推薦
AI程序員上崗 垂類大模型應用迎來井噴期
能自動寫代碼的“AI員工”、逐漸告別不夠好用的智能客服,無需費時費力開發的工業AI控制器&hellip;&hellip;隨著人工智能大模型能力開始深入多個行業,IT、工業生產、金融、服務...【詳細內容】
2024-04-08  Search: 大模型  點擊:(3)  評論:(0)  加入收藏
AI程序員上崗 垂類大模型應用迎來井噴期
能自動寫代碼的“AI員工”、逐漸告別不夠好用的智能客服,無需費時費力開發的工業AI控制器&hellip;&hellip;隨著人工智能大模型能力開始深入多個行業,IT、工業生產、金融、服務...【詳細內容】
2024-04-07  Search: 大模型  點擊:(2)  評論:(0)  加入收藏
AI干掉聲優?音頻大模型追逐“圖靈時刻”
七十年前,“人工智能之父”圖靈提出,如果人無法判斷屏幕的另一側究竟是人還是機器,就證明機器具備了人一樣的智能。這一經典的圖靈測試如同北斗星一般,指引著AI行業的工作者們不...【詳細內容】
2024-04-03  Search: 大模型  點擊:(5)  評論:(0)  加入收藏
大模型Kimi火了,長文本“卷”出新高度
近日,AI智能助手Kimi宣布支持200萬字無損上下文,在長上下文窗口技術上再次取得突破,引燃人工智能領域新一輪投資熱情?! z影/寧穎OpenAI官方去年11月發布的GPT-4 Turbo,支持1...【詳細內容】
2024-03-29  Search: 大模型  點擊:(13)  評論:(0)  加入收藏
大模型應用的 10 種架構模式
作者 | 曹洪偉在塑造新領域的過程中,我們往往依賴于一些經過實踐驗證的策略、方法和模式。這種觀念對于軟件工程領域的專業人士來說,已經司空見慣,設計模式已成為程序員們的重...【詳細內容】
2024-03-27  Search: 大模型  點擊:(13)  評論:(0)  加入收藏
超長文本是AI大模型的能力突破口嗎?
◎記者 劉怡鶴近日,能“一口氣讀完20萬字小說”的AI大模型應用Kimi再次為國內AI產業添了一把火。業內認為,國產大模型能力提升或成今年國內AI領域最核心的主線。超長上下文是...【詳細內容】
2024-03-26  Search: 大模型  點擊:(8)  評論:(0)  加入收藏
百度AI“咬”了一口蘋果 大模型商用有戲了?
百度3月25日突傳利好。據知情人士透露,百度將為蘋果今年發布的iPhone16、Mac系統和ios18提供AI功能。消息人士稱,蘋果曾與阿里以及另外一家國產大模型公司進行過洽談,最后確定...【詳細內容】
2024-03-26  Search: 大模型  點擊:(17)  評論:(0)  加入收藏
Kimi引燃大模型“長文本競賽”,阿里360百度急出手
從ChapGPT到Sora,從數千億參數到千萬長文本,大模型浪潮下,永遠不缺熱點。近日,“Kimi概念股暴漲”“Kimi為宕機道歉”等詞條先后沖上微博熱搜,讓月之暗面這家剛成立一年的人工智...【詳細內容】
2024-03-25  Search: 大模型  點擊:(15)  評論:(0)  加入收藏
Kimi爆了 國產大模型應用元年還遠嗎?
國產大模型應用Kimi近日可謂橫空出世。根據Similarweb數據,Kimi智能助手的周度訪問量由23年12月初的15萬提升至近期(3.10-3.16)的超過200萬,APP端下載量也快速提升,從2月初的效率...【詳細內容】
2024-03-22  Search: 大模型  點擊:(14)  評論:(0)  加入收藏
國產大模型開卷“比誰長”?Kimi爆火點燃長文本競爭賽道
來源:財聯社近日,又一現象級AI應用Kimi爆火出圈,在用戶端和資本市場都掀起波瀾,引發多個Kimi相關概念股異常波動。海天瑞聲(688787.SH)、中廣天擇(603721.SH)等上市公司紛紛回應“無...【詳細內容】
2024-03-22  Search: 大模型  點擊:(5)  評論:(0)  加入收藏
▌簡易百科推薦
多方熱議人工智能產業新機遇
編者按&emsp;&emsp;從前沿科技展會到高層對話平臺,從上海、重慶到博鰲,從線上到線下&hellip;&hellip;一場場高規格、大規模的盛會中,人工智能正在成為各界熱議的高頻詞。賦能千...【詳細內容】
2024-04-08    中國家電網  Tags:人工智能   點擊:(2)  評論:(0)  加入收藏
?人形機器人時代來了嗎
日前,由中國人形機器人(11.080, -0.05, -0.45%)百人會主辦的人形機器人大賽在北京經濟技術開發區開賽。工作人員向參觀者展示一款人形機器人。參觀者與一款陪護型人形機器人...【詳細內容】
2024-04-08    中國青年報  Tags:?人形機器人   點擊:(2)  評論:(0)  加入收藏
AI重塑社交:騰訊與字節跳動的新賽場
文|新火種 一號編輯|美美最近,騰訊和字節跳動這兩大互聯網巨頭幾乎同步推出了各自的AI社交產品,盡管騰訊和字節跳動在前段時間剛剛“破冰”,但這一舉措不僅意味著這兩大巨頭之...【詳細內容】
2024-04-07    藍鯨財經  Tags:AI   點擊:(6)  評論:(0)  加入收藏
第一批用 Kimi 做內容的網紅已經殺瘋了
作者:王東東 文章來自:斗戰圣佛小組技術信仰派 VS 市場信仰派 朱嘯虎和月之暗面老板楊植麟在前幾天有一場不算 battle 的 battle。battle 的爭論點是:大模型有沒有戲。技術派...【詳細內容】
2024-04-04    斗戰圣佛小組  Tags:Kimi   點擊:(4)  評論:(0)  加入收藏
昆侖萬維發布面向人工智能時代的六條人才宣言
過去的一年多,是人工智能取得非凡進步的一年。在這充滿突破性技術飛躍和備受爭議的一年里,我們見證了人工智能的快速發展和廣泛的影響,人工智能已經迅速地融入了我們的生活,深刻...【詳細內容】
2024-04-03    砍柴網  Tags:昆侖萬維   點擊:(7)  評論:(0)  加入收藏
AI干掉聲優?音頻大模型追逐“圖靈時刻”
七十年前,“人工智能之父”圖靈提出,如果人無法判斷屏幕的另一側究竟是人還是機器,就證明機器具備了人一樣的智能。這一經典的圖靈測試如同北斗星一般,指引著AI行業的工作者們不...【詳細內容】
2024-04-03    第一財經網  Tags:AI   點擊:(5)  評論:(0)  加入收藏
生成式人工智能有哪些新趨勢?
相較于去年,當下我們所能體驗的人工智能技術的范圍已經大幅提升。從搜索引擎、電商平臺再到社媒平臺,只要是以搜索結果為導向的內容,都會出現它的身影。但其實,人工智能的應用場...【詳細內容】
2024-04-03  品談教師幫    Tags:人工智能   點擊:(6)  評論:(0)  加入收藏
AI世界的新難題:互聯網的信息不夠用了!
高質量數據的緊缺正成為AI發展的重要障礙。4月1日,據媒體報道,隨著OpenAI、Google等企業不斷深入發展AI技術,科技巨頭們遇到了一個新問題:現有的互聯網信息量可能不足以支撐他們...【詳細內容】
2024-04-02  硬AI    Tags:AI   點擊:(6)  評論:(0)  加入收藏
今天起,ChatGPT無需注冊就能用了!
 來源:量子位    金磊 克雷西 發自 凹非寺  就在剛剛,OpenAI狠狠地open了一把:從今天起,ChatGPT打開即用,無需再注冊帳號和登錄了!  像這樣,直接登錄網站,然后就可以開啟對...【詳細內容】
2024-04-02    量子位   Tags:ChatGPT   點擊:(7)  評論:(0)  加入收藏
AI時代,面對死亡有了第二種選擇?
今年春節期間,羅佩璽瞞著媽媽用AI技術“復活”了外婆,她將媽媽現在的模樣和外婆留下的老照片合成在一起。時隔60多年,媽媽和外婆終于又“見面”了,這是她送給媽媽的生日禮物。收...【詳細內容】
2024-04-02    中國青年報  Tags:AI時代   點擊:(7)  評論:(0)  加入收藏
站內最新
站內熱門
相關頭條
站內頭條
日无码在线观看