大型語言模型使用一種非常簡單的機制來檢索一些存儲的知識 研究人員發(fā)現(xiàn)真菌的進化臨界點 為組合優(yōu)化問題的高質(zhì)量解決方案提出的新型量子算法 研究記錄了大西洋洋流的減慢 催化突破產(chǎn)生自潔墻面涂料 在陽光照射下可分解空氣污染物 白點癲風能徹底治好嗎(白癜風能治愈嗎) 睪丸囊腫是什么原因引起(睪丸囊腫怎么回事) 月經(jīng)期怎豐胸(月經(jīng)期間豐胸的辦法) 怎么能夠快速懷孕呢(怎樣才能快速懷孕呢) 八歲兒童喝什么牛奶(8歲兒童喝什么牛奶好) 喘息性支氣管炎用什么藥效果好(喘息性支氣管炎怎么辦) 女性絕經(jīng)后的保養(yǎng)措施(女性絕經(jīng)后的保養(yǎng)) 胎盤吃了對孩子命運影響嗎(吃胎盤的功效與作用) 玫瑰花的作用和功效(桂花的作用) 靜脈曲張的最快消除方法(靜脈曲張怎么治最好) 激光祛斑多少錢一次?(激光祛斑多少錢) 避孕套應該怎么戴才正確(避孕套應該怎么戴) 眼瞼是哪個部位示意圖(眼瞼是哪) 去黑頭的藥品有哪些(去黑頭的藥物有哪些) 髓母細胞瘤是先天性的嗎嚴重嗎(髓母細胞瘤是先天性的嗎) 補肝的中成藥有哪些藥(補肝的中成藥有哪些) 男人睪丸疝氣怎么治療(疝氣怎么治療) 補精最好的食物(補精子最有效的食物) 孕早期癥狀像感冒(孕早期癥狀) 上火嘴起泡怎么快速消除掉(上火嘴起泡怎么快速消除) 經(jīng)常吃紫薯有什么好處(吃紫薯有什么好處) 增強免疫力食物與食療方(增強免疫力食物) 棗花蜜的作用和功效(棗花蜜的功效是什么) 孕前檢查查什么科(孕前檢查都是查什么) 血糖低的癥狀或表現(xiàn)和處理(血糖低的癥狀) 寶寶溢奶與吐奶區(qū)別(嬰兒溢奶和吐奶的區(qū)別) 手上長瘊子怎樣治療(手上長瘊子治療的方法) 桑葚干可以泡酒嗎?要用什么白酒呢(桑葚干可以泡酒嗎) 桑葉的功效與作用是什么?(桑葉的功效與作用是什么) 傷口感染化膿用什么藥好得快(傷口化膿怎么處理) 熱痙攣的急救措施(熱痙攣怎么治療) 剛出生的嬰兒嗆奶怎么辦(嬰兒嗆奶怎么辦) 來月經(jīng)期可以吃西瓜嗎?(來月經(jīng)期間能吃西瓜嗎) 腳一熱就發(fā)癢是怎么回事(腳發(fā)癢怎么辦) 腳底長水泡是什么原因引起的很癢(腳底長水泡是什么原因) 藿香正氣水功效與作用說明書(藿香正氣水功效與作用) 茴香的作用與效果(茴香的功效是什么) 踝振攣檢查方法(踝震攣的癥狀) 喝酒皮膚過敏圖片大全(喝酒皮膚過敏如何處理) 每天喝綠茶能瘦嗎(每天喝綠茶能減肥嗎) 吃附片后要注意什么不能喝水(吃附片后要注意什么) 飯后多長時間可以運動跑步(飯后多長時間可以運動) 當歸功效與作用是什么藥(當歸功效與作用是什么) 您的位置:首頁 >行業(yè)動態(tài) >

大型語言模型使用一種非常簡單的機制來檢索一些存儲的知識

導讀 大型語言模型(例如為 ChatGPT 等流行人工智能聊天機器人提供支持的語言模型)非常復雜。盡管這些模型在許多領域被用作工具,例如客戶支持...

大型語言模型(例如為 ChatGPT 等流行人工智能聊天機器人提供支持的語言模型)非常復雜。盡管這些模型在許多領域被用作工具,例如客戶支持、代碼生成和語言翻譯,但科學家們?nèi)匀粵]有完全掌握它們的工作原理。

為了更好地了解幕后發(fā)生的事情,麻省理工學院和其他地方的研究人員研究了這些巨大的機器學習模型檢索存儲的知識時的工作機制。

他們發(fā)現(xiàn)了一個令人驚訝的結果:大型語言模型(LLM)通常使用非常簡單的線性函數(shù)來恢復和解碼存儲的事實。此外,該模型對相似類型的事實使用相同的解碼函數(shù)。線性函數(shù)是只有兩個變量且沒有指數(shù)的方程,捕獲兩個變量之間簡單的直線關系。

研究人員表明,通過識別不同事實的線性函數(shù),他們可以探索模型以了解它對新主題的了解,以及知識存儲在模型中的位置。

研究人員使用他們開發(fā)的技術來估計這些簡單的函數(shù),發(fā)現(xiàn)即使模型錯誤地回答了提示,它通常也存儲了正確的信息。將來,科學家可以使用這種方法來查找并糾正模型內(nèi)部的錯誤,這可以減少模型有時給出錯誤或無意義答案的傾向。

“盡管這些模型非常復雜,非線性函數(shù)需要接受大量數(shù)據(jù)的訓練,并且很難理解,但有時它們內(nèi)部的工作機制非常簡單。這就是一個例子,”電氣工程師埃文·埃爾南德斯 (Evan Hernandez) 說計算機科學 (EECS) 研究生,也是論文的共同主要作者,該論文詳細介紹了發(fā)布到arXiv預印本服務器上的這些發(fā)現(xiàn)。

埃爾南德斯與東北大學計算機科學研究生 Arnab Sharma 共同撰寫了這篇論文。他的導師 Jacob Andreas,EECS 副教授,計算機科學與人工智能實驗室 (CSAIL) 成員;資深作者 David Bau,東北大學計算機科學助理教授;以及麻省理工學院、哈佛大學和以色列理工學院的其他人。該研究將于 5 月 7 日至 11 日在維也納舉行的國際學習表征會議 ( ICLR 2024)上發(fā)表。

標簽:

免責聲明:本文由用戶上傳,如有侵權請聯(lián)系刪除!

最新文章