咨詢電話:400-183-1832
麻省理工學(xué)院 | 解決了一個機器學(xué)習(xí)之謎
指南者留學(xué) 2023-02-07 19:33:53 閱讀量:1154
<p>像OpenAI的GPT-3這樣的大型語言模型是巨大的神經(jīng)網(wǎng)絡(luò),可以生成類似人類的文本,從詩歌到編程代碼。這些機器學(xué)習(xí)模型使用大量互聯(lián)網(wǎng)數(shù)據(jù)進行訓(xùn)練,獲取一小部分輸入文本,然后預(yù)測接下來可能出現(xiàn)的文本。</p> <p>&nbsp;</p> <p>但這并不是這些模型所能做的全部。研究人員正在探索一種被稱為語境學(xué)習(xí)的奇怪現(xiàn)象,在這種現(xiàn)象中,一個大型語言模型在只看到幾個例子后就學(xué)會了完成一項任務(wù)&mdash;&mdash;盡管它沒有接受過這項任務(wù)的訓(xùn)練。例如,有人可以向模型輸入幾個例句和他們的情緒(積極的或消極的),然后用一個新句子提示它,模型就可以給出正確的情緒。</p> <p>&nbsp;</p> <p>通常,像GPT-3這樣的機器學(xué)習(xí)模型需要用新數(shù)據(jù)重新訓(xùn)練來完成這項新任務(wù)。在這個訓(xùn)練過程中,模型在處理新信息以學(xué)習(xí)任務(wù)時更新其參數(shù)。但是在上下文學(xué)習(xí)中,模型的參數(shù)不會更新,所以看起來模型在沒有學(xué)習(xí)任何東西的情況下學(xué)習(xí)了一項新任務(wù)。</p> <p>&nbsp;</p> <p>來自麻省理工學(xué)院、谷歌Research和斯坦福大學(xué)的科學(xué)家們正在努力解開這個謎團。他們研究了與大型語言模型非常相似的模型,看看它們?nèi)绾卧诓桓聟?shù)的情況下進行學(xué)習(xí)。</p> <p>&nbsp;</p> <p>研究人員的理論結(jié)果表明,這些龐大的神經(jīng)網(wǎng)絡(luò)模型能夠包含更小、更簡單的線性模型。然后,大模型可以實現(xiàn)一個簡單的學(xué)習(xí)算法來訓(xùn)練這個較小的線性模型來完成新任務(wù),只使用大模型中已經(jīng)包含的信息。它的參數(shù)保持不變。</p> <p>&nbsp;</p> <p>Ekin Aky&uuml;rek是一名計算機科學(xué)研究生,也是一篇探索這一現(xiàn)象的論文的主要作者,他說,這是理解上下文學(xué)習(xí)背后機制的重要一步,這項研究為更多探索這些大型模型可以實現(xiàn)的學(xué)習(xí)算法打開了大門。隨著對語境學(xué)習(xí)的更好理解,研究人員可以讓模型完成新的任務(wù),而不需要昂貴的再訓(xùn)練。</p> <p>&nbsp;</p> <p>&ldquo;通常,如果你想對這些模型進行微調(diào),你需要收集特定領(lǐng)域的數(shù)據(jù)并做一些復(fù)雜的工程。但現(xiàn)在我們只要給它一個輸入,五個例子,它就完成了我們想要的。所以語境學(xué)習(xí)是一個非常令人興奮的現(xiàn)象。&rdquo;Aky&uuml;rek說。</p> <p>&nbsp;</p> <p>與Aky&uuml;rek一起發(fā)表論文的還有谷歌Brain的研究科學(xué)家、阿爾伯塔大學(xué)(University of Alberta)計算科學(xué)教授戴爾&middot;舒爾曼斯(Dale Schuurmans);以及資深作者Jacob Andreas,麻省理工學(xué)院電氣工程和計算機科學(xué)系X聯(lián)盟助理教授,麻省理工學(xué)院計算機科學(xué)和人工智能實驗室(CSAIL)的成員;斯坦福大學(xué)計算機科學(xué)與統(tǒng)計學(xué)助理教授馬騰宇(Tengyu Ma);以及谷歌Brain的首席科學(xué)家和研究總監(jiān)Danny Zhou。這項研究將在學(xué)習(xí)表征國際會議上發(fā)表。</p> <p>&nbsp;</p> <p><span class="h1"><strong>模型中的模型</strong></span></p> <p>&nbsp;</p> <p>Aky&uuml;rek說,在機器學(xué)習(xí)研究界,許多科學(xué)家已經(jīng)開始相信大型語言模型可以進行上下文學(xué)習(xí),因為它們是如何訓(xùn)練的。</p> <p>&nbsp;</p> <p>例如,GPT-3擁有數(shù)千億個參數(shù),通過閱讀互聯(lián)網(wǎng)上的大量文本(從維基百科文章到Reddit帖子)進行訓(xùn)練。因此,當(dāng)有人展示一個新任務(wù)的模型示例時,它可能已經(jīng)看到了非常相似的東西,因為它的訓(xùn)練數(shù)據(jù)集包括來自數(shù)十億個網(wǎng)站的文本。它會重復(fù)在訓(xùn)練中看到的模式,而不是學(xué)習(xí)執(zhí)行新的任務(wù)。</p> <p>&nbsp;</p> <p>Aky&uuml;rek假設(shè)情境學(xué)習(xí)者不僅僅是在匹配之前看到的模式,而是實際上在學(xué)習(xí)執(zhí)行新的任務(wù)。他和其他人嘗試用合成數(shù)據(jù)給這些模型提示,這是他們以前在任何地方都看不到的,他們發(fā)現(xiàn)模型仍然可以從幾個例子中學(xué)習(xí)。Aky&uuml;rek和他的同事們認為,也許這些神經(jīng)網(wǎng)絡(luò)模型內(nèi)部有更小的機器學(xué)習(xí)模型,這些模型可以訓(xùn)練來完成一項新任務(wù)。</p> <p>&nbsp;</p> <p>他說:&ldquo;這可以解釋我們在這些大型模型中看到的幾乎所有學(xué)習(xí)現(xiàn)象。&rdquo;</p> <p>&nbsp;</p> <p>為了驗證這一假設(shè),研究人員使用了一種稱為變壓器的神經(jīng)網(wǎng)絡(luò)模型,該模型具有與GPT-3相同的架構(gòu),但經(jīng)過了專門的上下文學(xué)習(xí)訓(xùn)練。</p> <p>&nbsp;</p> <p>通過探索這個變壓器的架構(gòu),他們從理論上證明了它可以在隱藏狀態(tài)下編寫線性模型。神經(jīng)網(wǎng)絡(luò)由處理數(shù)據(jù)的多層相互連接的節(jié)點組成。隱藏狀態(tài)是輸入層和輸出層之間的層。</p> <p>&nbsp;</p> <p>他們的數(shù)學(xué)計算表明,這個線性模型寫在變壓器的最早期層的某個地方。的交易</p> <p>&nbsp;</p> <p>他們的數(shù)學(xué)計算表明,這個線性模型寫在變壓器的最早期層的某個地方。然后轉(zhuǎn)換器可以通過實現(xiàn)簡單的學(xué)習(xí)算法來更新線性模型。</p> <p>&nbsp;</p> <p>從本質(zhì)上講,這個模型模擬和訓(xùn)練的是一個更小的模型。</p> <p>&nbsp;</p> <p><span class="h1"><strong>探測隱藏層</strong></span></p> <p>&nbsp;</p> <p>研究人員通過探測實驗來探索這一假設(shè),他們在變壓器的隱藏層中尋找并試圖恢復(fù)一定的數(shù)量。</p> <p>&nbsp;</p> <p>&ldquo;在這種情況下,我們試圖恢復(fù)線性模型的實際解,我們可以證明參數(shù)是在隱藏狀態(tài)下寫的。這意味著線性模型是存在的,&rdquo;他說。</p> <p>&nbsp;</p> <p>在這一理論工作的基礎(chǔ)上,研究人員可能能夠通過向神經(jīng)網(wǎng)絡(luò)添加兩層來使變壓器執(zhí)行上下文學(xué)習(xí)。Aky&uuml;rek提醒說,在這成為可能之前,還有許多技術(shù)細節(jié)需要解決,但它可以幫助工程師創(chuàng)建可以完成新任務(wù)的模型,而不需要使用新數(shù)據(jù)進行再訓(xùn)練。</p> <p>&nbsp;</p> <p>&ldquo;這篇論文闡明了現(xiàn)代大型語言模型最顯著的特性之一&mdash;&mdash;它們從輸入數(shù)據(jù)中學(xué)習(xí)的能力,無需明確的訓(xùn)練。使用線性回歸的簡化案例,作者從理論上展示了模型如何在讀取輸入時實現(xiàn)標(biāo)準(zhǔn)學(xué)習(xí)算法,并從經(jīng)驗上展示了哪種學(xué)習(xí)算法最符合他們觀察到的行為,&rdquo;Facebook AI research的研究科學(xué)家邁克&middot;劉易斯(Mike Lewis)說,他沒有參與這項工作。&ldquo;這些結(jié)果是理解模型如何學(xué)習(xí)更復(fù)雜任務(wù)的墊腳石,并將幫助研究人員為語言模型設(shè)計更好的訓(xùn)練方法,以進一步提高它們的表現(xiàn)。&rdquo;</p> <p>&nbsp;</p> <p>接下來,Aky&uuml;rek計劃繼續(xù)探索具有比他們在這項工作中研究的線性模型更復(fù)雜的功能的上下文學(xué)習(xí)。他們還可以將這些實驗應(yīng)用于大型語言模型,看看他們的行為是否也可以用簡單的學(xué)習(xí)算法來描述。此外,他還想更深入地挖掘可以實現(xiàn)上下文內(nèi)學(xué)習(xí)的預(yù)訓(xùn)練數(shù)據(jù)類型。</p> <p>&nbsp;</p> <p>&ldquo;通過這項工作,人們現(xiàn)在可以想象這些模型如何從樣本中學(xué)習(xí)。所以,我希望它能改變一些人對語境學(xué)習(xí)的看法。&rdquo;Aky&uuml;rek說。&ldquo;這些模型并不像人們想象的那么愚蠢。他們不只是記住這些任務(wù)。他們可以學(xué)習(xí)新的任務(wù),我們已經(jīng)證明了這是可以做到的。&rdquo;</p> <p>&nbsp;</p> <blockquote> <p>注:本文由院校官方新聞直譯,僅供參考,不代表指南者留學(xué)態(tài)度觀點。</p> </blockquote>
預(yù)約咨詢
預(yù)約咨詢
猜你喜歡
App下載
下載指南者留學(xué)App
公眾號
掃一掃立即關(guān)注
微信咨詢
掃一掃立即咨詢
預(yù)約咨詢
電話咨詢
400-183-1832
回到頂部
預(yù)約咨詢
現(xiàn)在來設(shè)置你的賬號吧
只需要花不到一分鐘,之后便可以獲得更精準(zhǔn)的推薦~
1
留學(xué)意向
2
基本意向
3
詳細背景
4
了解途徑
1.1 您期望申請學(xué)歷是
1.2 您期待的留學(xué)地區(qū)是多選
* 0/20
沒有查詢到相關(guān)的地區(qū)
查詢中...
已選(0/5):
2.1 您的身份狀態(tài)是
2.2 您的目前學(xué)歷是
3.1 您的本科學(xué)校是
大陸本科
海外本科
3.2 您的學(xué)校名稱是
沒有查詢到相關(guān)的學(xué)校
查詢中...
3.3 您的專業(yè)名稱是
沒有查詢到相關(guān)的專業(yè)
查詢中...
4. 您從哪里了解到指南者留學(xué)網(wǎng)站的
* 0/20
取消