斯坦福大學(xué) | DALL-E揭示了人類的創(chuàng)造力
指南者留學(xué)
2023-01-20 16:23:11
閱讀量:1366
<p>由DALL-E 2、Midjourney和Stable Diffusion等最新一代文本到圖像生成器生成的通常令人愉快和引人注目的圖像,在藝術(shù)和人工智能領(lǐng)域都引起了很大的轟動。這些圖像是由簡單的文本提示生成的(例如,一只狒狒駕駛著彩色的小艇),看起來非常像人類智能創(chuàng)造力的產(chǎn)物。</p>
<p> </p>
<p>為了探索這些模型到底有多有創(chuàng)造力,以及它們能教給我們什么關(guān)于我們自己創(chuàng)新傾向的本質(zhì),我們詢問了四位人工智能、大腦和創(chuàng)造力方面的權(quán)威(我們還詢問了GPT-3,一種與DALL-E關(guān)系密切的語言生成模型),請他們解釋他們對DALL-E的能力和藝術(shù)潛力的看法。</p>
<p> </p>
<p><span class="h1"><strong>DALL-E如何工作</strong></span></p>
<p><br />dalle首先從互聯(lián)網(wǎng)上獲取數(shù)十億比特的文本,并將它們翻譯成一個抽象概念,存儲在“潛在”或邏輯空間的某個位置。例如,在可描述事物的宇宙中,“狒狒”將被“定位”在與其他靈長類動物有密切聯(lián)系的地方,可能離“非洲”、“熱帶大草原”或“動物園”不遠(yuǎn)。圖片也從互聯(lián)網(wǎng)上讀取,并與它們的標(biāo)題相關(guān)聯(lián),并轉(zhuǎn)置到相同的邏輯區(qū)域。因此,文字和圖像的相關(guān)描述雖然仍然是不同的,但通過相互之間的強烈關(guān)聯(lián)來定位。這使得DALL-E可以在用戶的文本提示所指示的空間中找到圖像類型。然后,它會生成一組它已經(jīng)了解到這張圖像可能包含的關(guān)鍵特征。在我們的“小舢板上的狒狒”的例子中,它會提出狒狒的特征,比如皮毛的顏色,像人一樣的手臂和手,或者是狗一樣的頭的形狀,以及小舢板的特征,比如彎曲的船舷。然后,DALL-E部署所謂的擴散模型,該模型從靜態(tài)噪聲開始,然后以文本描述的潛在表示形式通知的方式雕刻像素,從而在每次程序運行時構(gòu)建唯一的圖像。</p>
<p> </p>
<p>第一個擴散模型是由賈莎·索爾-迪克斯坦(Jascha Sohl-Dickstein)于2015年在斯坦福大學(xué)發(fā)明的,他現(xiàn)在是谷歌大腦小組的研究科學(xué)家。七年前,當(dāng)索爾-迪克斯坦還是神經(jīng)動力學(xué)與計算實驗室的博士后時,他和實驗室主任、神經(jīng)科學(xué)家Surya Ganguli博士“正在探索非平衡熱力學(xué)的想法,”Ganguli說。Ganguli說:“這項工作導(dǎo)致了這樣一種想法,即可以通過訓(xùn)練神經(jīng)網(wǎng)絡(luò)來逆轉(zhuǎn)擴散過程中的時間流,將數(shù)據(jù)轉(zhuǎn)化為噪聲,然后將噪聲轉(zhuǎn)化為數(shù)據(jù)。”</p>
<p> </p>
<p><span class="h1"><strong>靈感來自大腦</strong></span></p>
<p><br />Wu Tsai神經(jīng)科學(xué)研究所跨學(xué)科博士后學(xué)者Isaac Kauvar博士在斯坦福自主代理實驗室工作,研究人工智能、神經(jīng)科學(xué)和心理學(xué)的交叉領(lǐng)域,他指出了DALL-E生成圖像的方式與創(chuàng)造性的人類藝術(shù)家如何生成圖像之間的兩個類比。最明顯的是DALL-E是圍繞一種被稱為“神經(jīng)網(wǎng)絡(luò)”的軟件架構(gòu)構(gòu)建的,如果不是在細(xì)節(jié)上,它在概念上模仿了大腦神經(jīng)元的組成,每個神經(jīng)元都與許多其他神經(jīng)元有連接。這些聯(lián)系可以在學(xué)習(xí)過程中加強或削弱,從而形成有意義的聯(lián)想模式。</p>
<p> </p>
<p>更重要的是,“在較高的水平上,DALL-E從自己的潛在空間構(gòu)建圖像的方式與人類大腦存儲和識別概念,然后將其轉(zhuǎn)化為輸出的方式并不完全不同,”Kauvar說。這些抽象的概念幫助我們將狒狒這個詞與一系列不同的聯(lián)想和圖像聯(lián)系起來——彩色的屁股、動物園的圍欄、非洲的大草原。</p>
<p> </p>
<p><span class="h1"><strong>人類創(chuàng)造力的“卡通”版?</strong></span></p>
<p><br />Wu Tsai neuroo下屬的神經(jīng)科學(xué)家、作者David Eagleman博士也認(rèn)為,DALL-E這樣的模型至少與人類智能有一個共同點:它們的工作原理是“吸收大量的例子,然后在組合和重組的基礎(chǔ)上產(chǎn)生新的東西,”他說。“有創(chuàng)造力的人也會吸收世界,進行混音,然后做出全新的版本。”</p>
<p> </p>
<p>但是,當(dāng)談到創(chuàng)造力時,Eagleman說,“這些圖像生成器所缺乏的東西至少與它們與我們共享的東西一樣重要。也就是說,他們沒有任何方法來過濾什么是好的,更不用說什么是深刻的或美麗的。”</p>
<p> </p>
<p>Eagleman將圖像生成器學(xué)習(xí)和制作藝術(shù)的方式稱為人類做這些事情的“卡通版本”。他認(rèn)為,首先,僅僅制造新東西是不夠的。他說,為了充分發(fā)揮創(chuàng)造力,一個人或一臺有創(chuàng)造力的機器必須能夠過濾這些新事物,并根據(jù)人類的標(biāo)準(zhǔn)選擇最能引起共鳴和最相關(guān)的東西。“DALL-E不能那樣做。它有新鮮感,但沒有過濾,沒有選擇性,”他說。“在它能夠根據(jù)人類的標(biāo)準(zhǔn)進行過濾之前,它必須先了解什么是人,才能知道人類是否或為什么會欣賞一幅特定的畫。”</p>
<p> </p>
<p>“這些人工智能是如此令人印象深刻,”伊格曼說,“但它們并沒有做人類大腦所做的事情。一點也不。他們使用非常不同的技術(shù)來獲得奇怪的相似,而且通常是美妙的結(jié)果。但最有趣的可能是,如此不同于人類的生物如何能得出如此令人印象深刻的結(jié)果。”</p>
<p> </p>
<p><span class="h1"><strong>尊重創(chuàng)造過程</strong></span></p>
<p><br />作為一名視覺藝術(shù)家,Kauvar指出了DALL-E的工作方式與許多人的工作方式之間的另一個關(guān)鍵區(qū)別。“當(dāng)我畫畫的時候,”他說,“這是一個迭代的過程。我通常不知道自己會在哪里結(jié)束。我先把一些東西寫下來,然后激發(fā)下一個迭代,再激發(fā)下一個迭代,以此類推。另一方面,DALL-E決定要畫什么,然后直接在幾秒鐘內(nèi)立即做出那個東西。DALL-E可以快速產(chǎn)生許多變體,但它依賴于人類來評估或修改它們。”</p>
<p> </p>
<p>尊重人類藝術(shù)創(chuàng)作行為過程的重要性是米歇爾·埃蘭博士,威廉·羅伯遜科人文學(xué)科教授和以人為本的人工智能研究所副主任,也認(rèn)為這是人類創(chuàng)造力和機器創(chuàng)造力之間的關(guān)鍵區(qū)別。她說,藝術(shù)家重視創(chuàng)作過程,認(rèn)為這是創(chuàng)作行為的關(guān)鍵部分,甚至對藝術(shù)品本身的意義至關(guān)重要。</p>
<p> </p>
<p>她說:“像DALL-E這樣的東西可以讓你更快、更簡單地得到一個可用的產(chǎn)品,從而‘釋放你的創(chuàng)造力’,這表明藝術(shù)家們在工作中受到了思想、反思、經(jīng)驗、關(guān)心和時間的負(fù)擔(dān)。”“但對許多藝術(shù)家來說,作品的意義是對這些努力和過程的一種表達,而不是附帶的。”</p>
<p> </p>
<p><span class="h1"><strong>行動,而不是思考</strong></span></p>
<p><br />計算神經(jīng)科學(xué)家Manish Saggar博士,Wu Tsai neuroand HAI附屬機構(gòu),精神病學(xué)和行為科學(xué)助理教授,研究人類創(chuàng)造力和大腦已有十多年。在2017年發(fā)表在《大腦皮層》(brain Cortex)上的一篇論文中,他發(fā)現(xiàn),處于高度創(chuàng)造性狀態(tài)的大腦的一個可衡量的品質(zhì)是,大腦皮層的右前額葉部分同時失活,同時大腦許多不同區(qū)域之間的連通性增強。這種增強的連通性包括前額葉皮層和小腦之間的交流,Saggar說,小腦可以被認(rèn)為是大腦的圖形處理單元(GPU)。“這就像CPU和它的抑制功能正在關(guān)閉,而GPU正在接管創(chuàng)造性工作。”Saggar說,這就像是從嚴(yán)格的執(zhí)行控制中退出,轉(zhuǎn)向更分布式的、基于圖像的過程,這可能與DALL-E的做法大致類似。</p>
<p> </p>
<p>薩格的團隊還發(fā)現(xiàn),大多數(shù)極具創(chuàng)造力的人都有強烈的行動傾向。他們不只是(甚至主要是一開始)考慮他們可能會畫什么;他們只是拿起筆在紙上開始畫畫。“少想多做”是激發(fā)創(chuàng)造力的好建議,Saggar說。</p>
<p> </p>
<p>同樣地,文本到圖像的模型可以如此具有生成性,可能是因為它沒有試圖強制預(yù)設(shè)的期望,并應(yīng)用傳統(tǒng)的方法來解決問題;它只是簡單地尋找模式關(guān)聯(lián)并進行嘗試。DALL-E認(rèn)為一點也不……它只會。</p>
<p> </p>
<p>但依格曼認(rèn)為,在某些時候,為了完成創(chuàng)造過程,人們必須使用他所謂的“人類過濾器”,從所有這些新事物中識別出最好的,然后偶爾繼續(xù)使用自己喜歡的新事物,直到它成為真正偉大的事物。盡管這些強大的文本到圖像的生成器令人吃驚和印象深刻,但他們還沒有接近完全創(chuàng)造性意義上的藝術(shù)家。</p>
<p> </p>
<p>當(dāng)我們詢問DALL-E的表弟GPT-3關(guān)于人類和人工智能創(chuàng)造力之間的區(qū)別時,它提出了一個批評,即人類至少有一個算法沒有的獨特選擇過濾器:“人類仍然更善于產(chǎn)生新想法的一個重要方式是人類有情感... .情緒有助于識別哪些想法是好的,哪些是壞的。他們給了我們追求某些想法的動力,而不是其他想法。”</p>
<p> </p>
<p><span class="h1"><strong>仍然是人類的經(jīng)歷</strong></span></p>
<p><br />像人腦一樣,DALL-E可以從具體的想法或提示中歸納出更廣泛的關(guān)聯(lián)網(wǎng)絡(luò),使其能夠根據(jù)“經(jīng)驗”創(chuàng)建令人信服的圖像。它還可以以有趣或有創(chuàng)意的方式組合概念。例如,我們要求它把狒狒放在海上的一只小艇上,并以喬治·修拉的風(fēng)格來描繪它;它創(chuàng)造了一只沉思而孤獨的狒狒,漂浮在五彩繽紛的點彩派海洋中。</p>
<p> </p>
<p>但DALL-E仍然缺乏人類創(chuàng)造力的幾個核心要素。首先,它沒有對什么使圖像重要、新奇、有趣或有意義的情感評價。也許與此相關(guān)的是DALL-E沒有擴展的藝術(shù)過程。對于人類藝術(shù)家來說,這個過程是核心——嘗試事物,評估它們,迭代到下一個版本或下一個想法,最終發(fā)現(xiàn)或?qū)W⒂谒囆g(shù)家最初創(chuàng)作藝術(shù)的動力。</p>
<p> </p>
<p>由于這些原因,至少在目前,充分的創(chuàng)造力仍然存在于人類的領(lǐng)域。也許這就是為什么DALL-E的最佳產(chǎn)品反映了算法圖像生成器與使用它的人類創(chuàng)造者或藝術(shù)家的創(chuàng)造力、選擇性和洞察力之間的合作關(guān)系。</p>
<p> </p>
<p>斯坦福人工智能研究院的使命是推進人工智能研究、教育、政策和實踐,以改善人類狀況。學(xué)習(xí)更多的知識。</p>
<p> </p>
<blockquote>
<p>注:本文由院校官方新聞直譯,僅供參考,不代表指南者留學(xué)態(tài)度觀點。</p>
</blockquote>