Gwern對AI規模化的觀察（以AI虛擬化身在影片中呈現）

Gwern Branwen因在其網站 gwern.net 上撰寫有關AI、心理學、統計學和技術等廣泛主題的詳細論文和分析而聞名。他對AI安全和發展的討論做出了顯著貢獻，並在促智藥、遺傳學和其他科學主題方面進行了廣泛的研究和寫作。他的著作的特點是深入的研究、廣泛的引用和詳細的方法論部分。

Dwarkesh Patel：你是在2020年時，少數在OpenAI以外，對於規模化（scaling）有詳細實證模型的人之一。我很好奇在當時，是什麼樣的思考過程讓你能夠看到你在規模化假說那篇文章中所描繪的願景？

Gwern Branwen：如果要談我的思想歷程，大概要從2000年代中期說起，那時我正在閱讀Ray Kurzweil的作品。當時他們提出了一個基本的連結主義論點：如果你有足夠的運算能力，就可能發現能與人腦相匹配的神經網路架構。在擁有這樣的運算能力之前，AI基本上看起來是徒勞的。

我覺得這個論點很難令人信服，因為這非常像是一種「蓋好了他們就會來」的進步觀點，我不認為這是正確的。我認為，僅僅因為你擁有某個與人腦相當的超級電腦，就能憑空產生正確的演算法，這想法很荒謬。演算法是非常複雜困難的。它們需要深刻的洞見，至少我是這麼認為的。這似乎需要非常困難的數學。你不能只是買一堆電腦，就期待能從中得到進階的AI。這簡直就像是魔術思維。

所以，我知道這個論點，但我非常懷疑，也沒有太在意。後來，Shane Legg和其他一些人在接下來幾年非常支持這個觀點，這是我對超人類主義、Less Wrong和AI風險產生興趣的一部分。我特別關注Legg的部落格文章，他用更新的數據延伸了Kurzweil和Moravec的趨勢。他做出了非常精確的預測，說我們會在2019年左右得到第一個通用系統，隨著摩爾定律持續發展。然後到2025年，他說我們應該會有具有通用能力的類人系統，到2030年，我們應該會有AGI（通用AI）。

在這過程中，DANNet和AlexNet問世了。當這些出現時，我想：「哇，這對連結主義觀點來說似乎是一個令人印象深刻的成功案例。」但這只是一個孤立的成功案例，還是就像Kurzweil、Moravec和Shane Legg所預測的那樣？就是我們會得到GPU，然後得到更好的演算法，這些就會自然出現？

因此，我開始想這是個值得關注的趨勢。也許這個想法並不像我最初認為的那樣愚蠢。我就持續閱讀深度學習的文獻，一次又一次注意到資料集的規模不斷變大，模型似乎也在不斷變大，GPU的使用也慢慢從一個增加到兩個，最後甚至用到八個。你可以清楚看到神經網路從這些極其小眾的個別使用案例開始，一開始幾乎什麼都做不了，但後來範圍越來越廣。我對自己說：「哇，CNN還有什麼做不到的嗎？」因為我每天都在ArXiv上看到人們把CNN應用到其他領域。

這種漸進的變化一直在背景中影響著我的生活。每隔幾天，就會有新的進展，我就會想：「嗯，也許智慧真的就只是大量的運算能力加上大量的資料再加上大量的參數。」也許Moravec、Legg和Kurzweil是對的。我就記下這點，繼續思考：「嗯，如果這是真的，那將會有很多含意。」

我想這並沒有一個頓悟的時刻。就只是持續觀察這個似乎只有少數人看到的趨勢，可能只有Ilya Sutskever和Jürgen Schmidhuber這樣的人也看到了。我會持續關注並注意到，隨著時間推移，世界越來越像他們所描述的樣子，而不是像我原本認為的那樣，即演算法特別重要，需要深刻的洞見才能做事。他們描述的世界不斷在實現。

然後，GPT-1出現了，我想：「哇，這個無監督的情感神經元是自己在學習，對吧？」這看起來相當驚人。它也有一個非常以運算為中心的觀點：你只要建立Transformer，智慧就會出現。接著GPT-2出現了，我有了一個神聖時刻：你看看它的提示和摘要能力，天啊。我們是不是生活在他們預言的世界裡？

後來GPT-3出現了，那真的是關鍵的測試。這是神經網路歷史上最大規模的擴展之一，從GPT-2到GPT-3。這不像圍棋那樣是一個非常狹窄的特定任務；這真的看起來像是一個關鍵測試，如果規模化是無效的，那麼GPT-3的論文應該會完全令人失望，不會展示任何重要的東西。相反，如果規模化是正確的，你就必然會得到比GPT-2更令人印象深刻的結果。

所以，我打開第一頁，可能是第二頁，我看到了少樣本學習（few-shot learning）的圖表。我們正生活在規模化的世界裡。Legg和Kurzweil是對的。然後，我轉向Twitter，其他人都在說：「噢，這顯示規模化效果很差；甚至不是最先進的。」這讓我非常生氣。我必須把這些都寫下來；網路上有人錯了。

【專有名詞解釋】

- 規模化（scaling）：在AI領域中指增加模型規模、運算能力和數據量

- 連結主義（connectionism）：一種認知科學理論

- CNN：卷積神經網路

- 少樣本學習（few-shot learning）：AI用少量範例學習的能力

Lavie Fu

搜尋此網誌

Gwern對AI規模化的觀察（以AI虛擬化身在影片中呈現）

標籤

留言

張貼留言

這個網誌中的熱門文章

大團體覺醒LGAT課程：英文維基百科+Claude AI

OpenAI前員工X爆料&楊立昆臉書〈諷刺文〉

美國總統川普台積電投資宣布白宮記者會（英中對照）