跳到主要內容

Gwern對AI規模化的觀察(以AI虛擬化身在影片中呈現)

Gwern Branwen因在其網站 gwern.net 上撰寫有關AI、心理學、統計學和技術等廣泛主題的詳細論文和分析而聞名。他對AI安全和發展的討論做出了顯著貢獻,並在促智藥、遺傳學和其他科學主題方面進行了廣泛的研究和寫作。他的著作的特點是深入的研究、廣泛的引用和詳細的方法論部分。

Dwarkesh Patel:你是在2020年時,少數在OpenAI以外,對於規模化(scaling)有詳細實證模型的人之一。我很好奇在當時,是什麼樣的思考過程讓你能夠看到你在規模化假說那篇文章中所描繪的願景?

Gwern Branwen:如果要談我的思想歷程,大概要從2000年代中期說起,那時我正在閱讀Ray Kurzweil的作品。當時他們提出了一個基本的連結主義論點:如果你有足夠的運算能力,就可能發現能與人腦相匹配的神經網路架構。在擁有這樣的運算能力之前,AI基本上看起來是徒勞的。

我覺得這個論點很難令人信服,因為這非常像是一種「蓋好了他們就會來」的進步觀點,我不認為這是正確的。我認為,僅僅因為你擁有某個與人腦相當的超級電腦,就能憑空產生正確的演算法,這想法很荒謬。演算法是非常複雜困難的。它們需要深刻的洞見,至少我是這麼認為的。這似乎需要非常困難的數學。你不能只是買一堆電腦,就期待能從中得到進階的AI。這簡直就像是魔術思維。

所以,我知道這個論點,但我非常懷疑,也沒有太在意。後來,Shane Legg和其他一些人在接下來幾年非常支持這個觀點,這是我對超人類主義、Less Wrong和AI風險產生興趣的一部分。我特別關注Legg的部落格文章,他用更新的數據延伸了Kurzweil和Moravec的趨勢。他做出了非常精確的預測,說我們會在2019年左右得到第一個通用系統,隨著摩爾定律持續發展。然後到2025年,他說我們應該會有具有通用能力的類人系統,到2030年,我們應該會有AGI(通用AI)。

在這過程中,DANNet和AlexNet問世了。當這些出現時,我想:「哇,這對連結主義觀點來說似乎是一個令人印象深刻的成功案例。」但這只是一個孤立的成功案例,還是就像Kurzweil、Moravec和Shane Legg所預測的那樣?就是我們會得到GPU,然後得到更好的演算法,這些就會自然出現?

因此,我開始想這是個值得關注的趨勢。也許這個想法並不像我最初認為的那樣愚蠢。我就持續閱讀深度學習的文獻,一次又一次注意到資料集的規模不斷變大,模型似乎也在不斷變大,GPU的使用也慢慢從一個增加到兩個,最後甚至用到八個。你可以清楚看到神經網路從這些極其小眾的個別使用案例開始,一開始幾乎什麼都做不了,但後來範圍越來越廣。我對自己說:「哇,CNN還有什麼做不到的嗎?」因為我每天都在ArXiv上看到人們把CNN應用到其他領域。

這種漸進的變化一直在背景中影響著我的生活。每隔幾天,就會有新的進展,我就會想:「嗯,也許智慧真的就只是大量的運算能力加上大量的資料再加上大量的參數。」也許Moravec、Legg和Kurzweil是對的。我就記下這點,繼續思考:「嗯,如果這是真的,那將會有很多含意。」

我想這並沒有一個頓悟的時刻。就只是持續觀察這個似乎只有少數人看到的趨勢,可能只有Ilya Sutskever和Jürgen Schmidhuber這樣的人也看到了。我會持續關注並注意到,隨著時間推移,世界越來越像他們所描述的樣子,而不是像我原本認為的那樣,即演算法特別重要,需要深刻的洞見才能做事。他們描述的世界不斷在實現。

然後,GPT-1出現了,我想:「哇,這個無監督的情感神經元是自己在學習,對吧?」這看起來相當驚人。它也有一個非常以運算為中心的觀點:你只要建立Transformer,智慧就會出現。接著GPT-2出現了,我有了一個神聖時刻:你看看它的提示和摘要能力,天啊。我們是不是生活在他們預言的世界裡?

後來GPT-3出現了,那真的是關鍵的測試。這是神經網路歷史上最大規模的擴展之一,從GPT-2到GPT-3。這不像圍棋那樣是一個非常狹窄的特定任務;這真的看起來像是一個關鍵測試,如果規模化是無效的,那麼GPT-3的論文應該會完全令人失望,不會展示任何重要的東西。相反,如果規模化是正確的,你就必然會得到比GPT-2更令人印象深刻的結果。

所以,我打開第一頁,可能是第二頁,我看到了少樣本學習(few-shot learning)的圖表。我們正生活在規模化的世界裡。Legg和Kurzweil是對的。然後,我轉向Twitter,其他人都在說:「噢,這顯示規模化效果很差;甚至不是最先進的。」這讓我非常生氣。我必須把這些都寫下來;網路上有人錯了。


【專有名詞解釋】

- 規模化(scaling):在AI領域中指增加模型規模、運算能力和數據量

- 連結主義(connectionism):一種認知科學理論

- CNN:卷積神經網路

- 少樣本學習(few-shot learning):AI用少量範例學習的能力


留言

這個網誌中的熱門文章

OpenAI前員工X爆料&楊立昆臉書〈諷刺文〉

【OpenAI ex-employee & Yann LeCun's sarcasm】 🚀 📣 OpenAI前員工Jacob Hilton在X上的爆料全文 📣 🚀 一年多前,當我離開 OpenAI 時,我簽署了一份 「不貶低協議」(non-disparagement agreement) ,並且未披露協議本身,沒有其他原因,只是為了避免失去我的 「既得股權」(vested equity) 。  該協議明確表示,作為簽署的回報,我被允許保留我的既得股權,並且沒有提供任何其他東西。 我不明白為什麼有人會簽署它,如果他們認為這不會對他們的權益產生影響。 我以良好的條件離開了OpenAI,所以我認為幾乎所有離職員工都遵守了這份協議。 在簽署協議之前,我無意批評OpenAI,但對於放棄這樣做的權利感到失望。 昨天,OpenAI 聯繫我,要求我解除該協議,隨後KelseyTuoc在Vox上刊登調查報告: 由於 AI 的變革潛力,開發先進 AI 的主要實驗室必須為那些希望為公共利益發聲的人提供保護。 其中首先是對不報復的具有約束力的承諾。 即使是現在,OpenAI仍可 阻止員工出售其股權,使其在未知的時間內變得毫無價值。 OpenAI 在一份聲明中表示,「從歷史上看,前員工無論在哪裡工作,都有資格以相同的價格出售;我們預計這一點不會改變。」 我相信OpenAI的這項聲明是出於誠實的意圖。 但考量到 OpenAI先前曾拿能否取得 (既得股權變現) 流動性作為一種恐嚇策略,許多前員工仍不敢發聲。 我邀請OpenAI直接與前員工聯繫,以澄清他們將始終以合法可執行的方式獲得平等的流動性的機會。 在他們這樣做之前,大眾不應指望前僱員會坦誠相待。 本人致OpenAI 的許多善良和才華橫溢的前同事們:我希望您們能夠理解為什麼我覺得有必要公開談論這個議題。 該合約與我們對安全和有益的AI的共同承諾不一致,您值得更好的工作合約條件。 原文連結: https://twitter.com/JacobHHilton/status/1794090550863200728 😏 楊立昆在臉書上的〈諷刺文〉 😏 來ClosedAI工作吧!隨著 AGI 即將到來,您 將擁有 目前 估 值 42 X 百萬的6次方美元(sextillionnollars) 公司 的 股票 。 如果您辭退,...

京晨科技 NUUO

2015年01月30日 京晨科公告營運長異動 :營運長施錦昌退休 鼎新電腦 官網資料:特助施錦昌提到:「以前未使用ERP系統時,需不斷手動調整資訊,不但人工成本高,錯誤率也高,讓人很難信任報表資料。所以之前在進行一些重大決策時,常常會有擔憂決策錯誤的壓力。但自導入ERP再加EasyFlow之後,此類問題改良許多。」 以下摘編自:《遠見雜誌》2013年2月號/臺大創聯會 (NTUEA)2013年12月25日臉書/《工商時報》2015年01月05日 【京晨科技NUUO Leaders】 董事長 楊文彬 :台大大氣系,高職念五年、大學念七年畢業,暱稱Killer(殺手) 總經理 黃建峯 (暱稱卡通)、研發副總 黃建山 (暱稱卡弟,意指卡通的弟弟),台大資工系友兄弟檔兩人求學時序:附中、台大、研究所。 曾創業失敗 念大三時,BBCall和黑金剛手機剛竄紅,楊文彬早上在大氣系打工當助理,閒暇時就跑去賣手機,很快就開通訊行,第一個月大賺40萬,短短半年開了五家店,人家喚他「少年楊董」,叱吒一時。但 成功來的太快 ,讓他 志得意滿,到處遊山玩水 ,直到警覺不對,財務已出現漏洞, 被倒帳幾百萬 。「我那時真的非常落魄,出現人生中第一根白髮,還得兼好幾份工、送報還債,但失敗經驗讓我學到 管理 及 財務 的重要,」楊文彬說。 安控門外漢 找到市場利基 2001年楊文彬拿出30萬與好朋友們創業,就是希望 用自己喜歡的方式 燃燒熱情 ,其間創立電腦設計、安控軟體、影像處理、遊戲、網通技術等五家公司。其中最成功的京晨科技 (NUUO Inc.),利用B2B行銷全球安全監控的高端市場。從創業的第一天起,京晨就非常務實。切入少有頂尖人才想做、卻又年年成長的監控安防產業,加上不閉門造車、積極聆聽市場聲音,這些都是成功的主要原因。     楊文彬是 業務 出身,創業時的第一個想法是要先從產業著手,只要找到對的產業,你才有在裡面的生存空間,就好比釣魚一樣,要釣到魚,前提是那個池塘裡,要有夠多的魚。等到決定市場了,接下來的問題,才是要推出什麼產品,用什麼方式、什麼技術,去做產品,甚至開拓市場。就在這個思考邏輯下,當時的三人小組,在密集開會後,得到一個結論,就是京晨科需要的是 高成長、高毛利 ,但不要太大的產業。要高毛利、高成長,是考量到當時的京...

楊立昆以自身經歷談H1-B

美大選期間在X上和馬斯克大唱反調後,Meta首席AI科學家楊立昆(Yann LeCun )氣得公告「我不再在X上寫貼文。只轉發其他平台的連結、留言朋友的推文」,所以他在自家公司平台上只對馬斯克在X上的截圖,留言區討論串就文明多了。 https://www.facebook.com/share/p/19Xy7kURLq/ 以下是楊立昆在臉書上的貼文和精選交流: 看到圍繞 H1-B 簽證議題的 MAGA 陣營陷入混亂很有趣。   在美國,持有 STEM 博士學位的人中,超過 50% 並非生於美國。   美國大學 STEM 領域的教授中,比例更高的大多數也並非生於美國。   在美國頂尖大學工程領域(包括電腦科學)的博士生中,絕大多數是非美國出生的學生。   美國科技公司中,大量的創辦人、CEO、高階管理層也並非生於美國。其中包括:   - Satya Nadella(微軟)  - Sergey Brin(Google)- Jensen Huang(輝達)   - Sundar Pichai(Alphabet)  - Elon Musk  - Hock Tan(博通)   - Vinod Khosla(Sun、Khosla Ventures)   許多人是以學生簽證來到美國,並且大多在某個階段持有過 H1-B 工作簽證。我最初是持 J-1 簽證來美國(原本沒打算待超過兩年),後來轉為 H1-B,拿到綠卡,最後成為美國公民。 ▷▷▷▷▷▷ Alyosha Efros:民主黨在這個議題上完全讓步給了共和黨,甚是可惜。他們只關注非法移民問題,結果疏遠了數百萬合法移民,這些人苦於應對荒謬的美國移民程序。   如果民主黨在這個問題上主導局勢,也許馬斯克和其他科技巨頭就不會把靈魂賣給川普了……   Yann LeCun:幾個原因導致矽谷一些有影響力的人物選擇站在 MAGA 一邊:   1. AI 和加密貨幣的監管障礙威脅   2. 「未實現收益稅」的恐慌   3. 對 H1-B 改革的冷淡支持...