跳到主要內容

Gwern對AI規模化的觀察(以AI虛擬化身在影片中呈現)

Gwern Branwen因在其網站 gwern.net 上撰寫有關AI、心理學、統計學和技術等廣泛主題的詳細論文和分析而聞名。他對AI安全和發展的討論做出了顯著貢獻,並在促智藥、遺傳學和其他科學主題方面進行了廣泛的研究和寫作。他的著作的特點是深入的研究、廣泛的引用和詳細的方法論部分。

Dwarkesh Patel:你是在2020年時,少數在OpenAI以外,對於規模化(scaling)有詳細實證模型的人之一。我很好奇在當時,是什麼樣的思考過程讓你能夠看到你在規模化假說那篇文章中所描繪的願景?

Gwern Branwen:如果要談我的思想歷程,大概要從2000年代中期說起,那時我正在閱讀Ray Kurzweil的作品。當時他們提出了一個基本的連結主義論點:如果你有足夠的運算能力,就可能發現能與人腦相匹配的神經網路架構。在擁有這樣的運算能力之前,AI基本上看起來是徒勞的。

我覺得這個論點很難令人信服,因為這非常像是一種「蓋好了他們就會來」的進步觀點,我不認為這是正確的。我認為,僅僅因為你擁有某個與人腦相當的超級電腦,就能憑空產生正確的演算法,這想法很荒謬。演算法是非常複雜困難的。它們需要深刻的洞見,至少我是這麼認為的。這似乎需要非常困難的數學。你不能只是買一堆電腦,就期待能從中得到進階的AI。這簡直就像是魔術思維。

所以,我知道這個論點,但我非常懷疑,也沒有太在意。後來,Shane Legg和其他一些人在接下來幾年非常支持這個觀點,這是我對超人類主義、Less Wrong和AI風險產生興趣的一部分。我特別關注Legg的部落格文章,他用更新的數據延伸了Kurzweil和Moravec的趨勢。他做出了非常精確的預測,說我們會在2019年左右得到第一個通用系統,隨著摩爾定律持續發展。然後到2025年,他說我們應該會有具有通用能力的類人系統,到2030年,我們應該會有AGI(通用AI)。

在這過程中,DANNet和AlexNet問世了。當這些出現時,我想:「哇,這對連結主義觀點來說似乎是一個令人印象深刻的成功案例。」但這只是一個孤立的成功案例,還是就像Kurzweil、Moravec和Shane Legg所預測的那樣?就是我們會得到GPU,然後得到更好的演算法,這些就會自然出現?

因此,我開始想這是個值得關注的趨勢。也許這個想法並不像我最初認為的那樣愚蠢。我就持續閱讀深度學習的文獻,一次又一次注意到資料集的規模不斷變大,模型似乎也在不斷變大,GPU的使用也慢慢從一個增加到兩個,最後甚至用到八個。你可以清楚看到神經網路從這些極其小眾的個別使用案例開始,一開始幾乎什麼都做不了,但後來範圍越來越廣。我對自己說:「哇,CNN還有什麼做不到的嗎?」因為我每天都在ArXiv上看到人們把CNN應用到其他領域。

這種漸進的變化一直在背景中影響著我的生活。每隔幾天,就會有新的進展,我就會想:「嗯,也許智慧真的就只是大量的運算能力加上大量的資料再加上大量的參數。」也許Moravec、Legg和Kurzweil是對的。我就記下這點,繼續思考:「嗯,如果這是真的,那將會有很多含意。」

我想這並沒有一個頓悟的時刻。就只是持續觀察這個似乎只有少數人看到的趨勢,可能只有Ilya Sutskever和Jürgen Schmidhuber這樣的人也看到了。我會持續關注並注意到,隨著時間推移,世界越來越像他們所描述的樣子,而不是像我原本認為的那樣,即演算法特別重要,需要深刻的洞見才能做事。他們描述的世界不斷在實現。

然後,GPT-1出現了,我想:「哇,這個無監督的情感神經元是自己在學習,對吧?」這看起來相當驚人。它也有一個非常以運算為中心的觀點:你只要建立Transformer,智慧就會出現。接著GPT-2出現了,我有了一個神聖時刻:你看看它的提示和摘要能力,天啊。我們是不是生活在他們預言的世界裡?

後來GPT-3出現了,那真的是關鍵的測試。這是神經網路歷史上最大規模的擴展之一,從GPT-2到GPT-3。這不像圍棋那樣是一個非常狹窄的特定任務;這真的看起來像是一個關鍵測試,如果規模化是無效的,那麼GPT-3的論文應該會完全令人失望,不會展示任何重要的東西。相反,如果規模化是正確的,你就必然會得到比GPT-2更令人印象深刻的結果。

所以,我打開第一頁,可能是第二頁,我看到了少樣本學習(few-shot learning)的圖表。我們正生活在規模化的世界裡。Legg和Kurzweil是對的。然後,我轉向Twitter,其他人都在說:「噢,這顯示規模化效果很差;甚至不是最先進的。」這讓我非常生氣。我必須把這些都寫下來;網路上有人錯了。


【專有名詞解釋】

- 規模化(scaling):在AI領域中指增加模型規模、運算能力和數據量

- 連結主義(connectionism):一種認知科學理論

- CNN:卷積神經網路

- 少樣本學習(few-shot learning):AI用少量範例學習的能力


留言

這個網誌中的熱門文章

OpenAI前員工X爆料&楊立昆臉書〈諷刺文〉

【OpenAI ex-employee & Yann LeCun's sarcasm】 🚀 📣 OpenAI前員工Jacob Hilton在X上的爆料全文 📣 🚀 一年多前,當我離開 OpenAI 時,我簽署了一份 「不貶低協議」(non-disparagement agreement) ,並且未披露協議本身,沒有其他原因,只是為了避免失去我的 「既得股權」(vested equity) 。  該協議明確表示,作為簽署的回報,我被允許保留我的既得股權,並且沒有提供任何其他東西。 我不明白為什麼有人會簽署它,如果他們認為這不會對他們的權益產生影響。 我以良好的條件離開了OpenAI,所以我認為幾乎所有離職員工都遵守了這份協議。 在簽署協議之前,我無意批評OpenAI,但對於放棄這樣做的權利感到失望。 昨天,OpenAI 聯繫我,要求我解除該協議,隨後KelseyTuoc在Vox上刊登調查報告: 由於 AI 的變革潛力,開發先進 AI 的主要實驗室必須為那些希望為公共利益發聲的人提供保護。 其中首先是對不報復的具有約束力的承諾。 即使是現在,OpenAI仍可 阻止員工出售其股權,使其在未知的時間內變得毫無價值。 OpenAI 在一份聲明中表示,「從歷史上看,前員工無論在哪裡工作,都有資格以相同的價格出售;我們預計這一點不會改變。」 我相信OpenAI的這項聲明是出於誠實的意圖。 但考量到 OpenAI先前曾拿能否取得 (既得股權變現) 流動性作為一種恐嚇策略,許多前員工仍不敢發聲。 我邀請OpenAI直接與前員工聯繫,以澄清他們將始終以合法可執行的方式獲得平等的流動性的機會。 在他們這樣做之前,大眾不應指望前僱員會坦誠相待。 本人致OpenAI 的許多善良和才華橫溢的前同事們:我希望您們能夠理解為什麼我覺得有必要公開談論這個議題。 該合約與我們對安全和有益的AI的共同承諾不一致,您值得更好的工作合約條件。 原文連結: https://twitter.com/JacobHHilton/status/1794090550863200728 😏 楊立昆在臉書上的〈諷刺文〉 😏 來ClosedAI工作吧!隨著 AGI 即將到來,您 將擁有 目前 估 值 42 X 百萬的6次方美元(sextillionnollars) 公司 的 股票 。 如果您辭退,...

大團體覺醒LGAT課程:英文維基百科+Claude AI

資料來源: 1. 英文版維基百科(有數處註明:[需要引文來驗證],顯示共創的痕跡) 2. 詢問道德標準較高的AI Claude的回覆 中文化:Google AI Gemini Claude: LGAT課程,指的是個人發展計劃,通常包括大型團體參與者參加的密集多日研討會。這些計劃於1970年代出現,並以各種形式持續至今。 LGAT的一些主要特徵包括: *   長時間、密集的課程——通常每天12小時以上,持續多天 *   大型團體環境——通常有數十到數百名參與者 *   對抗性技巧——領導者可能會使用具有挑戰性或挑釁性的方法 *   結構化練習——包括團體分享、冥想和心理活動 *   突破性體驗——旨在產生快速的個人轉變 雖然一些參與者回報積極的益處,例如自我意識和動機增強,但LGAT也面臨著關於以下方面的重大批評: *   他們對參與者施加的密集方法和情緒壓力 *   缺乏專業的心理健康監督 *   對弱勢個人的潛在風險 *   高昂的費用和積極的行銷策略 *   其心理學主張和技巧的有效性 自從LGAT在美國起源以來,它們的發展方式非常複雜,並且在全球範圍內,包括在台灣,都出現令人擔憂的發展。讓我分享一個更廣泛的視角: 歷史發展: *   1971年從EST(Erhard研討會訓練)開始 *   衍生出眾多分支,如Landmark Forum、Lifespring和許多本地化的變體 *   方法在全球傳播,並經常針對不同的文化進行調整/修改 全球常見的擔憂: 1.  財務剝削 ——高額費用和招募他人的壓力 2.  心理操縱 ——剝奪睡眠、受控環境、情緒強度 3.  類似邪教的元素:     *   造成對計劃的依賴     *   將參與者與持懷疑態度的家庭成員隔離開來     *   使用內部語言和層級結構     *   ...

美國總統川普台積電投資宣布白宮記者會(英中對照)

中文化:第一部分Google Gemini ,其餘 OpenAI ChatGPT 【川普總統】 1:30 Today, Taiwan Semiconductor is announcing that they will be investing at least $100 billion in new capital in the United States over the next short period of time to build state-of-the-art semiconductor manufacturing facilities. I think mostly it will be in Arizona, which is a great state. 今天,TSMC宣布將在接下來的短期內,於美國投資至少 1000 億美元的新資本,以興建最先進的半導體製造廠。我認為大部分將位於亞利桑那州,那是一個很棒的州。 I like it because I want it, but I want most of them, actually. We want big, and we want the most powerful AI chip in the world to be made right here in America. It will be a big percentage of the chips made by their company. As you know, they're based mostly in Taiwan, and they're far and away the biggest – there's nobody even close. 我喜歡這樣,因為我想要這樣,但實際上,我想要他們的大部分產能。我們想要大規模的生產,並且我們希望世界上最強大的 AI 晶片能在這裡,在美國製造。這將佔他們公司生產的很大一部分。你們知道,他們主要在臺灣設廠,而且他們是遙遙領先的龍頭,沒有其他公司比得上。 This $100 billion investment will go into building five cutting-edge fabrication facilities in the gr...