跳到主要內容

Sebastian Raschka受訪內容摘要

Sebastian Raschka在2024年11月出《讓 AI 好好說話!從頭打造 LLM (大型語言模型) 實戰秘笈》的英文版 Build a Large Language Model (from Scratch)  時受訪內容摘要(用AI抓對話和中文化,專有名詞請以旗標科技翻譯書為主):

《讓 AI 好好說話!從頭打造 LLM (大型語言模型) 實戰秘笈》

https://www.tenlong.com.tw/products/9789863128236

▍Sebastian Raschka 從威斯康星大學麥迪遜分校的充實學術生涯中,於 2022 年加入 Lightning AI,這是受到對新挑戰的渴望以及在快速發展的 AI 領域中實作coding的熱情所驅動。

以下是影響他決定的關鍵因素:

1. 對新挑戰的渴望:儘管 Raschka 喜歡他的學術生涯,但他感到有必要超越教授相同課程的重複性循環和研究進展的緩慢步伐。他尋求一個更動態的環境,在那裡他可以不斷學習並迎接新挑戰。

2. 對coding的熱情:Raschka 對coding有著強烈的愛好,並且感到學術生涯中的管理工作限制了他。他希望能更多地參與 AI 模型的開發和實現。

3. 被產業對大型語言模型(LLMs)的關注所吸引:Raschka 被產業對大型語言模型(LLMs)的關注以及使用尖端技術和大量計算資源的機會所吸引,這些在他的學術環境中較難實現。

Lightning AI 提供理想的環境來追求他的熱情。它提供:

1. 高級計算平台:Lightning AI 的平台提供一個先進的基於雲端的計算環境,具有靈活的 GPU 切換、作業提交和互動式coding功能,非常適合他對計算密集型 LLMs 的研究工作。

2. 開源專案:Lightning AI 對開源專案的承諾,例如 PyTorch Lightning 和 Lit GPT,符合 Raschka 對貢獻 AI 社群並開發實用工具的興趣。

3. 以客戶為中心的研發:Raschka 作為一名高級研究工程師,負責解決客戶需求、進行內部研發並實現最先進的解決方案,讓他能將自己的研究和coding專長與實際應用結合起來。

總而言之,Raschka 的轉變是由個人和職業上的願望結合所驅動的。 Lightning AI 這家公司擁抱了他對coding的熱愛,提供使用尖端技術的機會,並讓他有意義地促進 AI 的發展。

========================


▍身為 Lightning AI 的資深研究工程師,Sebastian Raschka 扮演著多重角色,將他對 AI 基礎知識的深刻理解,特別是在大型語言模型(LLMs)方面的理解,與他對實作coding和實用應用開發的熱情相結合。他的貢獻在 Lightning AI 的運營和研發以及透過參與開源專案和與更廣泛的 AI 社群互動方面都具有關鍵作用。

以下是他的主要職責:

1. 開源 LLM 開發和維護:Raschka 的很大一部分時間都投入在維護和開發開源的 LLM 庫 Lit GPT。該庫為實作和優化最先進的 LLM 提供一個平台,使他能夠了解 LLM 架構的最新進展,並能與 AI 社群分享他的知識。

2. 內部研發和客戶解決方案:Raschka 也在 Lightning AI 的內部研發工作中做出重要貢獻。他與客戶密切合作,識別他們的需求,開發針對這些需求的解決方案,並實現最先進的技術,以確保 Lightning AI 始終處於 AI 技術的前沿。

3. 支援 Lightning AI 的平台和團隊:雖然 Raschka 的重點是 LLMs,但他的專業知識也擴展到 AI 的其他領域。他支持 Lightning AI 平台上的工作團隊,確保他的 LLM 工作順利整合,並對公司的整體研究工作做出貢獻。

Raschka 的角色體現研究、工程和客戶重視之間的協同作用,這推動 Lightning AI 的創新。他對開源貢獻的承諾確保他的工作不僅有益於 Lightning AI,還有益於更廣泛的 AI 社群。

========================

▍Sebastian 提供具有洞見的職業建議,這些建議特別適合那些在快速變化的 AI 領域中導航的人,基於他自己從學術界轉向產業的經驗:

1. 尋找你的專注點:儘管對 AI 的最新進展有廣泛的認識很重要,但專注於特定領域能讓你發展深厚的專業知識並脫穎而出。他承認追逐每一個新趨勢的吸引力,但強調選擇一個專注點並磨練你在該領域的技能的重要性。

2. 擁抱 T 型技能組合:這意味著在一兩個特定領域發展深厚的專業知識("T" 型的垂直部分),同時保持對相關領域的廣泛了解("T" 型的水平部分)。這種方法結合專業知識和適應力,能將你的專長連接到更廣泛的背景中。

3. 追求你的熱情:Sebastian 強調找到你真正喜愛的工作的重要性。熱情推動動力,帶來更大的奉獻精神,最終導致成功。他相信,當你對所做的事情充滿熱情時,你更有可能投入必要的努力來變得真正出色。

Sebastian 的建議強調在技能發展中平衡深度和廣度的重要性,同時保持對你的熱情的真誠。這種方法使個人在所選領域中變得非常熟練,同時在不斷演變的 AI 領域中保持適應力和參與度。

========================

▍從零開始建構一個大型語言模型(LLM)是一個複雜且多面向的過程,包含幾個關鍵階段,這些階段在 Sebastian Raschka 的書有詳細介紹:

1. 理解和準備輸入數據:這個初始階段包括仔細選擇和準備 LLM 的訓練數據。這包括理解數據的結構和格式,清理和預處理數據,並將其組織成適合訓練的單位。Raschka 在他的書中強調使用公共領域數據的重要性,以避免版權問題,尤其是針對教育用途。

2. 編寫 LLM 架構代碼:這個階段專注於實作 LLM 的核心架構,通常是基於 transformer 的模型,如 GPT-2。Raschka 的書提供使用 PyTorch 編寫架構各個組件的詳細操作指南。他還強調瞭解每個組件的複雜性的重要性,例如注意機制、位置嵌入和前饋網絡,以深入瞭解 LLM 的運作方式。

3. 預訓練 LLM:預訓練涉及在大量文本數據集上訓練coding的 LLM 架構,以學習一般的語言表示。Raschka 的書展示使用一本小型公共領域書籍進行這個過程,讓讀者能在自己的機器上運行。他還討論加載預訓練權重(如 GPT-2 的權重)來提高性能的方法,無需大量計算資源。

4. 微調 LLM:微調涉及將預訓練的 LLM 調整為特定任務或領域。這可以包括針對分類任務、指令跟隨或其他專門應用的微調。Raschka 的書涵蓋各種類型的微調,包括指令微調,使用一個小型自創數據集來展示如何有效地訓練 LLM 跟隨指令。

關鍵考量因素:

1. 計算資源:從零開始建構和訓練 LLM 可能會耗費大量計算資源,需要顯著的 GPU 記憶體和處理能力。Raschka 的書通過專注於像 GPT-2 這樣的小型模型來解決這個問題,這些模型可以在筆記型電腦上進行訓練,並提供加載預訓練權重的指導,以利用現有模型。

2. 數據質量和規模:訓練數據的質量和規模對 LLM 的性能至關重要。Raschka 強調使用高質量數據,並討論過濾和預處理數據以提高其適用性的技術。

理解陷阱:建構 LLM 涉及理解潛在的陷阱和在過程中可能出現的調試問題。Raschka 的實作方法提供對這些挑戰的見解,並提出實際解決方案。

從零開始建構 LLM 的好處:

更深入的理解:從零開始建構 LLM 提供對其內部運作的深刻理解,使開發者能夠進行故障排除、優化,甚至對現有 LLM 架構進行創新。

定制化和控制:這種方法允許對 LLM 的架構、訓練數據和微調過程進行更大的定制化和控制,從而產生針對特定需求量身定制的模型。

教育價值:即使是建構較小的 LLM,這個過程也提供顯著的教育價值,有助於全面了解 LLM 開發中涉及的關鍵概念和技術。

儘管 Raschka 的書專注於建構一個較小的 LLM 以進行教育用途,但相同的基本原則和階段同樣適用於建構更大、更複雜的模型。通過從零開始的過程,開發者可以獲得寶貴的見解,這些見解可以應用於解決現實世界中的 LLM 開發挑戰。

========================

▍Sebastian Raschka 討論回歸(regressions)和損失函數( loss functions)在序數回歸(ordinal regression)上下文中的應用,這是一種介於回歸和分類之間的方法。

回歸模型:假設數字之間具有等間隔,而分類模型則不考慮預測類別與真實類別之間的距離。

序數回歸 結合兩者的特點,以處理具有任意間隔的有序類別。

序數回歸的一個例子是預測顧客滿意度,範圍從 1 到 5。你不能將其視為分類問題,因為偏差四個點比偏差一個點更嚴重。你也不能將其視為回歸問題,因為 1 與 2 之間的差異可能與 4 和 5 之間的差異不同。

Raschka解釋,為序數回歸開發特殊的損失函數。這些損失函數可以插入到各種模型中,如卷積神經網絡、多層感知器和大型語言模型。他舉例使用卷積神經網絡進行年齡預測。

序數回歸的商業用例:包括預測顧客滿意度、保險損害估算和 Amazon 排名。

========================

▍Sebastian Raschka 探討使用長上下文 LLM 和檢索增強生成(RAG)系統之間的權衡,特別是在從文檔中獲取和查詢資訊的上下文中。以下是關鍵點總結:

長上下文 LLM:

優點:

簡單性:只需將整個文檔作為輸入餵給 LLM,它就能直接回答關於內容的問題。

(對單一文檔)潛在的更高準確性:如果關鍵資訊位於單一文檔內的任何位置,長上下文 LLM 理論上能夠捕捉到這些資訊,無需檢索和排序步驟。

高效的緩存:可以緩存輸入文檔的嵌入,避免每次問同一文檔問題時都需重新計算。

缺點:

高計算成本:處理長文檔需要大量的 GPU 記憶體和計算能力,這可能會很昂貴。

有限的可擴展性:隨著文檔數量的增加,使用長上下文來管理和查詢它們變得越來越困難和低效。

RAG 系統:

優點:

1. 成本效益:RAG 系統通常使用較小的 LLM,使其計算需求更低,並且比運行長上下文的大型 LLM 更具成本效益。

2. 可擴展性:RAG 擅長處理大型文檔集合。它構建一個可搜索的文檔塊數據庫,允許高效地檢索相關資訊。

3. 靈活性:RAG 系統可以通過簡單地將新資訊添加到文檔數據庫中來輕鬆更新。

缺點:

1. 複雜性:構建和維護 RAG 系統涉及額外的步驟,如將文檔分塊、創建嵌入、將其存儲在數據庫中並實施檢索機制。

2. 檢索錯誤的潛力:RAG 的效果取決於檢索系統的質量。相關塊檢索不準確可能會導致錯誤或不完整的答案。

選擇正確的方法:

選擇使用長上下文 LLM 還是 RAG 系統很大程度上取決於具體使用案例和可用資源:

1. 對於少量文檔和不頻繁的查詢,長上下文 LLM 可能更簡單且潛在地更準確。如果 GPU 記憶體不是限制,並且你只問幾次關於某個文檔的問題,直接將整個文檔餵給 LLM 的簡單性可能超過計算成本。

2. 對於大型文檔集合和頻繁的查詢,RAG 系統提供更好的可擴展性和成本效益。如果你需要頻繁地從龐大的知識庫中訪問資訊,使用 RAG 高效檢索相關塊的能力使其成為更實用的選擇。

新興趨勢:

努力使 LLM 更加高效,有可能縮小長上下文模型和 RAG 系統之間的計算成本差距。像 Apple 這樣的公司正在開發的設備內 LLM 正在推動小型模型和有限資源的可能性邊界,有可能擴大長上下文方法的適用性。LLM 技術的演變和更高效技術的開發正在不斷改變長上下文 LLM 和 RAG 系統之間的平衡。最終,最佳方法將取決於對每個使用案例的具體需求和限制的仔細評估。

========================

▍資料Sebastian Raschka探討多模態大型語言模型(LLM)的迷人世界,探討這些模型如何透過納入圖像和 音訊訊號等其他模態來擴展傳統基於文本的 LLM 的功能。以下是關鍵見解的總結:

什麼是多模態 LLM?

多模態 LLM 擺脫純粹基於文本的輸入和輸出的限制,使其能夠理解和與以多種形式呈現的資訊進行交互。這擴展 LLM 的潛在應用,包括:回答有關圖像的問題。為圖像生成描述或字幕。甚至可能根據文本提示或其他輸入生成圖像。

多模態 LLM 如何運作?

有兩種主要技術將多模態數據納入 LLM 中:

1. 早期融合:在輸入層級整合圖像:

圖像coding:首先將圖像分為若干塊,每個塊通過圖像coding器(如視覺 transformer 或卷積神經網絡)生成嵌入向量。

投影:然後將圖像嵌入投影到與 LLM 使用的文本嵌入匹配的空間中。

拼接和輸入:將投影的圖像嵌入與文本嵌入拼接在一起,並作為 LLM 的輸入,將圖像資訊本質上視為額外的“標記”。

2. 晚期融合:在注意力層級整合圖像:

交叉注意力:LLM 的注意力機制被修改為納入交叉注意力,類似於原始 transformer 架構。

coding的圖像嵌入:從圖像coding器生成的嵌入被輸入到交叉注意力層中,與文本嵌入一起進行。

聯合處理:交叉注意力機制允許 LLM 在計算過程中聯合處理和關注文本和視覺資訊。

關鍵點和觀察:

1. 簡單性:儘管處理多個模態增加複雜性,但 LLM 的基本架構相對保持不變。關鍵創新在於額外模態的coding和整合。

2. 回歸本源:在多模態 LLM 中使用交叉注意力回到原始 transformer 設計,突顯注意力機制核心概念的持久相關性。

3. 圖像coding器的重要性:多模態 LLM 的效果取決於用於將視覺數據轉換為有意義嵌入的圖像coding器的質量。

多模態 LLM 的未來:

雖然多模態 LLM 提供令人興奮的可能性,但它們的採用和影響仍有待觀察。Sebastian 指出,在他的個人經驗中,大多數 LLM 交互仍然是基於文本。然而,這一領域快速的研究和開發速度表明,多模態 LLM 有潛力在未來幾年顯著增強 AI 的功能和應用。


🎬資料來源🎥

AI Stories Podcast Neil Leiser  Nov 21, 2024

Build LLMs From Scratch with Sebastian Raschka #52

https://www.youtube.com/watch?v=79F32D9aM8U


留言

這個網誌中的熱門文章

OpenAI前員工X爆料&楊立昆臉書〈諷刺文〉

【OpenAI ex-employee & Yann LeCun's sarcasm】 🚀 📣 OpenAI前員工Jacob Hilton在X上的爆料全文 📣 🚀 一年多前,當我離開 OpenAI 時,我簽署了一份 「不貶低協議」(non-disparagement agreement) ,並且未披露協議本身,沒有其他原因,只是為了避免失去我的 「既得股權」(vested equity) 。  該協議明確表示,作為簽署的回報,我被允許保留我的既得股權,並且沒有提供任何其他東西。 我不明白為什麼有人會簽署它,如果他們認為這不會對他們的權益產生影響。 我以良好的條件離開了OpenAI,所以我認為幾乎所有離職員工都遵守了這份協議。 在簽署協議之前,我無意批評OpenAI,但對於放棄這樣做的權利感到失望。 昨天,OpenAI 聯繫我,要求我解除該協議,隨後KelseyTuoc在Vox上刊登調查報告: 由於 AI 的變革潛力,開發先進 AI 的主要實驗室必須為那些希望為公共利益發聲的人提供保護。 其中首先是對不報復的具有約束力的承諾。 即使是現在,OpenAI仍可 阻止員工出售其股權,使其在未知的時間內變得毫無價值。 OpenAI 在一份聲明中表示,「從歷史上看,前員工無論在哪裡工作,都有資格以相同的價格出售;我們預計這一點不會改變。」 我相信OpenAI的這項聲明是出於誠實的意圖。 但考量到 OpenAI先前曾拿能否取得 (既得股權變現) 流動性作為一種恐嚇策略,許多前員工仍不敢發聲。 我邀請OpenAI直接與前員工聯繫,以澄清他們將始終以合法可執行的方式獲得平等的流動性的機會。 在他們這樣做之前,大眾不應指望前僱員會坦誠相待。 本人致OpenAI 的許多善良和才華橫溢的前同事們:我希望您們能夠理解為什麼我覺得有必要公開談論這個議題。 該合約與我們對安全和有益的AI的共同承諾不一致,您值得更好的工作合約條件。 原文連結: https://twitter.com/JacobHHilton/status/1794090550863200728 😏 楊立昆在臉書上的〈諷刺文〉 😏 來ClosedAI工作吧!隨著 AGI 即將到來,您 將擁有 目前 估 值 42 X 百萬的6次方美元(sextillionnollars) 公司 的 股票 。 如果您辭退,...

大團體覺醒LGAT課程:英文維基百科+Claude AI

資料來源: 1. 英文版維基百科(有數處註明:[需要引文來驗證],顯示共創的痕跡) 2. 詢問道德標準較高的AI Claude的回覆 中文化:Google AI Gemini Claude: LGAT課程,指的是個人發展計劃,通常包括大型團體參與者參加的密集多日研討會。這些計劃於1970年代出現,並以各種形式持續至今。 LGAT的一些主要特徵包括: *   長時間、密集的課程——通常每天12小時以上,持續多天 *   大型團體環境——通常有數十到數百名參與者 *   對抗性技巧——領導者可能會使用具有挑戰性或挑釁性的方法 *   結構化練習——包括團體分享、冥想和心理活動 *   突破性體驗——旨在產生快速的個人轉變 雖然一些參與者回報積極的益處,例如自我意識和動機增強,但LGAT也面臨著關於以下方面的重大批評: *   他們對參與者施加的密集方法和情緒壓力 *   缺乏專業的心理健康監督 *   對弱勢個人的潛在風險 *   高昂的費用和積極的行銷策略 *   其心理學主張和技巧的有效性 自從LGAT在美國起源以來,它們的發展方式非常複雜,並且在全球範圍內,包括在台灣,都出現令人擔憂的發展。讓我分享一個更廣泛的視角: 歷史發展: *   1971年從EST(Erhard研討會訓練)開始 *   衍生出眾多分支,如Landmark Forum、Lifespring和許多本地化的變體 *   方法在全球傳播,並經常針對不同的文化進行調整/修改 全球常見的擔憂: 1.  財務剝削 ——高額費用和招募他人的壓力 2.  心理操縱 ——剝奪睡眠、受控環境、情緒強度 3.  類似邪教的元素:     *   造成對計劃的依賴     *   將參與者與持懷疑態度的家庭成員隔離開來     *   使用內部語言和層級結構     *   ...

美國總統川普台積電投資宣布白宮記者會(英中對照)

中文化:第一部分Google Gemini ,其餘 OpenAI ChatGPT 【川普總統】 1:30 Today, Taiwan Semiconductor is announcing that they will be investing at least $100 billion in new capital in the United States over the next short period of time to build state-of-the-art semiconductor manufacturing facilities. I think mostly it will be in Arizona, which is a great state. 今天,TSMC宣布將在接下來的短期內,於美國投資至少 1000 億美元的新資本,以興建最先進的半導體製造廠。我認為大部分將位於亞利桑那州,那是一個很棒的州。 I like it because I want it, but I want most of them, actually. We want big, and we want the most powerful AI chip in the world to be made right here in America. It will be a big percentage of the chips made by their company. As you know, they're based mostly in Taiwan, and they're far and away the biggest – there's nobody even close. 我喜歡這樣,因為我想要這樣,但實際上,我想要他們的大部分產能。我們想要大規模的生產,並且我們希望世界上最強大的 AI 晶片能在這裡,在美國製造。這將佔他們公司生產的很大一部分。你們知道,他們主要在臺灣設廠,而且他們是遙遙領先的龍頭,沒有其他公司比得上。 This $100 billion investment will go into building five cutting-edge fabrication facilities in the gr...