跳到主要內容

發表文章

目前顯示的是 7月, 2025的文章

AI與毛利語言復興

「資料是殖民的最後一道防線。」 MIT Technology Review https://www.technologyreview.com/2022/04/22/1050394/artificial-intelligence-for-the-people/ 2022年4月22日 記者:Karen Hao 在紐西蘭一個偏遠的鄉村小鎮,一對原住民夫婦正在挑戰AI的定義及其服務對象。 在紐西蘭最北端地區一棟老舊灰暗建築的後室裡,一台最先進的AI電腦正在協助重新定義這項技術的未來。 Te Hiku Media 是一家非營利性質的毛利語廣播電台,由人生伴侶 Peter-Lucas Jones 和 Keoni Mahelona 共同經營。他們以五折的價格買下這台機器,用來訓練自己的演算法進行自然語言處理。現在,這台機器是他們夢想的核心,旨在振興毛利語,同時掌控他們社群的資料。 Mahelona 是一位夏威夷原住民,在愛上紐西蘭後便定居於此。他對這種情況的諷刺意味感到好笑。「這台電腦就放在 Kaitaia 的一個機架上,一個貧困率高、原住民人口眾多的廢棄鄉村小鎮。我想我們有點『低調』吧。」他笑著說。 這個計畫與AI產業的典型運作模式大相徑庭。過去十年,AI研究人員以「越多越好」的教條將該領域推向新的極限:累積更多資料以產生更大的模型(在這些資料上訓練的演算法),從而產生更好的結果。 這種方法帶來顯著的突破——但也付出了代價。企業為增加利潤,不斷地從人們的臉部、聲音和行為中挖掘資料。而透過對整體人口資料進行平均而建立的模型,則將少數族群和邊緣化社群排擠在外,儘管他們不成比例地受到這項技術的影響。 多年來,越來越多的專家指出,這些影響正在重複殖民歷史的模式。他們說,全球AI發展正在使那些無法參與其發展的社群和國家變得貧困——這些社群和國家正是那些已經被前殖民帝國所貧困化的。 這在AI和語言領域尤為明顯。「越多越好」的方法已經產生強大的大型語言模型,具備自動完成和文本分析能力,現在廣泛應用於搜尋、電子郵件和社群媒體等日常服務。然而,這些透過大量抓取網路資料而建立的模型,也正在加速語言流失,就像過去的殖民和同化政策一樣。 只有最常見的語言才擁有足夠的說話者——以及足夠的利潤潛力——讓大型科技公司收集所需的資料來支持它們。因此,在日常工作和生活中依賴這些服務,迫使一些社群使用主流語言而非...