「資料是殖民的最後一道防線。」
MIT Technology Review
https://www.technologyreview.com/2022/04/22/1050394/artificial-intelligence-for-the-people/
2022年4月22日
記者:Karen Hao
在紐西蘭一個偏遠的鄉村小鎮,一對原住民夫婦正在挑戰AI的定義及其服務對象。
在紐西蘭最北端地區一棟老舊灰暗建築的後室裡,一台最先進的AI電腦正在協助重新定義這項技術的未來。
Te Hiku Media 是一家非營利性質的毛利語廣播電台,由人生伴侶 Peter-Lucas Jones 和 Keoni Mahelona 共同經營。他們以五折的價格買下這台機器,用來訓練自己的演算法進行自然語言處理。現在,這台機器是他們夢想的核心,旨在振興毛利語,同時掌控他們社群的資料。
Mahelona 是一位夏威夷原住民,在愛上紐西蘭後便定居於此。他對這種情況的諷刺意味感到好笑。「這台電腦就放在 Kaitaia 的一個機架上,一個貧困率高、原住民人口眾多的廢棄鄉村小鎮。我想我們有點『低調』吧。」他笑著說。
這個計畫與AI產業的典型運作模式大相徑庭。過去十年,AI研究人員以「越多越好」的教條將該領域推向新的極限:累積更多資料以產生更大的模型(在這些資料上訓練的演算法),從而產生更好的結果。
這種方法帶來顯著的突破——但也付出了代價。企業為增加利潤,不斷地從人們的臉部、聲音和行為中挖掘資料。而透過對整體人口資料進行平均而建立的模型,則將少數族群和邊緣化社群排擠在外,儘管他們不成比例地受到這項技術的影響。
多年來,越來越多的專家指出,這些影響正在重複殖民歷史的模式。他們說,全球AI發展正在使那些無法參與其發展的社群和國家變得貧困——這些社群和國家正是那些已經被前殖民帝國所貧困化的。
這在AI和語言領域尤為明顯。「越多越好」的方法已經產生強大的大型語言模型,具備自動完成和文本分析能力,現在廣泛應用於搜尋、電子郵件和社群媒體等日常服務。然而,這些透過大量抓取網路資料而建立的模型,也正在加速語言流失,就像過去的殖民和同化政策一樣。
只有最常見的語言才擁有足夠的說話者——以及足夠的利潤潛力——讓大型科技公司收集所需的資料來支持它們。因此,在日常工作和生活中依賴這些服務,迫使一些社群使用主流語言而非他們自己的語言。
「資料是殖民的最後一道防線。」Mahelona 說。
為透過AI來幫助復興毛利語 Te Reo,身為毛利人的 Mahelona 和 Jones 希望以不同的方式進行。他們克服資源限制,開發自己的語言AI工具,並建立機制來收集、管理和保護毛利資料的流動,以確保未經社群同意,這些資料不會被使用,甚至更糟的是,以傷害社群人民的方式被使用。
現在,當許多矽谷人士正在應對當今AI發展的後果時,Jones 和 Mahelona 的方法可能指引出一種新一代AI的方向——一種不將邊緣化人群視為單純的資料主體,而是將他們重新確立為共享未來的共同創造者。
如同全球許多原住民語言一樣,毛利語 Te Reo 的衰落始於殖民時期。
1840年,英國宣稱擁有 Aotearoa(紐西蘭的毛利語名稱)的主權後,英語逐漸成為當地經濟的通用語。1867年,《原住民學校法案》(Native Schools Act)進一步規定英語是毛利兒童唯一可以接受教育的語言,這是更廣泛同化政策的一部分。學校開始羞辱甚至體罰試圖說 Te Reo 的毛利學生。
在接下來的幾十年裡,都市化瓦解毛利社群,削弱文化和語言保存的中心。許多毛利人也選擇離開,尋求更好的經濟機會。在一代人的時間裡,Te Reo 使用者的比例從毛利人口的90%驟降至12%。
1970年代,毛利社群領袖和活動家對這種快速衰退感到警覺,他們奮力扭轉這一趨勢。他們創立兒童語言沉浸式學校和成人學習計畫。他們走上街頭,要求 Te Reo 享有與英語平等的地位。
1987年,在積極支持其消亡120年後,政府最終通過《毛利語法案》(Māori Language Act),宣布 Te Reo 為官方語言。三年後,政府開始資助建立 iwi(部落)廣播電台,例如 Te Hiku Media,以 Te Reo 公開廣播,以提高語言的普及性。
我今天與許多毛利人交談時,他們會根據父母或祖父母是否會說毛利語 Te Reo 來部分地認同自己。在一個能夠接觸到跨代語言傳承的環境中長大,被認為是一種特權。
這是語言保存的黃金標準:從小在日常接觸中學習。青少年或成年後在學術環境中學習不僅更困難。教科書通常只教授單一的「標準」版 Te Reo,然而每個 iwi(部落)都有獨特的口音、慣用語和根植於地區的歷史。
換句話說,語言不僅僅是一種溝通工具。它承載著一種文化,透過父母傳給子女,子女傳給孫子女,並透過說它、體驗它的人而演變。它既影響也受影響,塑造著人際關係、世界觀和身份認同。「這是我們思考和彼此表達的方式。」另一位正在利用AI復興一種迅速消失的語言的原住民科技專家 Michael Running Wolf 說。
因此,保存一種語言就是保存一段文化歷史。但尤其是在數位時代,要將一種少數語言從其衰退的軌跡中拉出來,需要持續的警惕。每一個不支持它的新通訊空間,都迫使使用者在選擇使用主流語言和放棄在更大文化中的機會之間做出抉擇。
「如果這些新技術只說西方語言,我們現在就被排除在數位經濟之外了。」Running Wolf 說。「如果你甚至無法在數位經濟中運作,那麼對我們的語言來說,要繁榮發展將會非常困難。」
隨著AI的出現,語言復興現正處於十字路口。AI技術可以進一步鞏固主流語言的優勢,或者它可以幫助少數語言奪回數位空間。這就是 Jones 和 Mahelona 所抓住的機會。
早在 Jones 和 Mahelona 踏上這段旅程之前,他們在威靈頓的游泳俱樂部會員聚會上,透過烤肉相識。兩人一拍即合。Mahelona 帶著 Jones 進行一次長途自行車騎行。「剩下的就是歷史了。」Mahelona 說。
2012年,兩人搬回 Jones 的家鄉 Kaitaia,Jones 在那裡成為 Te Hiku Media 的執行長。由於其偏遠性,該地區仍然是 Aotearoa 經濟最貧困的地區之一,但同樣地,其毛利人口也是全國受保護最好的群體之一。
在其二十多年的廣播歷史中,Te Hiku 累積豐富的 Te Reo 音訊資料庫。其中包含珍貴的內容,例如 Jones 自己的祖母 Raiha Moeroa 的錄音,她出生於19世紀末,其 Te Reo 幾乎未受殖民影響。
Jones 看到了將資料庫數位化並製造一個更現代的跨代語言傳承方式的機會。大多數毛利人不再與他們的 iwi 居住在一起,無法依賴附近的親屬進行日常的 Te Reo 接觸。然而,有了數位圖書館,他們就能隨時隨地聆聽已故長輩的 Te Reo。
當地毛利部落批准他繼續進行,但 Jones 需要一個地方來線上託管這些資料。他和 Mahelona 都不喜歡將它們上傳到 Facebook 或 YouTube 的想法。這會讓科技巨頭隨意使用這些寶貴的資料。
(幾年後,公司確實開始與毛利語使用者合作獲取此類資料。例如,Duolingo 試圖建立語言學習工具,然後再將其推銷回毛利社群。「我們的資料會被那些曾經從我們口中『打掉』這種語言的人用來將其作為服務賣回給我們。」Jones 說。「這就像奪走我們的土地再賣回給我們一樣。」Mahelona 補充道。)
唯一的選擇是 Te Hiku 建立自己的數位託管平台。憑藉其工程背景,Mahelona 同意領導該專案並擔任技術長(CTO)。
這個數位平台成為 Te Hiku 建立資料主權的第一個重要步驟——這是一種社群尋求掌控自身資料的策略,旨在確保掌控其未來。毛利資料主權網絡的共同創辦人 Tahu Kukutai 表示,毛利人對這種自主權的渴望根植於歷史。在最早的殖民人口普查中,在一系列毀滅性的戰爭(其中數千名毛利人被殺,土地被沒收)之後,英國人收集部落人數的資料,以追蹤政府同化政策的成功程度。
因此,資料主權是原住民抵抗的最新例子——對抗殖民者、對抗民族國家,現在則是對抗大型科技公司。「術語可能是新的,背景可能是新的,但它建立在非常古老的歷史之上。」Kukutai 說。
2016年,Jones 展開一個新計畫:採訪90多歲的 Te Reo 母語者,以免他們的語言和知識流失給後代。他想打造一個工具,能將採訪內容同步顯示為文字稿。這樣,Te Reo 學習者就能將滑鼠懸停在單詞和表達上,查看其定義。
但很少有人能完全掌握這種語言,以手動轉錄音訊。「教電腦說毛利語變得絕對必要。」Jones 說。
然而,Te Hiku 面臨一個雞生蛋、蛋生雞的問題。要建立一個 Te Reo 語音辨識模型,它需要大量的轉錄音訊。而要轉錄音訊,它最初就需要那些數量稀少、它正試圖彌補的進階使用者。不過,有許多初級和中級使用者可以比在錄音中辨識 Te Reo 單詞更好地將其朗讀出來。
因此,Jones 和 Mahelona,以及 Te Hiku 的營運長 Suzanne Duncan,設計了一個巧妙的解決方案:他們不是轉錄現有音訊,而是請人們錄下自己朗讀一系列句子的聲音,這些句子旨在捕捉該語言的全部發音範圍。對於演算法來說,由此產生的資料集將發揮相同的作用。從這數千對口語和書面句子中,它將學會辨識音訊中的 Te Reo 音節。
團隊宣布一項比賽。Jones、Mahelona 和 Duncan 聯繫他們能找到的每一個毛利社群團體,包括傳統的 kapa haka 舞蹈團和 waka ama 獨木舟競賽隊,並宣布提交錄音最多的團體將贏得5,000美元的大獎。
整個社群都動員起來了。競爭變得激烈。一位毛利社群成員 Te Mihinga Komene,一位教育家和倡導利用數位技術復興 Te Reo 的人,單獨錄製4,000個短語。
金錢並不是唯一的動力。人們認同 Te Hiku 的願景,並信任它會保護他們的資料。「Te Hiku Media 說:『你們給我們的,我們作為 kaitiaki [守護者] 在這裡。我們會好好照顧它,但你們仍然擁有自己的音訊。』」Te Mihinga 說。「這很重要。這些價值觀定義了我們作為毛利人的身份。」
在10天內,Te Hiku 累積來自約2,500人、約20萬個錄音的310小時語音-文字配對資料,這是AI社群研究人員前所未聞的參與程度。「除了毛利組織,沒有人能做到這一點。」毛利資料科學家 Caleb Moses 說,他在社群媒體上瞭解到這個專案後加入。
與通常用於訓練英語語言模型的數千小時資料相比,這些資料量仍然很小,但足以開始。Te Hiku 利用這些資料,從 Mozilla Foundation 的現有開源模型中進行引導,打造出其第一個 Te Reo 語音辨識模型,準確率達到86%。
從那裡,它擴展到其他語言AI技術。Mahelona、Moses 和一個新組建的團隊打造了第二個演算法,用於自動標記複雜的 Te Reo 短語,第三個演算法則為 Te Reo 學習者提供發音準確性的即時回饋。該團隊甚至嘗試了語音合成,以製作類似 Siri 的 Te Reo 版本,儘管最終未能達到部署的品質標準。
在此過程中,Te Hiku 建立了新的資料主權協議。像 Moses 這樣的毛利資料科學家仍然很少見,但那些來自社群外部的加入者不能隨意使用資料。「如果他們想嘗試什麼,他們會問我們,我們有一個基於我們的價值觀和原則的決策框架。」Jones 說。
這可能具有挑戰性。資料科學的開源、自由奔放的文化常常與資料主權的實踐背道而馳,AI文化也是如此。Jones 說,Te Hiku 曾有過解雇資料科學家的情況,因為他們「只是想獲取我們的資料」。它現在正尋求透過實習計畫和初級職位培養更多的毛利資料科學家。
Te Hiku 此後透過其新的數位語言平台 Papa Reo,將其大部分工具以 API 的形式提供。它還與毛利人主導的組織合作,例如教育公司 Afed Limited,該公司正在開發一款應用程式,幫助 Te Reo 學習者練習發音。「這真的是一個遊戲規則改變者。」Afed 的創辦人 Cam Swaison-Whaanga 說,他自己也在學習 Te Reo。學生們再也不必在教室裡老師和同學面前害羞地大聲說話了。
Te Hiku 也開始與較小的原住民社群合作。在太平洋地區,許多人與毛利人有相同的玻里尼西亞祖先,他們的語言也有共同的根源。以 Te Reo 資料為基礎,一位庫克群島研究人員能夠訓練出一個初步的庫克群島語言模型,僅使用數十小時的資料就達到約70%的準確率。
「現在不只是教電腦說毛利語 Te Reo 了。」Mahelona 說。「這關乎為太平洋地區的語言建立一個語言基礎。我們都在努力讓我們的語言存活下來。」
但 Jones 和 Mahelona 知道,總有一天他們將不得不與原住民社群和組織以外的對象合作。如果他們希望 Te Reo 真正普及——達到在 iPhone 和 Android 上都能有 Te Reo 語音助理的程度——他們就需要與大型科技公司合作。
「即使社群內部有能力進行非常酷的語音辨識或其他什麼,你還是必須將它交到社群手中。」電腦科學家 Kevin Scannell 說,他正在協助復興愛爾蘭語,並在他的研究中也遇到過同樣的權衡。「有一個網站可以讓你輸入一些文字並讓它讀給你聽,這很重要,但這與讓它在每個人的手機上隨手可得是不同的。」
Jones 表示 Te Hiku 正在為這種必然性做準備。它擬定一份資料授權協議,根據毛利人的 kaitiakitanga(守護)原則,闡明了未來合作的基本規則。它只會向同意尊重毛利價值觀、遵守同意範圍,並將從其使用中獲得的任何利益回饋給毛利人民的組織授予資料存取權。
這份授權協議除了 Te Hiku 之外,尚未被其他組織使用,其執行力仍存在疑問。但這個想法已經激勵了其他AI研究人員,例如 Mozilla 的 Common Voice 專案的 Kathleen Siminyu,該專案收集語音捐贈,以建立用於不同語言語音辨識的公共資料集。目前這些資料集可以出於任何目的下載。但去年,Mozilla 開始探索一份更類似 Te Hiku 的授權協議,這將賦予選擇捐贈資料的語言社群更大的控制權。「如果我們能告訴人們,貢獻資料集的一部分會讓你在資料集的使用方式上有發言權,那將會很棒。」她說。
Google 道德AI團隊前共同負責人 Margaret Mitchell,她從事資料治理和所有權實踐的研究,也表示同意。「這正是我們希望能夠為所有不同類型的技術更普遍地開發的授權協議。我真的很希望看到更多這樣的例子。」她說。
從某些方面來看,Te Hiku 算是幸運的。Te Reo 可以利用以英語為中心的AI技術,因為它在字母、發音和單詞結構等關鍵特徵上與英語有足夠的相似性。毛利人也是一個相當大的原住民社群,這使他們能夠累積足夠的語言資料,並找到像 Moses 這樣的資料科學家來幫助實現他們的願景。
「大多數其他社群沒有足夠大,無法發生這些幸運的巧合。」數位科技專家兼藝術家 Jason Edward Lewis 說,他也是原住民AI網絡的共同組織者。
同時,他說,Te Hiku 強有力地證明了AI可以在矽谷富裕的利潤中心之外建立——由它所服務的人民建立,並為他們服務。
這個例子已經激勵了其他人。Michael Running Wolf 和他的妻子 Caroline,她也是一位原住民科技專家,正在努力為 Makah 人建立語音辨識,Makah 是太平洋西北海岸的原住民,他們的語言只剩下大約十幾位使用者。這項任務是艱鉅的:Makah 語是一種多綜合語(polysynthetic),這意味著一個單詞,由多個構成要素(如前綴和後綴)組成,可以表達一個完整的英語句子。現有的自然語言處理技術可能不適用。
在 Te Hiku 成功之前,「我們甚至沒有考慮過研究它。」Caroline 說。「但當我們聽到他們正在做的驚人工作時,我們腦海中就像煙火一樣綻放:『天啊,這終於可能了!』」
Mozilla 的 Siminyu 表示,Te Hiku 的工作也為AI社群的其他人帶來了教訓。在當今產業的運作方式中,個人和社群很容易被剝奪權利;價值被認為不是來自提供資料的人,而是來自獲取資料的人。「他們說:『你的聲音本身不值錢。它實際上需要我們,一個有能力將數十億聲音匯集在一起的人,才能讓每個聲音都有意義。』」她說。
因此,自然語言處理「是開始弄清楚集體所有權應該如何運作的一個很好的切入點。」她補充道。「因為無論它們的普及程度如何,語言都屬於一個民族。」
留言
張貼留言