每次看到「AI界李白」蔡宗翰老師,他都在喝機能飲料。我眼中的他應該算是「數位人文過動兒」。
他投入AI的研究超過20年,問起AI,他可以滔滔不絕。但是如果跟他聊歷史,他也一樣雙眼發光。(一個肝燒兩次啊!)
這也難怪他說2025這個過年,他說自己被問Deepseek的頻率比被拜年的頻率還高。
在演講的場合上,蔡老師說,台灣如果缺乏自主的大型語言模型(LLM),便無法在生成式 AI 領域佔有一席之地。
針對此問題,李白也從2022年底投入開發「TAIDE(Trustworthy AI Dialog Engine)」,致力於打造台灣自主、可信任的「正體中文 AI」 模型。
從 ChatGPT 到 TAIDE:台灣 AI 的機遇與挑戰
2022年底,ChatGPT 橫空出世,展現了生成式 AI 強大的對話與創作能力。
然而,它的開發與訓練完全由國外科技巨頭主導,台灣在 AI 技術上只能充當「使用者」,無法參與核心技術開發。
台灣 AI 界意識到,「如果沒有自主語言模型,將在未來的科技競爭中落後」。為此,一群 AI 專家開始研究如何打造適合台灣需求的 LLM,並確保數據安全、語言風格符合本土使用者習慣。
「台灣如果沒有自己的大語言模型,就沒有人參與生成式 AI 的開發!」蔡宗翰教授在講座中強調,並指出 「台灣企業與政府機構的機密資料無法上雲端運行,因此本地端 AI 模型勢在必行。」
TAIDE:在資源極度有限的條件下誕生
TAIDE 的開發過程充滿挑戰,資金、算力、人才和時間均相當匱乏。
資金短缺:僅有千萬級別經費。
算力不足:僅 72 張 H100 晶片,相較之下,當時中國企業 Vivo 早已擁有 1500 張。
人才有限:開發團隊僅十餘人,遠少於國際科技公司的 AI 團隊。
數據受限:台灣沒有自己的社群媒體,許多中文語料掌握在國外平台手中。
在訓練 AI 模型時,語料來源至關重要。台灣法規嚴格,不能像某些國家無限制地蒐集網路內容,這使得 TAIDE 必須慎選合法數據來源。
開發團隊與國科會合作,從司法院、國教院、中研院、中央社、公視等機構獲取授權資料,最終清理出 89.4GB 可用語料。
「我們的 AI 訓練過程就像教小孩,得從基礎教育一路提升到高等教育,才能真正理解語言與知識。」蔡教授解釋 TAIDE 的訓練方式,包括繼續預訓練(Continue Pretraining, CP)、微調(Fine Tuning, FT)及人類偏好對齊(Human Preference Alignment, HPA)。
然而,由於資金有限,TAIDE 目前僅能做到 「微調(FT)」 階段,距離真正能夠與全球 AI 模型競爭,仍有一段路要走。
TAIDE 如何突破技術瓶頸?
為克服硬體與數據限制,TAIDE 採用了 LLaMa2 70B 作為基礎模型,並運用「蒸餾法」訓練 AI,使它能夠理解與產生更精確的中文內容。
然而,LLaMa2 70B 原本是一個「英文人」,為此,蔡教授與 AI 專家李宏毅聯手開發技術,讓這個 AI 轉變為「中文人」。
此外,AI 訓練需要「多樣性的語料」,但政府文件大多簡短,最初的 AI 只會讀兩行、寫兩行,影響表現。
為解決這個問題,團隊使用 「自我指導(self-instruct)」與「進化指導(Evol-instruct)」技術,生成更多樣的「提示-回應」數據,讓 AI 學會處理更複雜的語境。
TAIDE 的應用:從華語教學到作文評分
儘管 70B無法像大型科技公司專注於發展超過500B級別的模型一樣,發展成全球級 LLM,但在團隊人員不眠不休的努力下,它已可在許多領域看出影響力。
例如,「華語教學」方面,TAIDE 協助開發「繁體中文教學 AI」,能根據老師需求產出課文、單詞表、範例與語法表,並已被 Microsoft採用。
此外,TAIDE 也被用來「訓練 AI 作文評分系統」,按照台灣學測標準,自動為學生作文打分並提供評語,可以幫助學生透過 AI 提升寫作能力。
未來的 AI 發展,文科人才至關重要
AI 不僅是工程師的領域,文科人才的加入同樣關鍵。蔡教授指出,開發 AI 需要兩大核心團隊——「資料組」與「評估組」,這些工作大多需要文科背景的人才:
資料組:負責資料蒐集、清理、標註,確保 AI 訓練時有高品質語料。
評估組:針對不同應用場景,設計 AI 評估標準,確保 AI 產出的內容符合人類需求。
「文組人真的應該要加入『資料組』或『評估組』,因為這些都是 AI 訓練不可或缺的環節!」
蔡教授強調,台灣應該積極培養 AI 訓練師、AI 評估師,才能真正發展自主 AI 技術。AI 不僅是工程師的領域,文科人才的加入同樣關鍵。
台灣 AI 的下一步?
目前,台灣仍難以單獨養護完整的大型語言模型,但可以專注於建立「主權資料集」,並與國際企業合作訓練基礎模型。
未來透過蒸餾與微調,台灣可發展小型專用 AI 模型,讓 AI 逐步落地應用。
AI 的發展是一條長路,「文組人」與「理組人」需要攜手合作,才能讓台灣的 AI 產業真正崛起。如今,TAIDE 的出現,標誌著台灣 AI 邁出了關鍵一步,也為未來的技術自主性奠定基礎。
PS大家都知道我是文科人,如有理解錯誤,都是我的錯,不是老師的問題。