【頤賢講座】中央研究院人文社會科學研究中心蔡宗翰研究員: 「臺灣自主大語言模型發展之實踐與探討」-2025.03.06
「頤賢講座-臺灣政經社問題與對策」本學期第一個主題為:「AI在政府部門及各個產業的發展與應用」,該主題第三場講座邀請中央研究院人文社會科學研究中心 蔡宗翰研究員主講「臺灣自主大語言模型發展之實踐與探討」。蔡研究員專業的AI技術和多元經驗,替我們講解臺灣開發大語言模型的必要性、心路歷程,以及所面臨到的困境。
蔡講座首先指出了臺灣需要自行開發的必要性有三:文化與語言的深度契合、培育本土AI人才與資料安全與在地運行,其中因目前市面上的大型語言模型底層邏輯與所接受的資料皆不是來自臺灣,訓練出來的模型沒有我們的本土文化,將造成使用上的扞格與下一代對於本土文化學習的障礙。
蔡講座接著分享了其利用蒸餾技術開發「現階段臺灣應發展可信任AI對話引擎」(TAIDE)的心路歷程,並指出臺灣訓練自我大型語言模型的困境在於建立通用型模型的效益目前難以貼補成本,且法規大幅限制了開發模型時所需要的彈性。未來若是可透過由民間開發、鬆綁法規、尋求國外合作、建立全民資料交易平台,更重要的是著重於打造企業專門的小模型等方法,是未來持續實現建立臺灣自主大語言模型的解方。