荀子古籍大語言模型發布會在京成功舉辦

荀子古籍大語言模型發布會(hui) 在京成功舉(ju) 辦

來源：中國社會(hui) 科學網

時間：孔子二五七四年歲次癸卯十一月初六日庚戌

耶穌2023年12月18日

中國社會(hui) 科學網訊（通訊員趙誌梟）12月2日，國家社科基金重大項目“中國古代典籍跨語言知識庫構建及應用研究”課題組主辦的荀子古籍大語言模型發布會(hui) 暨古籍智能化研究與(yu) 產(chan) 業(ye) 應用研討會(hui) 在北京舉(ju) 行。來自高校、出版界和互聯網頭部企業(ye) 的專(zhuan) 家學者參會(hui) 。古籍大語言模型主研專(zhuan) 家、南京農(nong) 業(ye) 大學信息管理學院教授王東(dong) 波進行專(zhuan) 題匯報。

發布荀子古籍大語言模型

荀子古籍大語言模型是由王東(dong) 波擔任首席專(zhuan) 家的國家社科基金重大項目“中國古代典籍跨語言知識庫構建及應用研究”課題組聯合古聯公司曆時數月研究推出的專(zhuan) 門應用於(yu) 古籍處理與(yu) 研究的智能工具，是以提供古籍信息處理的大型基座模型、對話模型與(yu) 智能代理為(wei) 主要目標的開源的、公益的古籍大語言模型。王東(dong) 波團隊以“荀子古籍大語言模型構建及應用研究”為(wei) 題，介紹了大語言模型古籍處理能力評測，古籍處理基座模型構建和對話模型構建三個(ge) 方麵的研究內(nei) 容。

在匯報過程中，王東(dong) 波首先闡述了如ChatGPT一類的大語言模型在AI產(chan) 業(ye) 中引發的革命，並揭示了古籍領域對大語言模型的需求以及國家層麵的關(guan) 注。他表示，盡管目前已有200多個(ge) 通用模型在各領域得到應用，但古籍領域仍缺乏專(zhuan) 業(ye) 的大語言模型，並且當前的各種評測基準很難準確地衡量各種大語言模型的古文處理能力。隨後，王東(dong) 波簡要介紹了為(wei) 解決(jue) 這些問題所進行的工作。為(wei) 了緩解用戶群體(ti) 選擇模型過程中的“信息過載”現象，團隊設計了一個(ge) 覆蓋13項自然語言處理任務的ACHeval評測基準，該基準分為(wei) 文本理解能力評估、文本生成能力評估和知識能力評估三個(ge) 模塊，包含文本分類、分詞、命名實體(ti) 識別、古現翻譯等各種不同的處理任務，團隊將世界各地善於(yu) 理解中文的大語言模型都參與(yu) 了較量。不僅(jin) 包括代表性的千億(yi) 級閉源模型，還納入了在各大通用表單上取得出色表現的優(you) 質開源模型。團隊使用小樣本提示技術規範模型的輸出答案，並對最終結果進行後處理計算對應指標，以量化各種模型的表現。課題組根據評價(jia) 結果，確定了最終用於(yu) 領域化訓練的開源基座大模型Qwen-7b。隨後，王東(dong) 波介紹了基座大模型和對話大模型的構建的方法，團隊通過大量實驗論證不同預訓練數據的選擇和配比，以及超參數的選取對大模型最終性能所產(chan) 生的影響。結果表明，由於(yu) 現代漢語和古代漢語之間存在較大的語法差異，單純使用古籍文本增強模型會(hui) 使得模型出現災難性遺忘現象損失現代漢語能力，更傾(qing) 向於(yu) 生成古籍文本。為(wei) 此，團隊在分析古籍本身和對話任務特性的基礎上，采集了大約5GB的古籍語料，並與(yu) 現代漢語文本、指令數據，平行語料等其他類型的語料混合，形成了一個(ge) 包含40億(yi) 個(ge) 中文字符的混合數據集，分別用於(yu) 學習(xi) 古籍文本字符分布特征、防止災難性遺忘、增強對指令響應以及將現代文習(xi) 得的知識進一步外推，並以此數據集訓練荀子基座模型。在訓練過程中，王東(dong) 波團隊綜合使用多種加速技術、內(nei) 存優(you) 化技術和訓練技巧提升模型的訓練效率，最終成功在8卡A800計算集群上實現了17500token/秒的訓練吞吐量，在保證基座模型性能的同時最大程度的利用了已有計算資源。為(wei) 使模型遵循根據用戶請求回答問題，團隊基於(yu) 以往研究的經驗，設計一係列指令數據集，這些任務涵蓋常見的古籍處理場景，包括詞法分析、實體(ti) 識別、關(guan) 係抽取、文本分類與(yu) 匹配、古現翻譯、文本摘要、自動問答、詩歌生成、文本摘要等等。除此之外，為(wei) 了恢複模型的現代漢語理解能力，團隊還從(cong) 互聯網開源高質量指令微調數據集中篩選出符合條件的指令，按照一定比例混合後獲得了綜合指令數據集，訓練了“荀子”係列對話模型。最後，王東(dong) 波團隊的技術人員對荀子對話大模型的各項古籍處理能力進行現場演示，通過這一環節，與(yu) 會(hui) 者親(qin) 身體(ti) 驗模型的實用性和直觀效果，進一步證明了其在古籍處理領域的應用潛力。

隨後，古聯公司總經理洪濤分享了在古籍智能化領域的探索曆程，介紹了古聯公司的多方經驗，對於(yu) 利用古籍大模型進行優(you) 化OCR、自動標點、自動翻譯、自動注釋、自動生成主題詞與(yu) 摘要、自動構建古籍知識庫等係統能力做了分析。除了在專(zhuan) 業(ye) 領域推動古籍整理、古籍數字化、古籍利用與(yu) 傳(chuan) 播，洪濤也分析了大模型在大眾(zhong) 領域的應用前景，比如通過實現基於(yu) “中華經典古籍庫”的語義(yi) 檢索和回答，讓大眾(zhong) 用戶能夠順暢地利用古籍的內(nei) 容。古籍大模型還可以用於(yu) AI寫(xie) 作、AI教學、數字文娛等。

荀子古籍大語言模型發布會(hui) 暨古籍智能化研究與(yu) 產(chan) 業(ye) 應用研討會(hui) 在北京舉(ju) 行。國家社科基金重大項目“中國古代典籍跨語言知識庫構建及應用研究”課題組/供圖

全麵推動古籍處理技術進步

來自高校、出版界和互聯網頭部企業(ye) 的與(yu) 會(hui) 專(zhuan) 家學者分別立足於(yu) 各自領域，圍繞大模型在古籍整理、研究和普及等方麵展開了熱烈的探討，就大模型在古籍整理、傳(chuan) 統文化傳(chuan) 承、數字化轉型和技術挑戰等方麵進行了深入探討。與(yu) 會(hui) 專(zhuan) 家一致認為(wei) ，荀子一類大語言模型的應用與(yu) 推廣對於(yu) 中華優(you) 秀傳(chuan) 統文化的傳(chuan) 播和傳(chuan) 承有著重要的意義(yi) 。構建高質量古文處理模型的關(guan) 鍵在於(yu) 數據質量，古聯公司與(yu) 南京農(nong) 業(ye) 大學的合作能夠充分發揮各自的優(you) 勢，更加全麵的推動古籍處理技術的進步。

目前，作為(wei) 開源的、公益的研究成果的荀子古籍大語言模型已在相關(guan) 網站開源，用戶可自行下載模型權重文件與(yu) 代碼文件進行模型部署。此次會(hui) 議，是南京農(nong) 業(ye) 大學古籍大語言模型研發團隊和古聯公司合作探索古籍大語言模型的第一步。未來，古聯公司將基於(yu) 百億(yi) 級古籍大數據，著手研發下新一版商用古籍大模型，為(wei) 古籍智能整理、大眾(zhong) 傳(chuan) 播的產(chan) 業(ye) 應用提供強大的技術支持，推動古籍事業(ye) 的新發展。

（通訊員單位：南京農(nong) 業(ye) 大學信息管理學院）

責任編輯：近複

荀子古籍大語言模型發布會在京成功舉辦

微信公眾號

微信公眾號