古籍數字化平台“識典古籍”推出:三年將上線萬種儒釋道經典

欄目:新聞快訊
發布時間:2022-10-25 12:38:56
標簽:古籍數字化、識典古籍

古籍數字化平台“識典古籍”推出:三年將上線萬(wan) 種儒釋道經典

來源:澎湃新聞∙文化課

時間:孔子二五七二年歲次壬寅九月十七日戊戌

          耶穌2022年10月12日

 

古籍如何獲得“新生”?

 

近些年,越來越多的人投入到讓古籍重獲新生的工作中,作為(wei) 古籍數字化成果之一的“北京大學—字節跳動數字人文開放實驗室”研發的古籍數字化平台“識典古籍”(https://www.shidianguji.com)測試版於(yu) 10月11日正式上線。該平台涵蓋390部經典古籍,主要來自《四部叢(cong) 刊》,共計3000多萬(wan) 字。據介紹,未來三年,“識典古籍”將陸續完成一萬(wan) 種古籍的智能化整理工作,基本覆蓋儒家、道家和佛學的核心典籍目錄,並將全部免費開放。

 

就“識典古籍”的上線,國家圖書(shu) 館副館長、國家古籍保護中心副主任張誌清、北京大學數字人文研究中心主任王軍(jun) 與(yu) 抖音集團的負責人進行了分享。

 

 

 

“識典古籍”網頁截圖

 

從(cong) “識典古籍”談起:古籍數字化難在哪裏?

 

數據顯示,我國現存5000萬(wan) 冊(ce) /件古籍,其中亟待修複的大約1000萬(wan) 冊(ce) /件;而就古籍數字化的情況,我國現存古籍約20萬(wan) 種,其中有數字化掃描影像的大概8萬(wan) 種,實現文本數字化的隻有3-4萬(wan) 種,由此可見,大量的古籍亟待修複和數字化。

 

讓古籍重獲“新生”需要三方麵共同努力:首先是原生性的保護,主要是指古籍修複;然後是再生性保護,指的是將古籍數字化,保存其珍貴的影像資料、為(wei) 古籍使用者提供閱讀便利;最後是傳(chuan) 承性保護,指的是將古籍裏麵蘊含的信息、知識活化,讓更多人了解古籍蘊含的曆史文化。

 

我國的古籍數字化還處於(yu) 初級階段,麵臨(lin) 技術難度高、資金缺口大、人才緊張等難點。現存的20多萬(wan) 種古籍中,隻有8萬(wan) 種完成影像數字化掃描,近4萬(wan) 種完成文本數字化。據專(zhuan) 家統計,從(cong) 1949年到2019年,國內(nei) 共修複、整理、出版古籍近3.8萬(wan) 種,要將現存古籍全部修複整理出來,可能需要300年時間,若利用人工智能技術輔助修複整理,大概二三十年就能完成。

 

古籍怎樣數字化?

 

抖音集團企業(ye) 社會(hui) 責任部產(chan) 品總經理唐塏鑫介紹,第一步就是要將古籍實體(ti) 變成電子掃描版,這一步比較簡單,最早用微縮膠片,現在主要用電子掃描儀(yi) 掃描圖片;第二步是通過OCR技術變成文字版並進行校對;第三步是把文字版進行整理,變成現代人好閱讀的數字化文本。

 

數字化的過程中也麵臨(lin) 著許多難點,比如古籍原文大多數是沒有句讀的繁體(ti) 豎排版,存在大量的異體(ti) 字和生僻字,因此隻有讓人工智能算法學會(hui) 更高準確率地自動加標點才能保證識別的準確性;在呈現端,一個(ge) 檢索詞可能在古籍中有十幾種不同的寫(xie) 法,怎樣準確地檢索到,這就對模型準確性以及搜索技術形成挑戰。以“識典古籍”為(wei) 例,為(wei) 了更高的效率和更好的閱讀體(ti) 驗,也需要對古籍中的書(shu) 名、人名、地名等進行標注,並建立古籍裏的知識圖譜,和百科業(ye) 務打通。

 

“識典古籍”項目負責人介紹,該平台當前主要使用了三種技術,包括文字識別、自動標點和命名實體(ti) 識別。文字識別技術,是對古籍的影印版文字進行單個(ge) 切分,再進行文字識別和順序識別。自動標點技術,是通過序列標注的方式對古籍自動進行標點劃分。命名實體(ti) 識別技術,則是通過序列標注識別文本中的人名、地名、書(shu) 籍、時間、官職等信息。據悉,目前行業(ye) 內(nei) OCR識別準確率平均為(wei) 93%至94%,“識典古籍”的準確率為(wei) 96%至97%。

 

據悉,“識典古籍”書(shu) 目將持續更新,後續將上線手機移動版。未來,“識典古籍”將向全社會(hui) 開放古籍閱讀檢索研究能力,還將實現全自動整理校對,更高效地實現存量古籍全部數字化。同時,平台也鼓勵擁有文獻的學者自行上傳(chuan) 文獻,用戶甚至可參與(yu) 再創作和再闡釋,助力古籍文化傳(chuan) 承和研究。

 

 

 

“識典古籍”頁麵,有查看原版本影像的功能和人名、地名、書(shu) 名標注與(yu) 檢索功能

 

“讓文明觸手可及”

 

北京大學數字人文研究中心主任王軍(jun) 提出,典籍數字化要放在整個(ge) 中國典籍傳(chuan) 承的曆史線索中去理解它,“大家可能有一個(ge) 疑問是國家圖書(shu) 館花了那麽(me) 大力氣保存典籍,不放在數字環境中它也不會(hui) 丟(diu) ,我們(men) 為(wei) 什麽(me) 還要將它數字化呢?因為(wei) 我們(men) 今天的這一代人生下來就是用手機的,古籍雖然還存在圖書(shu) 館,但如果用的人越來越少,它也是一種中斷,所以我們(men) 這一代傳(chuan) 承的責任就是要把它遷移到數字化。”

 

“我自己想了一個(ge) 口號是‘讓文明觸手可及’——在你的手機上,在你的平板上,就能接觸到現有的所有典籍,讓文明成為(wei) 一種可以感知、可以估摸,可以交互的數字化產(chan) 品,這是我們(men) 打造古籍數字平台的最終目標。”王軍(jun) 談道。

 

王軍(jun) 也暢想了古籍數字平台未來的發展趨勢,他認為(wei) ,更重要的是讓典籍文獻跟我們(men) 今天的互聯網信息形態融合在一起。比如在識別古籍的專(zhuan) 有名詞基礎上再往前邁一步,識別這些專(zhuan) 有名詞之間的關(guan) 係,把人名、地名、官名、書(shu) 名都識別出來,並試圖抽取人和地和官職之間的關(guan) 係,轉成圖譜形態,再與(yu) 百科、各種問答應用、旅遊產(chan) 品等聯係在一起。

 

現在已經有許多古籍活化利用的案例,比如紀錄片《穿越時空的古籍》。每一集選一個(ge) 主題,用中短視頻形式在卷帙浩繁中四兩(liang) 撥千斤。比如第一集“古籍裏的盛宴”,就講述美食家盧冉從(cong) 古籍中打撈宋代的食譜,將其複原為(wei) 包括“蟹釀橙”“素蒸鴨”等300多道看得見、吃得著的宋代美食。此外,服飾史學者陳詩宇通過古籍考證古代服飾,將平麵的考古資料還原成立體(ti) 造型,用畫筆勾勒出《山海經》神獸(shou) 的撒旦君、以古籍字體(ti) 為(wei) 母版設計4萬(wan) 多個(ge) 藝術字的應永會(hui) 、在《牡丹亭》中尋找藝術靈感的張漁,他們(men) 的故事也在紀錄片中一一呈現。

 

“識典古籍”的負責人們(men) 也介紹,未來“識典古籍”中非常重要的一部分就是古籍活化傳(chuan) 承,包括“古籍巡遊記”,會(hui) 將古籍裏的一些原生場景,通過AR方式複現出來,讓更多人對古籍產(chan) 生興(xing) 趣。

 

 

 

紀錄片《穿越時空的古籍》

 

責任編輯:近複

 

微信公眾號

伟德线上平台

青春儒學

民間儒行