近日,由南京農(nóng)業(yè)大學(xué)和中華書局古聯(lián)(北京)數(shù)字傳媒科技有限公司合作研發(fā)的中華物產(chǎn)大模型在世界互聯(lián)網(wǎng)大會烏鎮(zhèn)峰會發(fā)布。圍繞“AI賦能下的中華物產(chǎn)與文明探源”,南京農(nóng)業(yè)大學(xué)人文與社會發(fā)展學(xué)院教授包平、信息管理學(xué)院教授王東波分別作了《數(shù)智賦能下的中華物產(chǎn)與文明探源》和《中華物產(chǎn)大模型簡介》的主旨報告。
中華民族有著百萬年的人類史、一萬年的文化史、五千多年的文明史,我國先民在漫長的社會實踐以及與自然和諧共生的歷程中發(fā)現(xiàn)和創(chuàng)造了豐富多樣的物產(chǎn)資源。從《禹貢》記載的九州稟賦,到《詩經(jīng)》描繪的諸方土俗,詩詞歌賦勾勒出的四時風(fēng)物,水墨丹青渲染成的江山麗景,再到《本草綱目》的藥物集萃,《天工開物》的工藝精成,這些兼具文化和科學(xué)雙重屬性的寶貴文化遺產(chǎn)是人們探索物產(chǎn)知識和古人精神境界的重要依托。
當(dāng)下數(shù)智技術(shù)高速發(fā)展,構(gòu)建中華物產(chǎn)知識庫、梳理中華物產(chǎn)演變歷史脈絡(luò),探索中華物產(chǎn)與文明之間的深切關(guān)聯(lián),是新時代做好中華優(yōu)秀傳統(tǒng)文化創(chuàng)造性轉(zhuǎn)化和創(chuàng)新性發(fā)展的有力抓手。
此次發(fā)布的中華物產(chǎn)大模型是一個集合了多家機構(gòu)數(shù)據(jù)資源、算力資源和算法資源的系統(tǒng)工程。整體構(gòu)建過程分為物產(chǎn)大模型預(yù)訓(xùn)練語料構(gòu)建、預(yù)訓(xùn)練模型訓(xùn)練、對話模型構(gòu)建與知識庫問答實現(xiàn)三大板塊。
根王東波介紹,由于物產(chǎn)大模型需要同時滿足對于古今物產(chǎn)資料的有效處理,因此需收集到含有高質(zhì)量物產(chǎn)信息的語料。南京農(nóng)業(yè)大學(xué)中華農(nóng)業(yè)文明研究院所保存的手抄本《方志物產(chǎn)》資料是合適的訓(xùn)練語料之一。
在上世紀50年代,時任中國農(nóng)業(yè)遺產(chǎn)研究室主任的萬國鼎先生先后派出百余人的團隊前往國內(nèi)40多個大中城市、100多家文史單位,手工抄寫了7532部地方志中的物產(chǎn)內(nèi)容,整理裝訂成《方志物產(chǎn)》《方志分類》《方志綜合》《方志補遺》,計686冊、3600萬字的方志物產(chǎn)專題文獻,這一嘆為觀止的人工工程被學(xué)界稱為“紅本子”。
此后,由南京農(nóng)業(yè)大學(xué)人文與社會發(fā)展學(xué)院王思明教授團隊進行了數(shù)字化掃描、文字的計算機錄入、轉(zhuǎn)化等,生成了WORD電子文檔。
從2008年開始,包平教授團隊在先前基礎(chǔ)上,進行了中華歷史方志物產(chǎn)文獻的補遺和全口徑物產(chǎn)文獻的輯錄和智能化整理,涵蓋了地方志以外的其他記載物產(chǎn)的文獻,包括正史、農(nóng)書、本草、名人筆記、博物志、異物志等,使這套中華物產(chǎn)資源達到4800萬字并逐步開始活化利用,團隊基于此資料開展了深入的智能整理與知識挖掘研究,為后續(xù)與中華書局古聯(lián)公司聯(lián)手構(gòu)建中華物產(chǎn)大語言模型奠定了堅實的數(shù)據(jù)基礎(chǔ)。
中華物產(chǎn)知識智能活化與利用會意圖
在完成物產(chǎn)大模型預(yù)訓(xùn)練語料的構(gòu)建后,接下來便是預(yù)訓(xùn)練模型的訓(xùn)練階段。在中華書局古聯(lián)公司所提供的具體場景基礎(chǔ)上,王東波教授團隊在這一階段采用了當(dāng)前最先進的深度學(xué)習(xí)技術(shù),基于自然語言處理領(lǐng)域的基座模型,使用混合了超過20億字物產(chǎn)資料、方志文獻、古籍文本和指令對齊數(shù)據(jù)的綜合數(shù)據(jù)集來訓(xùn)練40億參數(shù)的大語言模型。經(jīng)過多步優(yōu)化訓(xùn)練出支持二次開發(fā)的物產(chǎn)基座模型,在多組實驗上的結(jié)果顯示該模型能夠在方志翻譯、方志標點、物產(chǎn)實體識別等一系列物產(chǎn)文本處理任務(wù)上取得超過原模型的訓(xùn)練效果,更加適合物產(chǎn)領(lǐng)域的開發(fā)。
未經(jīng)過對齊的基座模型常常難以遵循人類的指令,且回答問題時容易產(chǎn)生脫離事實的情況。需要使用指令微調(diào)技術(shù)訓(xùn)練模型指令遵循能力方可在真實環(huán)境下進行部署,王東波教授團隊使用了45萬條對話數(shù)據(jù)來訓(xùn)練模型的基礎(chǔ)對話功能和邏輯能力,尤其強化了模型在物產(chǎn)數(shù)據(jù)處理和物產(chǎn)問答方面的效果。通過構(gòu)建存儲超過14萬種物產(chǎn)的知識庫并接入中華物產(chǎn)對話模型,能夠有效緩解模型回復(fù)用戶物產(chǎn)有關(guān)提問時面臨的“幻覺”問題。在應(yīng)用端,中華物產(chǎn)大模型進一步與外部工具或知識庫結(jié)合,通過物產(chǎn)識別、物產(chǎn)鏈接和檢索增強問答功能為用戶提供精準、便捷的物產(chǎn)信息查詢服務(wù),給學(xué)術(shù)研究、商業(yè)開發(fā)等領(lǐng)域提供有力支撐。
中華物產(chǎn)大模型框架圖
據(jù)數(shù)字人文研究中心包平教授介紹,中國擁有數(shù)量極其豐富的長時段連續(xù)記載的物產(chǎn)歷史文獻資源,開發(fā)一種能夠同時利用好古代和現(xiàn)代物產(chǎn)信息的大語言模型對于推動物產(chǎn)資源的活化利用具有重要意義。未來,依托南京農(nóng)業(yè)大學(xué)中華物產(chǎn)與文明探源協(xié)同創(chuàng)新中心這個平臺,在加強對中華物產(chǎn)史的理論研究基礎(chǔ)上,還將在人工智能和物產(chǎn)挖掘結(jié)合的研究方向上進一步深耕,推出能夠支持更多模態(tài)物產(chǎn)資源處理的工具,推動中華物產(chǎn)文化走向世界。
據(jù)悉,中華書局是國內(nèi)古籍整理與出版的權(quán)威機構(gòu),南京農(nóng)業(yè)大學(xué)于2023年與中華書局聯(lián)合成立了“中華物產(chǎn)與文明探源協(xié)同創(chuàng)新中心”,中心旨在從具有農(nóng)耕文明鮮明特色的物產(chǎn)史研究入手,從遠古神話里描述的物產(chǎn)到現(xiàn)代科技下呈現(xiàn)的物產(chǎn),從單純物產(chǎn)史研究到物產(chǎn)與自然、社會、經(jīng)濟、文化的關(guān)聯(lián),揭示中華物產(chǎn)與文明進程的歷時脈絡(luò)。
閱讀次數(shù):76
【 轉(zhuǎn)載本網(wǎng)文章請注明出處 】