編者按:“兩會”是我國政治生活中的大事,承擔著統(tǒng)一思想、傾聽民聲、建言咨政、凝聚合力的重要作用。《中華讀書報》3月5日特邀新聞出版界的“兩會”代表委員撰文,談一談他們近期最為關注的出版話題或現(xiàn)象。第十四屆全國政協(xié)委員,國際儒學聯(lián)合會副會長、中國出版?zhèn)髅焦煞萦邢薰驹偨?jīng)理李巖以“智能飛舟沖破萬重山,出版?zhèn)髅饺绾纬碎L風”為題撰文。現(xiàn)轉(zhuǎn)發(fā)全文。
智能飛舟沖破萬重山,出版?zhèn)髅饺绾纬碎L風
李巖
近一段時間,國內(nèi)有兩大熱詞成為媒體關注的焦點,一是《哪吒2魔童鬧海》突破144億票房,揚名海外;二是地處杭州的深度求索公司的DeepSeek大數(shù)據(jù)模型成為繼ChatGPT和Sora之后掀起的又一次科技革命浪潮。特別是后者對我們出版業(yè)帶來的深刻革命還在影響著我們,并將持續(xù)一個時段。如何應對人工智能大數(shù)據(jù)對科技與文化深度融合的影響?特別是以內(nèi)容生產(chǎn)為主體的傳媒出版如何破繭而出,謀求更高更快的發(fā)展?
從2022年的ChatGPT,2023年的Sora,再到今年的DeepSeek,每一次科技革命都給我們傳統(tǒng)的出版業(yè)帶來深刻的變化和機遇、挑戰(zhàn),近一段時間,深度求索公司的新突破成為主流媒體熱議的話題。我特別贊同周蔚華、于殿利等業(yè)界同行積極回應的觀點。
隨著以DeepSeek為代表的人工智能大數(shù)據(jù)模型的普及與廣泛應用,人類經(jīng)歷的長時段思考與創(chuàng)作,特別是日常工具性的職業(yè)技能與熟練的常規(guī)寫作會更多地為智能平臺所取代,其結(jié)果會導致人的創(chuàng)作能力下降,以及所獲取的智識結(jié)構(gòu)的轉(zhuǎn)化與弱化(人類獲得性知識體系的遺傳中,寫作與創(chuàng)作技能會隨著時間逐步流失乃至喪失),這催使人們應有意識地將智力結(jié)構(gòu)轉(zhuǎn)換升級,投入更高層次的智力創(chuàng)造。而那些低層級的同質(zhì)化產(chǎn)品可以為民眾廣泛低廉甚至是無償?shù)厥褂谩?/p>
在這個迅猛發(fā)展變化的時期,出版業(yè)應協(xié)同法律界,配合主管部門,充分研討著作權(quán)與知識產(chǎn)權(quán)的認定、標注,以及如何保護人類作者在作品中所展現(xiàn)的原創(chuàng)性表達。生成式AI創(chuàng)作的作品(或可稱“仿人類作品”)很難受到版權(quán)保護;人類作者有權(quán)對原創(chuàng)性的內(nèi)容有選擇性地發(fā)布,并對其中AI輔助創(chuàng)作成果的創(chuàng)造性修改,宣示版權(quán)歸屬。包括連續(xù)的、專業(yè)性的深層提問,可能包含人類作者的智能創(chuàng)造內(nèi)容與結(jié)構(gòu)。這些問題,需要業(yè)界形成規(guī)范性的意見取得共識,并交由法律認定;需要出版從業(yè)人員通力合作,形成共識。這是出版業(yè)面對文化與科技融合之際,首先要考慮的一個問題。
其次是很多業(yè)界同行深耕出版有年,一直熱心擁抱新媒體技術(shù)融合,一二十年來也有所斬獲。最明顯的成就是古聯(lián)公司開發(fā)的大型中華古籍資源庫(未來可擴展為中華文化超大型智能基因庫),可以說是古籍活化利用的典范,值得讓更多民眾認知。這是我在本次政協(xié)會上關注的重點,即AI、大數(shù)據(jù)等技術(shù)可以大幅度提升古籍整理和文化遺產(chǎn)匯總、梳理、深度開發(fā)并轉(zhuǎn)化應用的速率。我們應該減少資源浪費,充分借助已有的研究開發(fā)大型語料庫的成果,不斷轉(zhuǎn)化,為更多普通讀者所使用。因此我建議:
加大對國家層面的中華大型文化基因數(shù)據(jù)庫的扶助支持,解決中國特有的語料應用問題。積極應對ChatGPT和Sora的挑戰(zhàn),特別是DeepSeek系統(tǒng)對大模型數(shù)據(jù)庫的升級功能,強力支持打造大型古籍語料生成系統(tǒng),形成立足于五千年文明歷史積淀的超大型中華文化基因數(shù)據(jù)庫,以應對全球快速發(fā)展的人工智能產(chǎn)業(yè)給我們帶來的強力沖擊。從文字到視頻影像的生成模式的突破,將帶來對人類傳統(tǒng)智力成果的顛覆性轉(zhuǎn)換,甚至是創(chuàng)造與創(chuàng)新。在這一方面,中華書局古聯(lián)公司起步比較早。據(jù)了解,中華書局古聯(lián)公司已開發(fā)的近110億字的古籍數(shù)據(jù)資源庫,為以我國傳統(tǒng)文化為主體的超大模型的構(gòu)建打下了良好的基礎。
古聯(lián)(北京)數(shù)字傳媒科技有限公司成立于2015年8月,為中華書局全資子公司。從2005年開始,中華經(jīng)典古籍庫啟動建設,依托中華書局百年品牌及權(quán)威古籍整理成果,提供高品質(zhì)古籍整理數(shù)字化加工、數(shù)據(jù)庫建設、數(shù)字出版平臺搭建等數(shù)據(jù)技術(shù)服務及整體解決方案;開展傳統(tǒng)文化數(shù)字產(chǎn)品研發(fā)、推廣、運營服務。
目前,“古聯(lián)”已開發(fā)了《中華經(jīng)典古籍庫》等30多個專業(yè)數(shù)據(jù)庫,聚合了20多家出版社的古籍出版資源,與10多位作者簽署了數(shù)據(jù)庫創(chuàng)作協(xié)議,上線資源總量已超過40億字,榮獲第四屆“中國出版政府獎”、中國質(zhì)量技術(shù)獎二等獎等國家級獎項。李長春、劉云山、王滬寧等同志先后高度關注其核心產(chǎn)品的應用。
在古籍數(shù)字化建設中積累的高質(zhì)量古籍數(shù)據(jù)資源,根據(jù)其內(nèi)容形成方式,可分為三類。
其一為古籍整理紙質(zhì)出版物的數(shù)字化,包括中華書局等20多個專業(yè)古籍出版社歷年出版的古籍整理本、古籍學術(shù)著作及相關工具書的高質(zhì)量的全文結(jié)構(gòu)化數(shù)字成果,并形成數(shù)據(jù)庫產(chǎn)品。目前該資源總量已超過40億字,其中古籍整理本10339種、27.5億字,古籍普及資源980種、3億字,學術(shù)資源867種、2.8億字,古籍書目和工具書382種、3.3億字,近代文獻整理出版7.4億字。另有近代報刊等文獻資源18億字。
其二為古籍整理成果的數(shù)字化出版,即古聯(lián)公司通過與作者合作,以數(shù)字化形式整理并在線出版的古籍數(shù)據(jù)資源。目前已發(fā)布將近20個產(chǎn)品,資源形態(tài)豐富。包含石刻資源7萬余通,歷代登科人物10萬余條,木版年畫18000余幅,書法作品10000余種,甲骨文卜辭14萬余條,及其他專題性典籍資源3億字。共計5億余字。
其三為古籍原典的數(shù)字化成果。即通過OCR等古籍數(shù)字化技術(shù)采集的未經(jīng)專家整理的古籍數(shù)字化資源。目前已積累共計66249種、2229萬頁、62.5億字數(shù)據(jù),其中50億字為古籍資源,也包含部分新民主主義革命時期的舊書舊刊。
去重之后,累計超過110億字數(shù)據(jù)資源。
根據(jù)《中國古籍總目》記錄,中國古籍約20萬種、50多萬個版本;根據(jù)全國古籍普查登記,現(xiàn)存古籍復本量約270余萬部另1.8萬函,而且近年來不斷有曾經(jīng)流散海外的古籍回歸。大規(guī)模優(yōu)質(zhì)古籍數(shù)字化資源不僅是學術(shù)研究、傳統(tǒng)文化傳播的必需品,也是前沿的大模型技術(shù)的基石,語料的數(shù)量和質(zhì)量直接關系到模型性能的優(yōu)化與提升,而目前已數(shù)字化的古籍遠遠少于存世古籍規(guī)模。1949年以來的古籍整理超過4萬種,也僅有三分之一完成了數(shù)字化,其中絕大部分集中在古聯(lián)公司。《中國古籍總目》記載的20萬種存世古籍也有絕大多數(shù)沒有進行文本數(shù)字化。隨著DeepSeek等新技術(shù)的發(fā)展,對超大規(guī)模古籍資源與大模型整合應用的需求日益強烈。
古籍數(shù)字化的未來工作重點將是加速擴大古籍數(shù)字化的規(guī)模,并與大模型技術(shù)進行深度融合。未來用戶獲取知識的平臺將逐步從網(wǎng)站閱讀檢索轉(zhuǎn)移到大模型問答,傳統(tǒng)文化的研究、學習、傳播也要緊跟這個發(fā)展趨勢。通過這些基礎性建設,將為大眾了解傳統(tǒng)文化提供便捷的人機交互接口,為學界提供更好的研究平臺,也借助大模型技術(shù)快速高效地建立中國特色的AI技術(shù)應用體系,更好地將中華優(yōu)秀傳統(tǒng)文化向世界傳播,為人類文明夯石筑基,再現(xiàn)中華文明的燦爛輝煌。我以傳統(tǒng)文化內(nèi)容為主體的古籍數(shù)字化為例,來說明該領域所開展的工作,已為出版業(yè)的未來發(fā)展打開了一扇日漸明亮的窗戶。我們期待著在科技出版、童書出版領域,可能有更大的突破、更創(chuàng)新的未來。
來源|《中華讀書報》2025年3月5日第6版
作者|李巖 第十四屆全國政協(xié)委員,國際儒學聯(lián)合會副會長、中國出版?zhèn)髅焦煞萦邢薰驹偨?jīng)理