編者按:“兩會”是我國政治生活中的大事,承擔著統一思想、傾聽民聲、建言咨政、凝聚合力的重要作用。《中華讀書報》3月5日特邀新聞出版界的“兩會”代表委員撰文,談一談他們近期最為關注的出版話題或現象。第十四屆全國政協委員,國際儒學聯合會副會長、中國出版傳媒股份有限公司原總經理李巖以“智能飛舟沖破萬重山,出版傳媒如何乘長風”為題撰文。現轉發全文。
智能飛舟沖破萬重山,出版傳媒如何乘長風
李巖

近一段時間,國內有兩大熱詞成為媒體關注的焦點,一是《哪吒2魔童鬧海》突破144億票房,揚名海外;二是地處杭州的深度求索公司的DeepSeek大數據模型成為繼ChatGPT和Sora之后掀起的又一次科技革命浪潮。特別是后者對我們出版業帶來的深刻革命還在影響著我們,并將持續一個時段。如何應對人工智能大數據對科技與文化深度融合的影響?特別是以內容生產為主體的傳媒出版如何破繭而出,謀求更高更快的發展?
從2022年的ChatGPT,2023年的Sora,再到今年的DeepSeek,每一次科技革命都給我們傳統的出版業帶來深刻的變化和機遇、挑戰,近一段時間,深度求索公司的新突破成為主流媒體熱議的話題。我特別贊同周蔚華、于殿利等業界同行積極回應的觀點。
隨著以DeepSeek為代表的人工智能大數據模型的普及與廣泛應用,人類經歷的長時段思考與創作,特別是日常工具性的職業技能與熟練的常規寫作會更多地為智能平臺所取代,其結果會導致人的創作能力下降,以及所獲取的智識結構的轉化與弱化(人類獲得性知識體系的遺傳中,寫作與創作技能會隨著時間逐步流失乃至喪失),這催使人們應有意識地將智力結構轉換升級,投入更高層次的智力創造。而那些低層級的同質化產品可以為民眾廣泛低廉甚至是無償地使用。
在這個迅猛發展變化的時期,出版業應協同法律界,配合主管部門,充分研討著作權與知識產權的認定、標注,以及如何保護人類作者在作品中所展現的原創性表達。生成式AI創作的作品(或可稱“仿人類作品”)很難受到版權保護;人類作者有權對原創性的內容有選擇性地發布,并對其中AI輔助創作成果的創造性修改,宣示版權歸屬。包括連續的、專業性的深層提問,可能包含人類作者的智能創造內容與結構。這些問題,需要業界形成規范性的意見取得共識,并交由法律認定;需要出版從業人員通力合作,形成共識。這是出版業面對文化與科技融合之際,首先要考慮的一個問題。
其次是很多業界同行深耕出版有年,一直熱心擁抱新媒體技術融合,一二十年來也有所斬獲。最明顯的成就是古聯公司開發的大型中華古籍資源庫(未來可擴展為中華文化超大型智能基因庫),可以說是古籍活化利用的典范,值得讓更多民眾認知。這是我在本次政協會上關注的重點,即AI、大數據等技術可以大幅度提升古籍整理和文化遺產匯總、梳理、深度開發并轉化應用的速率。我們應該減少資源浪費,充分借助已有的研究開發大型語料庫的成果,不斷轉化,為更多普通讀者所使用。因此我建議:
加大對國家層面的中華大型文化基因數據庫的扶助支持,解決中國特有的語料應用問題。積極應對ChatGPT和Sora的挑戰,特別是DeepSeek系統對大模型數據庫的升級功能,強力支持打造大型古籍語料生成系統,形成立足于五千年文明歷史積淀的超大型中華文化基因數據庫,以應對全球快速發展的人工智能產業給我們帶來的強力沖擊。從文字到視頻影像的生成模式的突破,將帶來對人類傳統智力成果的顛覆性轉換,甚至是創造與創新。在這一方面,中華書局古聯公司起步比較早。據了解,中華書局古聯公司已開發的近110億字的古籍數據資源庫,為以我國傳統文化為主體的超大模型的構建打下了良好的基礎。
古聯(北京)數字傳媒科技有限公司成立于2015年8月,為中華書局全資子公司。從2005年開始,中華經典古籍庫啟動建設,依托中華書局百年品牌及權威古籍整理成果,提供高品質古籍整理數字化加工、數據庫建設、數字出版平臺搭建等數據技術服務及整體解決方案;開展傳統文化數字產品研發、推廣、運營服務。
目前,“古聯”已開發了《中華經典古籍庫》等30多個專業數據庫,聚合了20多家出版社的古籍出版資源,與10多位作者簽署了數據庫創作協議,上線資源總量已超過40億字,榮獲第四屆“中國出版政府獎”、中國質量技術獎二等獎等國家級獎項。李長春、劉云山、王滬寧等同志先后高度關注其核心產品的應用。
在古籍數字化建設中積累的高質量古籍數據資源,根據其內容形成方式,可分為三類。
其一為古籍整理紙質出版物的數字化,包括中華書局等20多個專業古籍出版社歷年出版的古籍整理本、古籍學術著作及相關工具書的高質量的全文結構化數字成果,并形成數據庫產品。目前該資源總量已超過40億字,其中古籍整理本10339種、27.5億字,古籍普及資源980種、3億字,學術資源867種、2.8億字,古籍書目和工具書382種、3.3億字,近代文獻整理出版7.4億字。另有近代報刊等文獻資源18億字。
其二為古籍整理成果的數字化出版,即古聯公司通過與作者合作,以數字化形式整理并在線出版的古籍數據資源。目前已發布將近20個產品,資源形態豐富。包含石刻資源7萬余通,歷代登科人物10萬余條,木版年畫18000余幅,書法作品10000余種,甲骨文卜辭14萬余條,及其他專題性典籍資源3億字。共計5億余字。
其三為古籍原典的數字化成果。即通過OCR等古籍數字化技術采集的未經專家整理的古籍數字化資源。目前已積累共計66249種、2229萬頁、62.5億字數據,其中50億字為古籍資源,也包含部分新民主主義革命時期的舊書舊刊。
去重之后,累計超過110億字數據資源。
根據《中國古籍總目》記錄,中國古籍約20萬種、50多萬個版本;根據全國古籍普查登記,現存古籍復本量約270余萬部另1.8萬函,而且近年來不斷有曾經流散海外的古籍回歸。大規模優質古籍數字化資源不僅是學術研究、傳統文化傳播的必需品,也是前沿的大模型技術的基石,語料的數量和質量直接關系到模型性能的優化與提升,而目前已數字化的古籍遠遠少于存世古籍規模。1949年以來的古籍整理超過4萬種,也僅有三分之一完成了數字化,其中絕大部分集中在古聯公司。《中國古籍總目》記載的20萬種存世古籍也有絕大多數沒有進行文本數字化。隨著DeepSeek等新技術的發展,對超大規模古籍資源與大模型整合應用的需求日益強烈。
古籍數字化的未來工作重點將是加速擴大古籍數字化的規模,并與大模型技術進行深度融合。未來用戶獲取知識的平臺將逐步從網站閱讀檢索轉移到大模型問答,傳統文化的研究、學習、傳播也要緊跟這個發展趨勢。通過這些基礎性建設,將為大眾了解傳統文化提供便捷的人機交互接口,為學界提供更好的研究平臺,也借助大模型技術快速高效地建立中國特色的AI技術應用體系,更好地將中華優秀傳統文化向世界傳播,為人類文明夯石筑基,再現中華文明的燦爛輝煌。我以傳統文化內容為主體的古籍數字化為例,來說明該領域所開展的工作,已為出版業的未來發展打開了一扇日漸明亮的窗戶。我們期待著在科技出版、童書出版領域,可能有更大的突破、更創新的未來。
來源|《中華讀書報》2025年3月5日第6版
作者|李巖 第十四屆全國政協委員,國際儒學聯合會副會長、中國出版傳媒股份有限公司原總經理


