数字出版

出版人站上大模型风口

2023年科技领域的年度热词,“大模型”榜上有名。随着OpenAI的出现,大模型生态初现。当基础大模型日渐成熟之后,针对一些具体行业和应用场景的垂直大模型的训练会越来越普遍,届时,这些行业中掌握着大量垂直语料的机构也必然更有优势。

出版业作为知识生产者,掌握着庞大的语料库,能为大模型提供源源不断的养分,这也是出版人觉得在大模型可以一试的原因。经历了初期观望与“试练”后,对于生成式AI这一新技术“又爱又怕”的出版人也踏上这条赛道,将想法逐步落实到行动上,期望带来存量的效率提升与增量的新应用场景。

日前,德国媒体巨头阿克塞尔·施普林格(Axel Springer)与美国人工智能研究公司OpenAI建立战略合作关系,OpenAI将付费使用施普林格旗下出版物的内容。施普林格也因此成为全球范围内首家与OpenAI合作的出版商。

在国内,中原出版传媒集团下属大象出版社,由于今年6月与施普林格·自然集团签订“中国汉学研究史论丛书”中英文同步出版协议,而被称为“国内首家与OpenAI达成间接合作的出版社”。

事实上,国内出版人对大模型的关注,最开始是落地到相关图书内容中。从2023年年初开始,关于ChatGPT类大语言模型的各类书籍上架,例如,中译出版社的《大模型时代:ChatGPT开启通用人工智能浪潮》、华龄出版社的《ChatGPT:AI革命》、中信出版社的《生成式人工智能:一本书带你读透AIGC》等等。国外亦是如此。据了解,亚马逊专门开辟了ChatGPT类大语言模型的书籍专栏。截至2023年10月13日,在亚马逊官网以“高级检索”方式,检索署名作者为“ChatGPT”的书籍,已有1024种,以“AI”为作者的书籍则更多。

为了加快与新技术融合的步伐,不少出版文化机构选择“跳出书页”,躬身入局大模型。文心一言是百度基于文心大模型技术推出的生成式对话产品。今年以来,人民交通出版社、上海辞书出版社、四川人民出版社、重庆出版集团·天下图书、国家图书馆、中文在线等出版文化机构纷纷宣布接入百度文心一言。这场对话式语言模型技术在国内出版市场的初步着陆,让出版人感到兴奋之余,也纷纷开始尝试在产品研发、标准制定等多个领域展开深化合作,试图借助这一技术打造“出版+人工智能全系产品/服务”,形成出版机构独有的数字经济时代的“新质生产力”。一时间,大模型给出版概念股带来的股价高涨,让人们对这一领域寄予了更多期待。

随着大模型越来越“聪明”,国内外出版企业及相关科技公司为了率先吃到大模型应用带来的市场红利,开始投入更多力量。北京师范大学新闻传播学院媒介融合与数字出版中心主任、国家新闻出版署出版业用户行为大数据分析与应用重点实验室主任秦艳华及其团队研究发现,据不完全统计,截至2023年11月6日,我国共有188个单位研发出201个大语言模型。

值得注意的是,走过开始的混沌期,大模型竞技场当前越来越呈现出两条清晰的路线:一是以云服务厂商为代表的巨头们逐鹿的基础通用大模型赛道;二是在基础通用大模型之上,深耕千行百业多年的“资深行家”抢滩构建的垂直行业大模型。

秦艳华基于对人工智能和大模型应用领域的深入研究与观察发现,大语言模型产业生态当前已经在文本、音频、视频等多模态交互功能上持续演化升级,奠定了多场景的商用基础。多款大语言模型具备了跨模态、跨语言的深度语义理解与生成能力,为出版业提供了更多开发应用的可能性。目前国内出版业对人工智能大语言模型的应用持慎重而乐观的态度。

虽然还未将大语言模型完全应用于图书出版全流程,但在图书出版的部分环节,比如编辑校对、翻译、有声制作、图书推荐(视频)等,已有大语言模型应用的探索和实践。

日前,中华书局古联公司联合南京农业大学信息管理学院推出“荀子”古籍大语言模型。中国图书进出口(集团)有限公司旗下的中图科信数智技术(北京)有限公司,研发了针对农业、水利、出版知识服务等四大领域研发中图科信垂类大模型。城市传媒目前已初步完成服务出版行业的专业大模型“万象”测试版开发,并与科大讯飞达成协议,共建“AI出版传播创新研究院”。中信出版集团今年5月成立了平行出版实验室,将技术和编辑人员整合于此,从AI介入方面进行研发,包括校对、编审、图片以及视频生成等工作;并尝试与作者和大模型公司合作语言训练,开发智能阅读应用产品,例如,公司旗下的知识服务平台与百度联合发布了“中信书院AI阅读助手”插件。果麦文化传媒股份有限公司携手爱漫阁(上海)智能科技有限公司,发布了国内首款专业动漫图文模型与AI工具1.0版本,基于算法的优化和创新,解决了生成图片随机、位置不固定等问题。中华医学会杂志社与科大讯飞基于星火认知大模型开展了辅助写作和智能问答的合作,未来还将协力开展更广泛的个性化的医学知识服务。此外,中华医学会杂志社在稿件的采编评审环节引入了AI写作检测工具,做好AI代写的事前预警,防止新型学术不端行为的发生。蜜度发布了国内首个智能校对领域大模型“蜜度文修”,大幅提升中文校对和润色能力的智能化程度。中文在线的“中文逍遥”大模型目前已用于短剧剧本创作,未来将延伸到产出高质量的对话和剧本,为影视创作者提供创意灵感和创作辅助。浙江大学、高等教育出版社、阿里云、华院计算等单位共同研制的“智海-三乐”教育大模型,集成了搜索引擎、计算引擎和本地知识库等功能,可提供智能问答、试题生成、学习导航、教学评估等能力。中国知网发布出版传媒行业大模型和文化遗产大模型两款AI大模型,同期,在线发布AIGC检测服务系统,专为出版传媒行业提供AI选题策划、AI增强检索各类AI工具,并融入到出版业务流程,赋能出版传媒行业全流程数智化转型。

在大模型的内容生产中,如何确保内容的版权得到妥善保护?这是AI大模型在内容生成中一个不容忽视的问题,也是一个亟待解决的问题。为了更好地记录AI生成内容的创作过程和版权信息,确保内容的真实性和版权归属的明确性,龙源数字传媒集团近日基于大模型AI和版权文章库研发了知识发现与创作平台“文可知识文库”,为AI生成的内容提供版权确权服务。12月20日,中国音像与数字出版协会发布《出版业生成式人工智能技术应用指南》团体标准,该文件规定了出版业应用生成式人工智能技术的基本原则、主要应用场景和相应的保障措施,自2024年1月20日起开始实施。新标准的出台,为出版机构应用生成式人工智能技术提供了重要指导,这也意味着,出版人在新技术探索的下一环节中,从政策变化、监管深化,再到产业转型、动能转换,组织管理将持续迎来更深入的变革与思考。

各种垂类大模型层出不穷,但一系列核心难点的存在,一定程度上将会影响这场探索的前行速度。秦艳华坦言:“针对出版业应用的、具有代表性大语言模型大多较为散乱,且处于起步阶段。出版业大模型研发多基于自己的私域数据,希冀开发出某些用于出版某环节的大语言模型。而这些出版企业自己私有语料、数据,其实在训练大模型方面远远不够。行业模型的建立除了需要人工智能领域高科技人才、高资金投入、高算力之外,还需要有价值的语料训练。高质量的语料问题是解决出版业行业大模型的关键。”

针对这些问题,秦艳华建议,出版企业要转换思维模式,要有互联网精神,开放、平等、协作、快速、共享,与高校科研机构、高科技公司等展开深度合作,在语料资源、数据资源、科技资源等方面实现共享,同时寻找恰当的利益分配模式,多方共赢。在大语言模型生成文本的基础上,跨模态生成技术有望进一步帮助出版方迅速打造以纸质图书为主、融合一种乃至多种媒体形式和技术形成的融媒图书,增强图书的趣味性和读者沉浸感,真正实现出版的深度数字化转型。

面对这场巨变,出版人只有积极变更思维、勇于转换赛道,尝试在品牌资源建设全流程下功夫、注重规避潜在风险,并巩固好选题策划、内容创造、知识服务等看家本领,才能不被时代所淘汰。