出版深度融合背景下的学术数据库产品建设
——以乡村研究数据库为例

2023-12-25 04:03范兰兰
中国传媒科技 2023年10期
关键词:标引学术数据库

刘 姝 范兰兰

(社会科学文献出版社,北京 100029)

1.出版深度融合对数据库产品建设提出更高要求

党的十八大以来,以习近平同志为核心的党中央高度重视、有力推动媒体融合发展。出版融合,事关知识传播、文化传承,助力文化强国的重要着力点,事关行业转型升级、做大做强,是出版业实现高质量发展的迫切需要。[1]

数据库产品建设作为出版融合发展的重点业务模式,需要主动对标出版深度融合发展的新任务、新要求,积极步入推动出版深度融合发展的新赛道。在强化内容建设方面,坚持内容为王,扩大优质内容供给;积极贴近读者,创新内容呈现方式和传播方式;围绕服务党和国家工作大局、满足人民群众精神文化生活新期待,打造重点领域内容精品。在发挥技术支撑方面,更加强调内容、技术、场景、用户之间的适配性[2],以及对前沿技术探索应用、出版新型业态和融合技术等领域的标准研制。在打造重点工程方面,推动出版单位实施品牌提升计划,立足优势领域精耕细作,充分发挥内容资源、作者资源、品牌资源优势,积极布局重点产品、服务和平台。[3]这些具体要求都是出版机构提升数据库产品建设质量、强化数据库产品知识服务能力的具体方向和抓手。

2.融合创新激发学术资源新价值:乡村研究数据库的建设实践

社会科学文献出版社是出版界最早开启数字化转型的出版社之一,并一直紧跟融合发展的政策导向,顺应知识传播形态变革、学术研究范式转型、读者阅读习惯变革,面向学术研究和智库建设需求,开展学术数据库产品建设。乡村研究数据库便是出版社将建设智库产品服务国家社会与推进学术出版数字化转型相结合的典型尝试和重要成果。

乡村研究数据库秉承出版社聚焦中国发展与中国经验的出版传统,旨在打造真实记录中国乡村发展、深度解析“三农”问题、全面推进乡村振兴的学术成果库和决策支持库。数据库于2020 年9 月上线,以特色资源、产品优质等得到业界与用户认可,被近150 家国内外机构使用。

在数据库建设过程中,始终坚持精品导向,以内容为体、技术为翼,不断创新运营模式,打通内容整合、学术生产和知识服务等生产服务链条,助推学术成果的价值最大化和学术服务的平台化。

2.1 深耕内容建设,学术取向与政策导向紧密结合

乡村研究数据库的内容建设以“扩大优质内容供给”“创新内容呈现方式”为重点。在资源整合和产品内容设计上,遵循学术传统,紧跟国家战略政策,打造内容精品。

2.1.1 因循乡村研究学术传统,发现数字资源蓝海

乡村研究学术传统深厚,以问题研究为导向,主题性强,注重典型村落调研和实证研究。2012 年,社科文献出版社在与复旦大学社会学系张乐天教授的沟通中,了解到张乐天教授从1988 年开始坚持收集浙江省海宁市联民村的“民间生活史料”,包括村干部工作笔记、村民生活纪实以及大规模实地调查资料。这些来自民间的一手档案资料和实地社会调查数据具有很高的研究价值,对理解当代中国现实具有重要作用,但并没有得到出版和很好地利用。当时,社科文献出版社正在大力推进数字化转型,便决定用数字化手段,将这批典型村落调研的未出版资源,包括调查问卷、个案访谈资料、各种研究素材和原始文献进行资源整合和学术呈现,打造张乐天联民村数据库(乡村研究数据库的前身)。这是跳出出版社数据库建设的资源整合困境和依托已出版资源的路径依赖的成功尝试。

2.1.2 以服务学术研究和助力智库建设两条线为抓手,全面聚合优质内容

2018 年,为应对张乐天联民村数据库的发展瓶颈,即单个村落调研产品的资源规模难以长期持续、在市场上销售困难,项目组开启了从典型村落的资源型数据库产品,完善升级为乡村研究主题的学术数据库的建设之路。

一方面,从服务学术研究出发,整合主题学术资源。基于出版社已出版的调查研究成果,整合贵州屯堡村落,满铁调查村落,魁阁调研村落的内容资源,再到中国社会科学院组织的“百县市经济社会调查”“中国百村调查”“精准扶贫精准脱贫百村调研”等项目成果,进而到乡村研究主题资源,如“三农”问题、县域发展、城乡关系、海外乡村研究等。

另一方面,从助力智库建设出发,围绕政策聚合资源。紧跟国家“三农”政策、精准扶贫精准脱贫基本方略、乡村振兴战略,整合出版社“三农”问题、脱贫攻坚和乡村振兴,以及城乡关系的研究成果;全面采集政策文本并做好汇总分类;发挥学科编辑特长,做好数字资源的再生产,自主策划政策演变和逻辑关系的学术导读、紧跟政策热点策划专家访谈等。

2.1.3 搭建乡村研究知识体系,实现产品内容专业呈现

乡村研究以问题为导向,涉及多个学科领域,现有的中图分类、学科分类标准很难直接用于乡村研究内容资源的呈现。项目组基于对1980 年代以来的乡村研究主题文献、1991 年以来的国家重大项目立项数据的分析,以及对中国社会科学院、中国人民大学等高校专家的调研,自主设计了包含研究成果、实地调查、史料档案、典型学术案例、政策资讯和学术共同体等不同维度、完整系统的乡村研究知识体系,实现了产品内容的专业呈现。

2.1.4 产品建设专题化,服务学术研究与智库建设

乡村研究数据库充分挖掘凸显乡村研究特点和库内资源特色,进而搭建产品架构。下设“三农”研究数据库、乡村振兴研究数据库、村落调查研究数据库和县市调查研究数据库,并紧跟政策热点、学术前沿持续推出热点专题。服务学术研究方面,打造学术名村系列专题,重点呈现县域发展典型模式等学术研究典型,为科研教学提供研究范式和学习范式。助力智库建设方面,2021 年2 月《关于全面推进乡村振兴加快农业农村现代化的意见》发布,项目组依据乡村振兴战略制度框架和政策体系,快速推出乡村振兴研究子库,甫一上线,便受到多家党政机构关注;2022 年数字经济上升至国家战略层面,《数字乡村发展行动计划(2022—2025 年)》发布,乡村研究数据库上线数字乡村专题,多视角呈现数字赋能乡村振兴的实践和经验,探讨数字乡村建设各领域纵深推进的模式和路径。

2.2 按需适配技术,强化数据库的知识服务能力

乡村研究数据库的技术运用坚持以需求为导向,以安全为底线,积极尝试新技术运用。借力自然语言处理、语义分析、机器学习等技术,实现规模资源的机器标引和按需重组,为快速重组资源打造专题产品奠定基础,强化数据库面向用户个性化需求的知识服务能力。运用并持续优化新词发现、智能分词等技术,不断提升数据库智能检索、智能推荐等功能体验。

2.2.1 构建网络安全综合防御体系,筑牢网络安全与数据安全屏障

乡村研究数据库从四方面构建网络安全综合防御体系。一是严格遵守国家网络安全等级保护制度2.0标准。二是采用https 协议加密传输,利用SSL/TLS建立全信道,加密数据包,有效保障数据的隐私与完整性。三是运用阿里云云防火墙,对于DDOS 攻击、XXS 跨站攻击、SQL 注入等恶意攻击都能有效防护。四是借力第三方成熟漏洞扫描和安全监测服务,坚持每月漏洞扫描,每周安全监测,同时建立数据库运行监控系统,实时监控数据库运行情况,确保数据库产品的安全与稳定性。此外,还建设内容智能审核工具,对涉敏感主题、涉敏感人物等进行识别,助力保障内容安全。

2.2.2 开发基于深度学习技术的机器标引,助力数字资源标引效率提升

标引是对数字资源进行组织的有效手段,标引效率和质量直接影响数字资源的开发利用。乡村研究数据库的资源类型丰富、资源规模较大,单纯依靠人工标引,无论是在标引效率还是质量控制上都存在困难。

为解决这一业务痛点,数据库建设初期,利用自动抽词标引实现了迈向机器标引的第一步,在由专业编辑审核的标引信息积累到一定规模时,建立了标引语料库,运用深度学习算法和机器学习技术,构建机器标引模型,并反复训练不断提高标引准确率和速度。训练过程中,机器标引模型通过模拟人类的思维方式,对标引数据进行学习和识别,不断调整自己的模型参数和策略,以适应不同的标引场景和数据,从而实现快速、准确地对大量的文本数据进行分类和标注,大大提升标引工作效率。目前,机器标引已作为一种工具,应用到社科文献出版社的各个数据库。今后还将持续调优语料质量和模型参数,不断提升标引质量。

2.2.3 实现基于知识分类计算的资源动态重组,提升面向个性化需求的服务能力

为更好地满足不同行业、不同学科领域用户的需求,乡村研究数据库在产品设计时特别注重资源的快速重组能力。在社会科学领域分类和领域专业词表的基础上,结合乡村研究所涉学科和行业特点,基于乡村研究知识体系,通过对中图分类、行业分类、学科分类、地区分类、时代分类、主题词、关键词、作者等20 余个条件的逻辑“与”“或”“非”的知识分类的计算,准确全面地表达资源应用的各个维度和范围。再结合系统的定时任务,将经过碎片化、格式化、结构化的内容资源进行自动地重新组合,实现动态资源的精准提取和自动聚合。以此实现个性化产品内容的快速生成,大大缩短数字产品建设周期。

2.2.4 运用智能检索技术,提升检索准确度和效率

检索是数据库基础且重要的功能。智能检索是一种利用自然语言处理和机器学习技术,对大规模的资源进行信息检索和处理的技术。与传统信息检索相比,智能检索解决了传统信息检索准确率低、效率低和漏检的问题。智能检索通过分析用户输入的文本,实现自然语言的语法分析和语义分析,使系统能够更好地理解用户的意图和需求,从而快速准确找到相关信息,大大提升用户的检索效率。乡村研究数据库运用智能检索技术,辅以自动补全、检索纠错、拼音检索等功能来提升用户检索的使用体验。

2.3 创新运营模式,学术营销与产品建设深度联动

乡村研究数据库面向从事乡村研究的高等院校、研究机构、党政智库,以及关注乡村发展、致力乡村振兴的社会公众,提供文献服务、资讯服务、数据服务和定制服务等。

“作者即用户”是学术型产品的重要特点,在乡村研究数据库建设运营全过程中,项目组长期与学界保持密切联系,以需求调研、专家咨询、专家访谈、学术会议等多种方式,实现了用户需求追踪、用户生产内容、专业力量借力、学术营销推广等围绕学术整体联动的产品建设运营模式。

乡村研究数据库积极打造线上线下一体化传播体系,助力学术成果纵深传播。一是充分借力传统线下营销方式,与图书发布会、学术会议等联动推广,推动图书用户和数据库用户池互通共享。二是结合政策时事热点推出专家访谈、专家讲座、学术研讨等多样化的学术营销活动,以学术营销推动用户生产内容,反哺数据库内容建设。以专家访谈为例,项目组以作者资源为基础,围绕中央一号文件、乡村振兴促进法,针对乡村振兴、现代农业、城乡关系、农村基层党建等议题,采访了社会学领域权威专家,包括中国社会科学院王春光研究员、中国人民大学陆益龙教授等,形成了访谈稿和短视频等形式的原创内容,通过数据库专栏、微信公众号、学术社群、核心学术期刊等多渠道传播。

3.新兴技术赋能下学术数据库产品建设的思考

出版深度融合从根本上说是以数字技术为内驱力的介质、形式、组织、战略的整合。[4]当前,新一轮科技革命和产业变革加速演进,以大数据、云计算、人工智能等为代表的数字技术赋能出版业,驱动出版业智能化、数据化发展,应用场景不断拓展。[5]学术数据库产品建设也将迎来更多的机遇和挑战。

一是人工智能给学术内容生产带来变革。2023 年,ChatGPT 杀入学术界写论文,由此AIGC(人工智能生成内容)引发广泛关注。对于学术数据库产品而言,要将智能技术与学者的研究成果、研创场景、编辑的内容生产场景深度结合,进一步释放内容生产力。例如,面向学者研究成果研创场景,提供学术趋势分析、智能选题、智能写作等科研辅助工具;面向编辑的内容生产场景,提供智能审校等内容生产辅助工具。

二是大数据技术为深化学术知识服务带来更多可能。当前数据资源已经成为关键生产要素。学术数据库产品建设中,要真正把数据作为生产要素,运用大数据技术,对内容数据、用户数据进行深入分析和挖掘,强化数据整合、管理及运用能力。例如,在产品建设中,深度挖掘、关联分析内容数据,为产品选题、专业领域知识体系构建提供支撑,探索发展数据出版新业态;在产品运营中,加大用户数据采集和分析力度,不断完善用户画像,助力精准营销和知识服务。

猜你喜欢
标引学术数据库
如何理解“Curator”:一个由翻译引发的学术思考
档案主题标引与分类标引的比较分析
对学术造假重拳出击
本刊对来稿中关键词标引的要求
数据库
数据库
本刊对来稿中关键词标引的要求
数据库
数据库
学术