基于Python的科技情报智能化识别检索系统的研究与设计

2019-06-20 01:22贺洪煜
科技视界 2019年11期
关键词:检索系统科技情报关键字

贺洪煜

【摘 要】科技情报不仅能提供科研人员开展科技研发工作的基本资源,更为科研工作者的研究方向与研究内容提供了决策支持。因此,如何为科技工作者提供多渠道、及时准确的科技情报成为科研院校及企业科技部门亟需面对的问题。本文提出了一个利用Python编程语言定时对动态网页中与本行业相关的科技情报进行数据抓取方法,将获取的有用信息保存到本地数据库中,再使用B/S架构的信息系统为科研人员提供查询及订阅功能。该系统具备较高的实时性及准确性,并已经在企业科技部门中进行使用。

【关键字】大数据;科技情报;Python;网络爬虫

中图分类号: G351.1 文獻标识码: A 文章编号: 2095-2457(2019)11-0072-003

DOI:10.19694/j.cnki.issn2095-2457.2019.11.033

【Abstract】Scientific and technological information can not only provide the basic resources for researcher workers, but also provide decision support for the research direction and content of scientific research workers. Therefore, how to provide multi-channel, timely and accurate scientific and technological information for science and technology researcher workers has become an urgent problem for research institutes and enterprises. This paper proposes a method for data capture of scientific and technological information related to the industry in dynamic web pages using Python programming language. This system saves the useful information to a local database, and then the system of B/S architecture provides scientific research workers searching and subscription features. The system is highly time-sensitive and accurate and has been used in the corporate technology sector.

【Key words】Big data; Scientific and technological information; Python; Web crawler

近年来,各个领域的企业都积极地开展对大数据的挖掘和利用。随着物联网、智能设备与互联网+的概念不断普及,每天在互联网上产生的数据已经超过2.5万亿字节,致使这些巨量的数据无法在短时间内被捕捉和处理,提炼成为我们日常有用的数据。大数据与信息技术的应用融合,将科技情报研究工作转变为一种基于海量数据的知识发现和知识分析过程,科技情报研究已经向"数据密集型科学"这一新的研究范式演进[1]。企业的科技研发部门肩负着企业科技创新与成果转化的重担,科研人员每年必须积极参与国家及地方各部委发布的科研课题从而获得科研经费的支撑。在海量数据的环境下,真正需要的有价值的知识被淹没,准确的科技情报收集工作不但占用了科研人员宝贵的时间,不能很好地为企业的科研工作提供保障。

作为国家知识库的概念,中国知网(CNKI)拥有世界上最大的中文知识信息资源数据库,每天提供数千种信息检索服务,且其平台KBase服务于包括欧美、日本在内的发达国家,并取得了成功。在全球5,000个机构用户中,其卓越的性能和稳定性深受用户欢迎。此外,在调查了美国的兰德公司(RAND)、加拿大科技情报研究所(CISTI)、日本科学技术政策研究所(NISTEP)等几家国际著名情报机构的情报分析方法后发现,国外典型科技情报机构的情报分析与应用呈现出工具化、系统化与平台化的特征。

综上分析,企业情报部门及科研人员需要获得粒度更细更精准的科技情报服务,亟需设计开发一套符合企业实际情况、开发灵活、简单易用、具备科技情报收集与分析功能的软件平台系统。Python语言是一种功能强大的具有解释性、交互性和面向对象的第四代计算机编程语言,它开发代码的效率非常高,具有强大和丰富实用的第三方标准库,使得编程变得简洁快速并支持广泛的应用程序开发,从简单的文字处理到基于Web的开发及游戏设计的应用[2]。使用基于Python的网络爬虫应用,不仅可以实时监控提供科技情报的网站发布的所有信息,并且还能进行关键字等的过滤,无需人工干预,就能向指定的用户提供有效信息的推送。

1 系统的主要功能及目标

根据前期对企业科研部门调研,本文所研究的基于Python的科技情报智能化识别检索系统需要实现以下功能:定时从系统预设的网络渠道获取最新发布的科研情报;建立可视化科技情报智能化识别检索系统,用户还可自行订阅相关类型或关键字的情报。系统建设完成后,能推广至集团及下属子集团各科研单位进行使用。

2 系统的功能设计

2.1 系统的设计

本系统程序设计分为两大模块:(1)通过Python网络爬虫程序抓取可自定义类型及关键字的科技情报,将非结构化数据按指定格式保存到数据库中;(2)建立基于B/S架构的可视化管理平台,可实现包括用户管理、信息检索、内容订阅、数据维护、日志管理等功能。程序设计功能框架如图1所示。

猜你喜欢
检索系统科技情报关键字
基于数据工程的国防科技情报生态体系构建
履职尽责求实效 真抓实干勇作为——十个关键字,盘点江苏统战的2021
成功避开“关键字”
铜陵市科技情报工作存在的问题与发展对策
收录《信号处理》的检索系统及数据库
收录《信号处理》的检索系统及数据库
本刊被以下检索系统及数据库收录
本刊被以下检索系统及数据库收录
加强科技情报档案管理工作的建议
基于创新环境下的科技情报研究