关于建设网上科技工作者之家的思考

2020-07-30 14:01周全海王雅冬
科技视界 2020年16期
关键词:网页工作者分类

周全海 王雅冬

摘 要

习近平总书记在中央党的群团工作会议上寄望,“工青妇等群团组织要下大气力开展网上工作,亮出群团组织的旗帜,发出我们的声音,让群众能在网上找到自己的组织,参加组织的活动。”网上科技工作者之家融合科协系统资源,着眼科技工作者的实际需求,助推广大科技工作者在经济建设和社会发展中发挥重要作用。

关键词

网上科技工作者之家;平台;建设;服务

中图分类号: F273.1                      文獻标识码: A

DOI:10.19694/j.cnki.issn2095-2457.2020.16.001

随着互联网的普及和快速发展,科技工作者“倒逼”科协工作方式改变的趋势已越来越明显,同时也对科协工作提出了新的要求。建设科技工作者之家有利于精准挖掘智库建设、学术交流、对外联系、科学普及方面的潜在价值,人才服务、创新创业等方面的信息资源,进一步密切与有关部门和地方的联合协同,引导服务资源下沉和精准落地。

1 前车可鉴:建设网上科技工作者之家存在的问题

1)现有平台专业性不强,服务内容单一。很多网上平台内容过于泛泛,没有科技特色,对各领域各层次,特别是高端学者和学术带头人等科技人员吸引力不强,科技工作者没有“家”的归属感。

2)用户缺乏交互,传达信息能力欠缺。缺乏活跃的在线交互是平台最突出的问题,包括日常交互量低,交互频率低,交互间隔长,沟通内容广泛不集中等。很多平台宣传不到位,不为人知,“家”徒有空壳而无实质,这种情况出现的根本原因仍是平台无法提供准确有效的服务,用户感兴趣的内容缺失,“家”无法发展壮大,“家人”没有交流的欲望,达不到及时传递和沟通信息的目的,造成平台资源浪费。

2 着眼当下:让更多网上资源向科技工作者倾斜

1)建设网上科技工作者之家有助于掌握网络意识形态工作主动权,引导科技工作者坚定政治立场,紧密团结在党的周围。科协是党领导下团结联系广大科技工作者的人民团体,网上科技工作者之家不仅是科技工作者互联网平台上的发声渠道,更是科协引领科技工作者正确舆论导向、价值取向的平台。打造科技工作者线上兴趣圈、行业圈,吸引科技工作者积极参与学术交流、话题讨论,拓宽科技工作者科研社交、学术成长、参与社会治理的渠道,团结一心听党话、跟党走,成为服务党和政府科学决策的坚强后盾。

2)建设网上科技工作者之家是线上联系服务科技工作者的重要手段。网上科技工作者之家借助信息技术手段精准定位科技工作者,通过提供科技资讯、奖项申报、成果转化、在线交流等服务,建立具体化、常态化的联系服务科技工作者的机制,让科技工作者切实感受到“家”的关怀和温暖。

3)建设网上科技工作者之家是为科技工作者提供人性化管理服务的基本要求。人性化管理即科协工作更多地围绕科技工作者的生活、工作习惯展开,使管理更贴近科技工作者个人,从而达到充分挖掘科技工作者潜能的目的。一是满足科技工作者提高自身素质的需求,为科技工作者提供个性化培训、科技成果展示转化的平台等;二是要广开言路、发扬民主,畅通交流渠道,让科技工作者在“家”中畅所欲言,对合理意见认真采纳,了解科技工作者真实的想法和意见需求,使科技工作者思想上归属于科协,感情上依附于科协。

4)建设网上科技工作者之家是服务提高全民科学素质的重要途径。科学技术已成为现代生产力发展和经济增长的第一要素,是推动现代生产力发展中的重要因素和重要力量。科普工作作为科协的重点工作之一,建设网上科技工作者之家有助于统筹科普资源建成科普资源库,全边界打通科普专家、活动、场馆的资源壁垒,推进科普专家匹配检索、科普活动效果评估、科普资源互通分享的科普信息化新格局。

3 技术支持:完善数据标准,整合网络数据资源

通过网络抓取工具对互联网中资源进行主动的、有针对性的采集,包括科技新闻、政策数据、人才数据、科研项目数据、智库成果数据等,实现对科技前沿资讯、政策信息、科技成果等信息的获取。

3.1 网页定向爬取

即针对不同的网页构建不同的网页爬取模板,可以精准的获取目标站点的信息,通过构建的模板进行信息匹配,实现主要参数和属性的抽取。

(1)网页全量爬取

通过分段抽取的方式,抽取网页中的title、keywords、Descri ption标签、文本信息等网页数据。

(2)模板定制

开发定向爬取的模板,完善定向爬取模板库,目前涵盖科技成果类、学术类、专利类、科研类等主流的网站,网站样式更新后,会及时调整对应模板。

(3)网页去噪

为提高爬取内容的有效性,需要对网页进行去噪声处理,去除网页周围的广告、推荐等无意义的信息。

(4)防封策略

网站为了避免数据被爬取,增加了多种多样的反爬虫措施,随着对爬取IP的查封力度不断加大,网站主要通过一段时间内的访问频率对爬取IP进行识别与认定,故可以通过限定每个IP对同一网页爬取的频率规避爬取IP被封的风险。

3.2 文本分析

(1)信息抽取

文本抽取:先对网页进行去噪处理,再对网页内容进行分段提取,获取用户访问网页的内容。

资源获取:对权威网站进行爬取时多采用配置模版的方式,实现对应资源的主要属性和参数的抽取,一般每个资源配置一种模版,将对应信息形成资源标签体系,以便在网页解析时了解用户的兴趣点。

(2)文本处理

采用自然语言处理技术(NLP),通过中文分词对爬取的网页内容进行切分,运用机器学习算法和上下文关联实现新词发现,统计通过分词匹配产生词库数据的频率。

3.3 分类存储

匹配分词:采用以内容标签为基础的分词库对网页采集内容进行文本分词处理,在此基础上确定网页内容的语意方向。

分词保存:通过URL对应网页的爬取、信息抽取、分类后形成URL分类实例进行保存。

3.4 网页内容分析

(1)内容识别

通过对URL的构成规则及URL所承载的页面内容的解析,实现对用户访问的URL按照内容信息及网站频道进行分类定义。

规则分类:通过构建规则定义URL的分类依据,继而通过用户访问的URL识别用户流向,得到网站名称、网站分类、频道名称、内容分类,实现对用户访问的URL按照内容信息及网站频道进行有效分类。

实例分类:通过实例库对网页内容分类进行定义,识别页面上用户关注的内容。通过实例库,得到用户访问页面的标签。

实例库更新:通过网页解析模版获取URL分类信息,将信息更新至实例库,用于网页内容识别。更新模块对爬虫程序输出的爬取结果清单进行自动扫描,若清单中所有条目的Json字段非空,则批量更新至URL实例库。

4 未来可期:打造具有科协特色的智慧网络服务平台

(1)加强用户联系,建设智能交互社区。构建社区生态,增加用户黏性,避免成为缺乏联系的信息“孤岛”。设计开发WAP版网上科技工作者之家、微信公众号等,为用户提供功能完整、交互便捷的移动端服务,实现消息提醒、移动办公、业务办理、移动科普等功能,满足移动端的使用需求,让科协服务“送到指尖”。突出便捷性,在保證安全性的同时,简化使用程序,做到“即注即用”,避免过于繁琐的程序削减科技工作者的交流欲望。PC端和移动端双向同步联动,使浏览、查询、聊天等功能实现实时数据互通,形成PC端和移动端用户联动、线上交流与线下活动联动的多渠道、立体式科协网络,全方位覆盖用户群。对每位用户创建个人展示页面,用户可发布个人动态、时评、研究成果等,引入评论、转发、点赞等功能并择优抓取到主页,增强用户的互动性和展示欲望。

(2)突出科协特色,开发兴趣板块。集成当今流行的应用和互动方式,形成图、文、长短视频、直播等多维度信息发布平台。开设基层科普知识、科技政策解读、学术讲座视频、专家互动交流等创意版块,满足各层次科技工作者的兴趣点,实现专家与基层科技工作者之间的对话交流。

(3)整合企业资源,开拓科技成果转化路径。以网上科技工作者之家为依托,使企业与科技工作者之间产生直接联系,使科技工作者针对市场需求进行科学研究,提高科研成果的转化率利用率。协调高端科技人才在网上直接与企业对接,降低交流成本,通过提供科技咨询服务、专业技术指导等方式,引导科研人员服务经济社会发展,开拓服务科技成果转化线上路径。汇编最新科技成果推荐给相关领域企业,方便企业掌握一手资讯,有针对性的邀请专家合作。

(4)利用大数据技术,为科学决策提供支撑。利用网上科技工作者之家搜集的科研成果数据、发明专利、研究论文等资源,分析科技事件发展的脉络,对未来科技趋势进行分析预测。通过网页抓取、文本分析、网页分类保存、网页内容分析4个过程,整合网络数据资源,包括科技新闻、政策数据、人才数据、科研项目数据、智库成果数据等,生成数据分析报告,提供给有需要的企业和科技工作者。绘制精准表述科技工作者特点的画像,定向推送讯息,联结科技工作者之间的“关系网”,实现“量体裁衣”式服务。

猜你喜欢
网页工作者分类
关爱工作者之歌
致敬科技工作者
分类算一算
我们
——致敬殡葬工作者
分类讨论求坐标
普法工作者的“生意经”
基于CSS的网页导航栏的设计
数据分析中的分类讨论
基于URL和网页类型的网页信息采集研究
网页制作在英语教学中的应用