舆情监测对保障意识形态安全的研究

2020-03-23 03:18
福建质量管理 2020年12期
关键词:源码关键字网页

蔡 爽 陈 锋 阎 喆

(中国医科大学附属第一医院 辽宁 沈阳 110001)

随着网络信息化的不断发展,互联网和自媒体已经成为人们获取信息、表达观点的重要平台,同时也为舆情的产生提供了便捷渠道。不同意见和观点的交流碰撞,就会形成动态化的网络舆情舆情,直接反映民众对某一事件的的认知情绪、意见态度和行为倾向。而这些情绪和意见背后往往蕴含着民众的政治倾向和政治行为。

意识形态作为思想价值体系的载体,自然离不开媒介的传播与渗透,因此,维护好网络空间中的意识形态安全,必须高度关注网络舆情的发展。

当前,医疗行业意识形态工作整体向上向好,但也有一些值得警惕的问题。如借助社会热点事件炒作、利用敏感议题渲染焦虑情绪、激化医患矛盾、社会事件泛政治化等现象,针对这些问题,需要采取措施加以解决。

在互联网时代,应该以意识形态为抓手,着力引导民众积极理性的看待和处理就医过程中出现的问题,形成与社会主义主流意识形态相一致的网络舆情发展方向,进而有效应对和化解网络舆情危机。

一、建立健全网络舆情监测平台

面对这一情况,本单位自主研发舆情监测软件,针对自身需求,简化管理工具,提高舆情监控的针对性,定向监测本行业、本单位及指定信息源,通过创新算法获取信息搜索结果,去除广告、推广等无效信息,实现快速采集、传输和分析所需舆情信息,识别、处理有效信息内容,实时监控。标准化舆情信息数据并存储,为历史信息的分析、统计提供支持,通过设定的关键字设置监测方案后,可精确定向采集全网信息,自定义信息监测的时间范围,全网搜索,发现舆情,软件弹窗即时作出预警、提示,实时把握医院及行业内相关舆论传播内容,便于事实澄清或诉求回应,从而及时引导网络舆论传播方向,最大限度的降低引起医患矛盾的因素。

(一)舆情监测软件设计

1.算法思想

本软件的主体思想是利用各个网站自带的搜索引擎,获取其搜索结果利用算法加以分析,得到舆情信息。在实际研究过程中发现,百度、新浪微博、今日头条等网站采用的编码技术并不相同。其区别在于,百度提供的搜索工具会将根据关键字搜索到的内容分页,逐一显示在浏览器中,利用查看网页源码的方法我们可以获得搜索引擎得到的原始内容,通过算法整理有效内容、过滤无效内容,可以得到与百度搜索相一致的内容;而新浪微博的网页源码采用了不同的编码技术,获取到的网页源码并不能直接使用;今日头条则利用javascript工具,采用了动态的网页生成技术,无法直接获取有效的网页源码。因此,本软件分别针对这三种情况,设计了不同的算法。

2.软件的整体设计

本软件共设计了数据采集、数据整理、数据存储、信息展示四个部分。在数据采集部分利用算法对与关键字相匹配的网络原始数据进行采集,将数据流传递给数据整理模块,通过解码、转换等过程得到标准化的可分析数据,再将标准化数据存储到本地数据库内,最后根据用户的选择将需要的信息内容展示出来。

(二)主要的模块

1.数据采集

数据采集模块主要负责利用网页源码获取技术,将搜索的关键字转换为目标搜索引擎可以解读的网址,通过对网址的访问获取网页源码。其主要流程如图所示。

以百度为例,本软件分析了百度搜索时网址的书写规则,形如“http://www.baidu.com/s?wd=关键字+细节描述”,其中关键字是舆情关注的内容,例如要查询家用电器相关舆情,则可将关键字设置为“家用电器”,细节描述则是指搜索的时间范围等其他相关条件。组合好网址以后,通过访问算法,得到该网址返回的源码,交给数据整理模块进行解码、分析处理。

2.数据整理

数据整理是一项较为复杂的工作。数据采集到的源码内不光包含了有用的信息,还包含了大量的诸如字体颜色、背景样式、元素对齐方式等描述HTML文档显示属性的HTML标记。因此先要根据源码的生成规律确定有用信息的位置,如新闻标题、新闻时间、网址、新闻内容等等;再通过算法提取已知信息并加以校验。对于不同的网站,其源码的生成方式也有很大的差别:百度为汉字、英文、数字与HTML标记语言共同书写的源码,而新浪微博其源码是经过转换的Unicode码,不能够直接整理,需要进一步通过算法进行解码后使用。

以百度搜索生成的网页源码为例:一段含有文章标题的源码可能是“”,在数据整理时就要使用算法将无用的标记代码滤除,将标题《什么是级联样式表(CSS)》提取出来。

3.数据存储

本软件使用了开源的WampServer整合软件包,为整理好的数据建立了一个MySql数据库。数据以表格的形式存储在MySql数据库中,同时支持多台设备的远程访问,这样用户可以随时根据检索条件调阅搜集到的舆情信息。对于已经浏览过的信息,本软件还设置了一个已读的标志,用以区分那些还没有被浏览和新增的信息。

4.信息展示

在数据展示模块本软件采用了窗口模式,对采集到的舆情信息以窗口的形式进行逐条展示。

窗口的上方显示收集舆情信息时使用的规则:自动收集间隔时间,对舆情关键字进行全文或仅标题匹配,匹配时采用模糊匹配或者精确匹配;要搜集的舆情信息发生的时间范围等;窗口的下方有两个标签页窗口。“设置”标签用来设置舆情搜集规则和多个关键字,“检测结果”标签页用来显示搜集到的舆情信息内容。每一行对应一条网站新闻或者新浪微博帖子。当用户单击一行时,此行会高亮显示,并在右侧显示该行舆情信息的摘要、内容提示,并且可以通过“打开原文”按钮在浏览器中打开该舆情对应的网址,浏览该行对应的舆情信息。

(三)问题与创新

数据采集作为本软件的首要功能,采用了利用各个主流引擎网站、门户网站自带搜索引擎的设计方案,通过算法取回各个网站检索关键字后的网页源码,这些源码中包含了软件需要分析整理的信息。在代码实现的过程中,由于不同网站的编码语言、编码规则不同,软件的开发遇到了一些难点。其中比较棘手的问题是,部分网站的网页显示内容是包含在网页源码当中的,可以比较容易的获取到,但是有一些网站,例如《今日头条》、《悟空问答》等,它们的网页内容是通过JavaScript语言动态加载的,源码当中仅包含实现这一效果的JavaScript语言代码,无法通过一般的算法获取与网页显示内容一致的数据。针对这一问题,本软件在设计过程中及时更新了开发工具,并采用了新的编程技术。

本软件研究了Winform和WPF内嵌浏览器技术,利用一款网上开源的由.NET编写的浏览器包,通过不断地摸索和测试,成功的将某浏览器的内核嵌入到本软件使用的开发工具当中,在本软件内构建出浏览器内核,模拟浏览器的加载过程,从而实现对动态加载网页源码的获取。

二、做好网络舆情的研判和引导工作

(一)做好分析和研判工作

借助舆情监测软件获取到舆情信息后,需要管理者进一步做好采集到的舆情信息的研判和分析工作。通过分析,对采集到的信息进行深入的挖掘,通过量化的方式掌握发布者的行为状态。我们可以通过这种技术的特性,增强网络意识形态工作的针对性、精准线和科学性。一方面,面对网络上出现的舆情所反映出的问题,对症下药、有的放矢;另一方面,还要发挥管理者的主观能动性,在掌握到第一手数据的基础上,借助经验和逻辑,做好网络舆情的“去粗取精、去伪存真”工作,对千变万化的海量舆情信息做出准确的研判和分析。

(二)做好预警和引导工作

大众网民一般具有浅阅读、浅思考、先入为主、盲目从众的行为特点,在海量的网络舆情信息中辨别真伪是非的能力较弱,容易受到蛊惑与利用,被错误思想左右。而网络中的“意见领袖”则充分利用了网民的这一从众心理,吸引网民的关注和追随。由网络“意见领袖”引发的网络意识形态争论能够迅速召集大批网民参与其中,形成网络舆情风暴,左右舆情信息的传播方向,甚至演变成为网络舆情危机。

借助舆情监测手段及时掌握关于本单位的舆情信息,通过分析和研判,我们可以进一步做好对意识形态危机的预警工作,协助管理者做出正确决策,对那些有可能导致意识形态危机的舆情进行重点跟踪,引导并适时采取措施,更好的掌握网络意识形态工作的主动权,形成与社会主义核心价值观意识形态相一致的网络舆情发展方向,从而有效化解网络舆情危机,保障意识形态安全。

三、总结

伴随网络技术的进步和深度普及,网络舆情也迅猛发展,开展网络舆情监测工作已是顺应时代发展的必然结果,也是保障意识形态安全的重要任务之一。努力提升网络舆情监管技术水平,建立网络舆情监测平台,按时对网络信息开展采集监控,做好分析研判和预警引导等工作,对于敏感和倾向性舆情信息采取前置预警,有效保护网络意识形态安全。

猜你喜欢
源码关键字网页
履职尽责求实效 真抓实干勇作为——十个关键字,盘点江苏统战的2021
面向数据可靠传输的高译码率带反馈的LT码
国内一站式工程设备租赁平台众能联合完成C2、C3两轮融资
基于HTML5与CSS3的网页设计技术研究
浅谈开源操作系统的历史
企业如何保护源码
成功避开“关键字”
基于CSS的网页导航栏的设计
基于HTML5静态网页设计
基于URL和网页类型的网页信息采集研究