大数据领域学术微信号TOP50挖掘评价排名

2016-03-18 07:58杨存榜
移动信息 2016年11期
关键词:阶梯式语料权重

王 云 肖 寒 杨存榜



大数据领域学术微信号TOP50挖掘评价排名

王 云 肖 寒 杨存榜

中国工程物理研究院激光聚变研究中心信息管理中心,四川 绵阳 621900

微信随学术界产业界纷纷入驻而崛起为重要信息源。为了用丰富关键词覆盖大数据相关领域,基于语料共现统计得到200多“大数据”相关词,将其分为3组,每两组之间词词组合得到1万多检索式,搜索并采集微信摘要22万篇,抽取去重并用“浓度”模型筛选高相关文章14万篇,计微信号9104个。采用“阶梯式累进权重”,评分方法综合考虑文章量、相关性和时间趋势。最后得到“大数据领域微信号TOP50”排名表。

大数据;微信号;阶梯式累进权重算法;数据挖掘;统计评价

1 微信已崛起成为重要学术资源

微信发布和阅读方便,来源信息自由多样,二次挑选和精炼,可读性强,发布者自我负责维护品牌吸引关注,与读者直接连接及时反馈。大趋势之下,产业界学术界机构和个人纷纷进入微信平台。[1]

如何用丰富关键词覆盖大数据相关概念:

我们用语料共现统计方法寻找“大数据”相关词。从“大数据”、“数据挖掘”等几个核心词出发,搜索如下几种语料:(1)百科词条;(2)专著目录;(3)期刊摘要;(4)网页摘要。采集清洗集成为一个文本文件。

先用一个噪音词表(“但,的,该,和,很,仅,了,……”)对语料进行预切分,然后进行无词典统计分词,对分词结果进行人工挑选,得到200多个“大数据”相关词。为制订搜索策略,将其分为5个概念组:(1)信息对象或类型:大数据,大量数据,海量,巨量资料,数据仓库,数据集,文档,微信,微博,博客,语料库,自然语言……;(2)目标、公司、用户:谷歌,沃尔玛,亚马逊,淘宝,搜狗,阿里巴巴,百度,腾讯,网易,知乎,微软,豆瓣,移动互联网,电商,电子商务,顾客,客户,用户,消费者,社交媒体,社交网络……;(3)目标和用途:应用,个性化,精准,推荐,兴趣,喜好,需求,习惯,排名,评分,评级,评价,评估,口碑,指标,指数,趋势,预测,时间序列,热点,话题,潜在,相关性,相似,相似度……;(4)工具和方法:解决方案,方案,案例,实例,示例,工具,人机,软件,程序,编程,代码,框架,集成,平台,体系,流程,基于,策略,技巧,技术,思路,思想,标准,规则,模式,定量,定性……;(5)数学方法:智能,智能化,自动,机器学习,监督学习,深度学习,统计学习,挖掘,挖掘技术,数据挖掘,数值,计算,算法,运算,求解,贝叶斯,马尔科夫,神经网络,遗传算法……[2]

2 大规模采集抽取去重筛选微信文章

条件太严会导致搜索结果太少,且组合数过于庞大而难以全部采集(如将5组或3组作为搜索条件)。如果条件太松,则导致搜索结果太多而文章相关性不高。综合权衡,再将上述5组词合并为3组,然后每两组进行组合。得到组合数约1万5千个。使用这3组词的两两组合分别作为单独检索式,逐一搜索微信文章并采集首页返回页面。由于微信搜索限制采集,每采集数页或数十页便弹出验证框,致使颇费时间。经1周时间输入无数难以辨认的验证码,采集微信文章220838篇。通代码解析、内容抽取、文字规范、去重(按标题和发布者两个条件相同作为去重条件),删除2013年文章(数量不多)。最后获得微信文章摘要144861篇(2014—2016)。[3]

删除了不满足搜索条件的文章(因搜索引擎返回结果并不严格遵照用户输入,尤其在匹配少时,且还用同义词替换用户词)。删除低相关度文章(虽然满足检索条件)。相关度采用“浓度”模型,即搜索词在标题和摘要所占百分比,同时加入词频、词间距离、词代表性(与普通语料词频成反比)进行综合加权并进行适度平滑处理。按综合相关度递减排序,留下排名居前的微信文章。

3 以“阶梯式累进权重”计算评选微信号

表1 大数据领域学术微信号TOP50

发布这10多万篇微信推文的微信号总计9104个。综合评分考虑因素如下:(1)发表相关文章累计数量和相关性;(2)从2014年到2016年发表相关文章数量的增长趋势。我们没有采用“趋势预测分值”(即用2014和2016数据预测2017年发表数量,“趋势预测分值”的问题在于数据稀疏性容易导致违背常识的奇葩预测结果)。我们采用了更为稳妥的“阶梯式累进权重”,即既看重近期成果,也不忽略早期成果。只是发表时间越近权重越高,具体权值设置是从今年到昨年到前年逐年递减,从而构成一种阶梯式权重。

大数据领域学术微信号TOP50评价排名:

给出9104个微信号评价排名(前50名,隐去了2014年数据及平均值和预测值以省篇幅)见表1。

[1]冀芳,张夏恒. 学术期刊微信公众号评价研究[J]. 科技与出版,2016(7):78-81.

[2]李明德,高如,LiMingde,等. 媒体微信公众号传播力评价研究——基于20个陕西媒体微信公众号的考察[J]. 情报杂志,2015(7):141-147.

[3]郝雅婕. 学术类微信公众号现状及发展研究[J]. 新闻研究导刊,2016,7(3):13.

Large data field academic micro signal TOP50 mining evaluation rankings

Wang Yun,Xiao Han,Yang Cunbang

Information Management Center of Laser Fusion Research Center,China Academy of Engineering Physics,SichuanMianyang 621900

WeChat has been settled in the academic community as an important source of information. In order to cover large data fields with abundant words,corpus co-occurrence statistics more than and 200 "big data" based on Related words,it can be divided into 3 groups,each group between two words combined more than 10 thousand retrieval,search and acquisition of WeChat 220 thousand abstracts,selected to screening of 140 thousand articles with high concentration "model,the 9104 meter micro signal. The "ladder progressive weight",scoring method considering the relevance of the article,and the time trend. Finally get the big data field micro signal TOP50 ranking table.

big data;micro signal;stepped progressive weighting algorithm;data mining;statistical evaluation

F49

A

1009-6434(2016)11-0121-03

王云(1965—),男,汉族,副研究馆员,研究方向文本信息处理与服务。

猜你喜欢
阶梯式语料权重
探讨个体化阶梯式疼痛管理模式在肿瘤晚期患者中的应用效果
权重常思“浮名轻”
探索学时积分制 构建阶梯式成长激励体系
谈阶梯式朗读教学——以《天上的街市》为例
为党督政勤履职 代民行权重担当
基于语料调查的“连……都(也)……”出现的语义背景分析
基于局部权重k-近质心近邻算法
普通高中音乐鉴赏模块阶梯式教学法的探索
《苗防备览》中的湘西语料
国内外语用学实证研究比较:语料类型与收集方法