短信自动分类的实现

2017-05-08 10:34李锋万小强
智能计算机与应用 2016年6期
关键词:分类器准确率

李锋++万小强

摘要:短信自动分类一直以来都是学者研究的热点问题,伴随着各种类别短信的出现,对于用户来说,希望尽可能获取到自己想要看到的短信,因此本文在此问题上提出了利用一种结合黑白名单及时间因素的短信分类器,通过实验表明该分类器可以获得较好的准确率及召回率。

关键词:短信自动分类; 分类器; 黑白名单; 准确率; 召回率

中图分类号: TP391

文献标志码: A

文章编号: 2095-2163(2016)06-0005-04

0引言

[JP2]短信在人们生活中作为一种重要的交流方式,已然获得了高度广泛的现实应用。但无可避免地却会发现:当短信进入了大批量、各范畴的使用领域时,其中却瑕瑜互见地混杂有某些经由不法商户制造形成的带有欺诈行为性质的短信内容。基于此,为了杜绝该类事情现象的发生困扰,同时更为了助益用户快速定位到目標需求短信,本次研究中通过结合黑白名单以及时间因素而设计提出了短信分类器,根据短信的特征将其分为不同类别,这样一来,用户就可以通过类别来获取到自己想要看到的短信。针对这一相关课题,[JP3]学界也已展开了一定研究。诸如陈公平、沈明玉等提出基于改进贝叶斯的短信分类[1]。蔡永泉等人也随即给出了基于语序的关联分类算法[2]。王栋则进一步探讨了基于文本挖掘的短信分类技术[3]。此后,还有王红等人深入研究了云计算在短信分类中的应用[4]。李彩雁又重点发表了云计算在短信分类中的应用浅议[5]。另有崔彩霞也研发推出了基于字特征的短信分类方法[6]。[JP]

综上文献分析可知,已有成果都是利用相关算法实现的分类器来对短信进行分类,但是考虑到短信的如下特征[7]:

1)短信是一种内容比较短的文本;

2)短信没有完备的数据集;

3)短信的语法格式和一般的文本区别很大。

至此,研究引入了有关短信特征的具体分析后,本文就将主要利用短信的特征词对短信进行自动分类。

1短信的特征词提取

在短信分类中,短信中的词语是一个关键的分类特征,因此选择合理的特征词提取方法对于短信自动分类是非常重要的。目前比较常用的特征提取方法主要包括文档频率和信息增益[8-10] 。为了叙述上的方便,本文中所提特征词如无特别标注将均不包含停用词[11]。

猜你喜欢
分类器准确率
学贯中西(6):阐述ML分类器的工作流程
我和哆啦A梦过一天
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
血清检验和细菌检验在布鲁氏杆菌感染诊断中的效果及准确率分析
多层螺旋CT技术诊断急性阑尾炎的效果及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
颈椎病患者使用X线平片和CT影像诊断的临床准确率比照观察
基于AdaBoost算法的在线连续极限学习机集成算法
一种统计分类方法的学习
企业财务危机预警集成预测模型比较分析研究