基于Web新闻的案(事)件时空信息解析方法

2017-01-17 05:50吴镇城卢毅敏
关键词:词库福州派出所

吴镇城,吴 升, 卢毅敏

(福州大学空间数据挖掘和信息共享教育部重点实验室,福建省空间信息工程研究中心,福建 福州 350002)

基于Web新闻的案(事)件时空信息解析方法

吴镇城,吴 升, 卢毅敏

(福州大学空间数据挖掘和信息共享教育部重点实验室,福建省空间信息工程研究中心,福建 福州 350002)

探讨基于词库与规则相结合的案(事)件新闻文本时空信息解析方法. 通过构建时间词库和表达规则、派出所和地名等词库以及“触发词-案事件类型”二元分类器,实现对案(事)件新闻中的案发时间、案发地点、案(事)件类型和出警派出所信息的抽取,并引用设计规范化规则,实现时空信息的规范化输出. 实验分别选取本文解析盗窃案件数据和2014年1月至2015年3月福州市四个中心行政城区的公安盗窃案件数据进行比较,利用核密度估计算法研究犯罪集聚区,得到的集聚结果基本一致,发现福州市盗窃犯罪集聚发生于茶亭派出所、东街派出所和瀛洲派出所等辖区.

时空信息; 信息抽取; 案(事)件; 核密度估计;Web新闻

0 引言

互联网已成为人类主要的交流平台以及各种信息的主要载体,网络文本也成为传统地理信息采集方式的有效补充[1-3]. 如张恒才等[2]解析微博客中蕴含的交通信息并进行路网匹配,实现实时路况信息的提取; 李卫江等[4]抽取Web文本中蕴含的非结构化灾害信息, 弥补灾害研究与管理过程中灾害数据共享困难的问题; 杨志海[5]抽取Web新闻文本中的台风灾害信息,进行地址匹配与地图标注,实现台风灾害信息的动态展示. 考虑到传统的犯罪地理学与犯罪时空分析等研究所需的案(事)件数据不易获取[6-7],且公开发行的统计资料中又无法获取具体的犯罪数据,汪兰香从《海峡都市报》中筛选犯罪数据进行犯罪地理学研究[6],

鉏同君从《海峡都市报》《福州晚报》和《福州公安局官网》等新闻网站中搜集盗窃新闻信息进行福州市盗窃犯罪空间分析研究[8],结果虽有参考价值,但手工方式获取新闻文本,数据量有限. 因此,如何利用文本信息的提取方法从非结构化的Web文本中自动解析和抽取案(事)件时空信息,具有重要意义[9].

构建一个基于Web新闻的案(事)件时空信息解析原型系统,为案(事)件时空分析提供多源数据. 首先,借助网络爬虫程序,抓取主流网站的案(事)件新闻报道; 然后,通过构建时间词汇词库和时间表达规则模式库、派出所词库和地名词库以及“触发词-案事件类型”二元分类器,设计规范化规则与相关推理算法,实现基于Web新闻的案(事)件时空信息的解析; 最后,通过地址编码,实现案(事)件时空信息可视化. 具体技术路线如图1所示.

图1 Web新闻文本中案(事)件时空信息解析流程Fig.1 Interpretation flow ofspatio-temporal information of crime cases based on the web news

1 案(事)件新闻文本抓取

本文所获取数据是各个网站媒体发表于网上的新闻报道,数据量大,涵盖信息广,因此采用网络爬虫的方式自动获得相关新闻报道数据. 主要借助网络爬虫软件(八爪鱼网页采集器),通过设置抓取规则,爬取经人工限定的新闻媒体网站上福州市区域内的新闻. 新闻数据按照新闻标题、新闻发表时间、新闻来源、新闻正文进行抓取并以Excel表格和本地MySql数据库形式存储,实现本地化存储和管理.

所获取的新闻文本中包含诸多与案事件无关的新闻报道,为减少工作量,首先利用与案(事)件相关的诸如骗、抢劫、盗窃、扒窃、偷窃、强奸、诈骗、抢、杀人等关键词对新闻标题进行初步刷选,得到案(事)件相关新闻,同时对各新闻网站间存在重复报道进行去重.

2 案(事)件时空信息解析

2.1 词库与规则库构建

构建时间词库和时间表达规则模式库、派出所和地名词库,以及案(事)件类型触发词库是实现解析Web新闻文本中案发时间、案发地点、案事件类型、出警派出所等时空信息的基础.

1) 案发时间词库与时间表达模式. 构建用于解析案发时间的时间词库,如表1所示.

文本信息中时间信息的解析采用规则模型来进行. 首先对待处理文本进行预处理,即进行新闻正文的分词处理和词性标注,然后通过句法分析,从简单时间表达和复合时间表达两个方面总结时间信息表达规则,从而构建时间表达规则模式库,如表2所示.

表1 时间词库

表2 时间表达规则模式

2) 案发地词库. 案(事)件新闻报道中对案发地的描述多种多样,有的详细到具体的门牌号,有的出于对受害者的保护而简略描述,如某某县(市、区)、某某小区、某某街道等,有的甚至无任何有关案发地的信息(如电信诈骗). 通过研究发现,新闻报道中常常提及出警派出所的信息,如“XX派出所”,“XX警方”,“XX所”等. 因此,最好同时解析案发地信息与出警派出所信息,两种信息互相补充.

为解析案发地信息,构建派出所词库和地名词库. 词库包含词条与缩略词信息. 派出所词库样例为“茶亭派出所PCS”. 地名词库,包含兴趣点、主要道路信息以及公交站点信息. 地名词库样例为“福州大学POI”.

3) 案(事)件类型触发词词库. 触发词对案(事)件类型判断具有重要的指示作用[3],故案(事)件类型的判别可转化为案(事)件触发词的识别. 常用的方法有两种: 其一为使用句法解析过滤掉非事件的句子,然后通过多元分类器实现案(事)件类型的标注[10]; 另一种为借助触发词词典[11]来判断文中词汇是否为触发词,进而判断案(事)件类型. 本文通过构建“触发词-案事件类型”二元分类器[12],实现Web新闻报道中案(事)件类型的解析. 在《刑事犯罪信息管理代码》(GA240.1-2000)的基础上进行案(事)件类别归纳与扩充,案(事)件触发词通过弱监督学习算法Bootstrapping[13]获得,并借助哈工大《同义词词林(扩展版)》进行案(事)件触发词扩展,构建得到案(事)件触发词词库,如表3所示.

表3 案(事)件触发词词库

2.2 时空信息抽取

基于构建的词库与规则库,通过模式匹配实现案(事)件时空信息抽取的4个具体步骤. 1)文本预处理. 即初始文本的分词和扩展时间类型标注. 采用中科院分词系统NLPIR的开源版本进行分词,由于其采用的MHMM(层叠隐含马尔可夫模型[14])算法将时间词作为未登录词进行命名实体识别,将时间短语分割为各个时间要素,为了达到更精确的时间信息抽取,需要依据基于本文的时间词库进行时间类型扩展标注. 日期标注为“Date”,具体时间标注为“TOD”,日期时间词标注为“DTW”,时间词标注为“POD”,相对时间根据其年月周日时间粒度分别标注为“RYTime”“RMTime”“RWTime”“RDTime”“RCTime”等. 2)案发时间抽取. 基于构建的时间表达规则模式库,采用正向最大匹配法[15]进行模式匹配,规则越长,越优先匹配,如果待处理文本中的时间表达规则与上文构建的时间规则完全匹配,匹配成功; 若只含规则的一部分即理解为时间要素不充分,匹配失败. 3)案发地和案(事)件类型抽取. 基于构建的派出所词库、地名词库和相应的规则模式库,同时进行地址信息的扩展标注,出警派出所信息标注为“pcs”, 案发地点信息标注为“POI”. 同样采用正向最大匹配法进行模式匹配,将相邻地名要素组合成完整的表达式. 4)通过识别完整表达式信息最终完成时空信息的抽取.

2.3 时空信息规范化描述

将抽取的案(事)件时空信息,以案(事)件类型、案发时间、案发地点、出警派出所、新闻标题、新闻报道时间的形式规范化输出.

1) 时间信息规范化. 即将文本中的省略部分、相对时间、时间词等表示为统一的、显示的表达形式[16]. 时间表达式中,年、月、日、时、分、秒,表示不同级别的时间粒度,描述的主题不同,采用的时间粒度也不同,本文研究的案(事)件Web新闻报道,时间粒度一般为“天”和“时”,甚至是“凌晨”“上午”这种人为界定的时间区间,因此最终将时间输出格式定制为形如: 2014年8月13日12时和2014年8月13日晚8时这样的形式. 对于省略时间描述如“9月14日”,相对时间描述如“昨天下午3点”,时间词描述如“中秋节”等,则需要根据新闻发表时间,将其转化为具体时间.

2) 空间信息规范化. 如解析得到的派出所形式为“XX所”、“XX警方”,需要将其统一规范化为“XX派出所”的形式. 其他具体的POI信息,则尽可能借助上下文参考信息补充为完整的POI描述信息,同时对同名异地等信息做相应处理,便于后期地址编码.

2.4 地址编码

利用百度地图地址编码GeocodingAPI,将自然语言描述的案发地点转化为可在地图上可视化表达的经纬度信息. 平台同时解析案发地点信息与出警派出所信息,通过比较两者的地理要素精度来确定最终的解析地址. 如解析获得的出警派出所信息为“鼓东派出所”,案发地点为“鼓楼区”,选择“鼓东派出所”为解析地址; 如案发地点为“福建省立医院”,则选择“福建省立医院”为最终解析地址.

3 原型系统与实验评价

图2 Web新闻文本中案(事)件时空信息抽取结果 Fig.2 Interpretation and extraction results of the spatio-temporal information of crime cases based on Web news

基于Web新闻的案(事)件时空解析与抽取原型系统主要由新闻文本爬取、数据加载、词库管理、信息解析、信息规范化、地址编码等模块组成. 如图2所示.

实验采用的案(事)件Web新闻来源于腾讯大闽网福州新闻、中国新闻网福州新闻、福州新闻网的社会栏目、福州政法网(警方传真和政法要闻)、搜狐福建福州新闻、海峡都市报福州新闻、福建之窗福州新闻等主流网站. 抓取2014年1月至2015年3月期间新闻文本,从10万余篇新闻报道中筛选出10 500篇案事件相关报道. 剔除重复报道,整理得到7 764篇报道. 出警派出所词库包含福州市辖区所有派出所信息(取自公安金盾网,福州总计207个派出所). 地名词库包含福州辖区内五区八县兴趣点信息、主要道路信息以及公交站点信息(总计3万余条记录,其中公交站点信息收集自图吧公交,其余兴趣点信息收集自公安警用地理信息系统).

选取200篇福州案事件相关的Web新闻报道,借助本文构建的系统进行时空信息解析与抽取,采用自然语言处理中常用的准确率P、召回率R和F1值三个评测指标来对解析结果进行评价.

实验结果表明,解析的时间信息P值为73.00%、R值为87.00%、F1值为79.39%; 出警派出所信息的解析准确率达到98.00%; 案发地点的P值为91.00%、R值为74.00%、F1值为81.62%,案事件类型判别准确率达到94.45%. 从解析结果上分析,由于时间表达式复杂且形式多样,且是在分词基础上进行扩充标注,分词的精度高低在一定程度上影响了解析结果,案发地点的解析效果相对较好,出警派出所和案(事)件类型的判别正确率很高.

选取通过时空信息解析得到的1 360条盗窃案(事)件,将结果和2014年1月至2015年3月福州市鼓楼、台江、晋安和仓山等四个区的实际公安盗窃案件数据进行比较,分别利用核密度估算法研究犯罪集聚区,得到的结果基本一致: 盗窃犯罪集聚发生于茶亭派出所、东街派出所和瀛洲派出所等辖区. 如图3、图4所示.

图3 公安局的盗窃案件数据的核密度估计图

4 结语

利用文本信息提取方法,通过归纳和总结新闻网站中有关案(事)件报道的特点,设计时间词库和时间表达规则模式库、派出所词库和地名词库、“触发词-案事件类型”二元分类器,通过词库与规则表达模式相结合,实现了案(事)件新闻文本中的时空信息一体化解析与抽取,以及案(事)件时空信息的规范化描述,为从Web新闻文本中获取案(事)件时空信息提供有效解决方案. 研究成果可为案(事)件时空分析、时空数据挖掘等任务提供多源数据,也可为社会舆情信息采集与分析提供有效的补充手段.

[1]GOODCHILDMF.Citizensassensors:theworldofvolunteeredgeography[J].GeoJournal, 2007, 69(4): 211-221.

[2] 张恒才,陆锋,陈洁. 微博客蕴含交通信息的提取[J]. 中国图象图形学报, 2013, 18(1): 123-129.

[3] 余丽,陆锋,张恒才. 网络文本蕴涵地理信息抽取: 研究进展与展望[J]. 地球信息科学学报, 2015,17(2): 127-134.

[4] 李卫江,温家洪. 基于Web文本的灾害信息挖掘研究进展[J]. 灾害学, 2010, 25(2): 119-123.

[5] 杨志海. 台风灾害信息抽取及动态可视化研究[D]. 福州: 福建师范大学, 2012.

[6] 汪兰香. 福州城市犯罪制图及其空间分析[D]. 福州: 福建师范大学, 2012.

[7] 程春惠. 公安犯罪案件文本挖掘关键技术研究[D]. 杭州: 浙江大学, 2010.

[8] 鉏同君. 福州市盗窃犯罪空间分析[D]. 福州: 福建师范大学, 2014.

[9]SHIG,BARKERK.ExtractionofgeospatialinformationonthewebforGISapplications[C]//CognitiveInformatics&CognitiveComputing(ICCI*CC).Banff:IEEE, 2011: 41-48.

[10] 许红磊,陈锦秀,周昌乐,等. 自动识别事件类别的中文事件抽取技术研究[J]. 心智与计算, 2010,8(1): 34-44.

[11] 赵妍妍,秦兵,车万翔,等. 中文事件抽取技术研究[J]. 中文信息学报, 2008, 22(1): 3-8.

[12] 陈慧炜. 刑事案件文本信息抽取研究[D]. 南京: 南京师范大学, 2011.

[13] 潘霖, 张雪英, 吉根林. 一种基于Bootstrapping的中文领域术语获取算法[C]// 中国通信学会第六届学术年会论文集(上). 2009: 112-116.

[14] 俞鸿魁,张华平,刘群,等. 基于层叠隐马尔可夫模型的中文命名实体识别[J]. 通信学报, 2006, 27(2): 87-94.

[15] 张春菊,张雪英,李明,等. 中文文本中时间信息解析方法[J]. 地理与地理信息科学, 2014, 30(6): 1-7.

[16] 温艳霞,谭红叶,郑家恒. 基于规则的时间规范化研究[J]. 计算机科学, 2009, 36(4B): 45-48.

(责任编辑: 蒋培玉)

Interpretation of spatio-temporal information of crime cases based on Chinese Web news

WUZhencheng,WUSheng,LUYimin

(KeyLaboratoryofSpatialDataMining&InformationSharingofMinistryofEducation,SpatialInformationResearchCenterofFujianProvince,FuzhouUniversity,Fuzhou,Fujian350002,China)

Anapproachwhichbasedonthecombinationwithlexiconandrulestoparsespatiotemporalinformationofcrimecasesfromthewebnewswasinvestigated.Designedtimewordlexicon,timeexpressionrules,policestationlexicon,toponymylexiconand“trigger-crimetype”binaryclassificationtoextracttheinformationoftime,address,policestationandcrimeeventtypefromthewebnews.Throughthedesignofstandardizedrules,achievedthestructureddataofthespatiotemporalandattributeinformationofthecrimecases.IttookFuzhouCityasanexample,basedonthetwosetsofthedataofthefteventfromfourmaindistrictsofFuzhouCityfromJanuary2014toMarch2015,oneisfromthePublicSecurityDepartmentofFuzhou,theotheristheextractionresultbythispaper.Usingthekerneldensityestimationmethodtostudythecrimehotspots,theresultarebasicallythesame:FuzhoutheftcrimeagglomerationoccurredinChating,EastStreetandYingzhouPoliceDistrict.

spatio-temporalinformation;informationextraction;crimecases;kerneldensityestimation;Webnews

10.7631/issn.1000-2243.2017.01.0127

1000-2243(2017)01-0127-06

2015-12-07

吴升(1972-),博士,教授,主要从事时空数据分析与可视化、信息共享与智慧政务、应急信息系统等方面的研究,ws0110@163.com

国家“863”计划重大项目课题(2012AA12A208); 福建省科技创新平台建设项目(2015H2001); 海西政务大数据应用协同创新中心

P208

A

猜你喜欢
词库福州派出所
2022.3上榜派出所名录
一“吃”多用
我认识的几位福州女
以爱之名 和谐至美——福州十中简介之三
逐梦福州 只为“她”
上榜派出所统计表
上榜派出所统计表
寻味福州
输入法词库乾坤大挪移
词库音系学的几个理论问题刍议