基于数据挖掘的金融领域知识发现研究综述

2021-03-01 12:23秦江源王宸徐辰星周震霆
科学与财富 2021年27期
关键词:数据挖掘

秦江源 王宸 徐辰星 周震霆

摘 要:在大数据时代的洪流奔涌之下,金融行业的文本信息量也正飞速增长,使得人们对金融数据的分析与应用方式产生了深刻变革,海量、多源、异构的金融数据正对金融从业者带来前所未有的困难和挑战。从金融数据之中挖掘出对金融决策支持有价值的知识,加快金融企业面向文书自动化的产业升级,已成为如今金融业的研究热点之一,对金融决策支持過程具有相当的意义。

关键词:金融文本,数据挖掘,知识发现

1.引言

近几年随着金融市场的开放, 外资金融机构的进入, 多种金融创新将不断涌现, 竞争也随之不断加剧。李金迎(2009)指出,各行各业的数据库中积累的数据中蕴含着相当的金融领域知识,而传统数据挖掘方法,远没有挖掘出数据的潜在价值;何德旭(2011)探讨了金融安全网络机制,联系了信息框架和金融安全网;张永杰(2011)在资产定价方面开展了研究, 发现网络开源信息中包含对股票异常日收益率有显著解释力的内容;朱建平(2011)指出,目前需要采用高频数据,在较窄观测区间内产生足够的数据量, 同时对市场微结构模型做出一定的验证;中国银联股份有限公司(2013)指出,数据时代, 数据已经成为企业创新的核心驱动力和竞争力。大数据已经影响企业决策方式从“业务驱动”向“数据驱动”转型;孔翔宇(2016)依据财经新闻主题与股票市场的相关性, 提出了基于新闻主题分布的模型,以此进行中国股市涨跌的预测;鲍捷(2016)提出知识图谱是形成投资研究业务自动化表达逻辑的基础,在整个智能金融的技术链条中处于核心地位;汪建基(2017)分析了传统人工智能方法在处理大规模碎片化知识时存在的问题,讨论了碎片化知识处理组织与学习的基本结构,指出了行业知识图谱在人工智能知识发现中的重要性;2017年7月20日,国务院发布《新一代人工智能发展规划》,首次提出了智能金融的概念,鼓励将智能金融应用于智能客服、智能监控等等,实现制造与服务、金融的智能化融合。

根据国家统计局数据显示,截至2018年末,全国共有金融业企业法人单位13.7万个,从业人员1818.0万人;同时,2015年末,经济学普通本科在校生与毕业生数约116万人,管理学普通本科在校生与毕业生数约360万人,共有合计约上五百万人的高校市场;同时,市场规模正以每年约10%的速度快速增长,市场潜力可见一斑。鉴于此,本文试图对现有文献进行梳理与拓展,分析互联网金融对金融结构的影响,并整理常用的数据挖掘方法,探讨它们影响金融结构的作用机制,在此基础上提出相应建议。

2.数据挖掘方法

数据挖掘,即数据库中的知识发现(Knowledge Discovery in Database,KDD),是指从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。在实际应用领域中,数据挖掘任务常可被划分为分类、聚类、预测、关联分析等等统计方法。

2.1决策树

决策树(decision tree)是数据挖掘中的一种常见算法,呈树形结构,能够利用信息增益寻找数据库中包含最大信息量的内容建立节点,其中每个内部节点都表示其在一个属性上的判断,每个分支代表了节点判断结果的输出,在每个分枝出的节点中,重复判断、分支的过程,最终建立出决策树,其中每个叶节点均代表了一种分类结果。决策树是一种常见的有监督分类方法,通过对已有样本的学习,决策树能对新进入的数据做出正确的分类。决策树的优势在于其可解释性,能够在相对短的时间内能够对大型数据集做出可行性强且效果良好的结果,且不需要繁琐的数据预处理。尽管如此,面对样本数量的不平衡问题时,决策树便会显得无能为力,往往会偏向于具有更多数值的特征。

2.2关联分析

关联规则是一种基于规则的机器学习方法,用于从数据集中寻找事件之间的隐含关系,能反映出事件与其他事件之间的关联性,是数据挖掘研究的主要模式之一。关联规则分析中的衡量方法包括有支持度(Support)、置信度(Confidence) 、提升度 (Lift)。在关联规则挖掘的研究当中,目前影响最广、使用最频繁的是Apriori算法, Apriori 算法是一种致力于挖掘关联规则的频繁项集算法,通过运用逐层搜索,在所有的频繁集中找出强关联规则。

2.3神经网络

神经网络 (neural network)是近年来火热的算法之一,它通过模仿生物神经网络,由大量的人工神经元联结进行计算,从而构建出复杂的计算模型,具有强大的联想、记忆、推理功能。其中,误差反向传播算法由Romelhart在1986年提出,它将输出误差通过隐藏层向输入层层层传递,并传递到每层单元使其都获得误差信号,同时修正各单元的权重,如此反复直到权值不断调整至最优,由此得到了一个多层前馈神经网络模型,即BP神经网络模型。BP神经网络具有结构简单,状态稳定等特点,在众多神经网络模型中应用最为广泛,在分类、最优预测等任务中均有着良好表现。

3.文本挖掘研究

3.1情感分析

在金融领域中,往往需要对股票论坛中的评论信息,各金融网站的新闻等进行情感倾向分析,以此研究投资者情绪,把握舆情发展趋势,为此需要对评论进行数据挖掘与特征提取。文本情感分析,就是对具有情感色彩的词、句乃至文档进行分析归纳的过程。首先,需要基于金融语料库来进行情感词典的构造,人工标注好情感倾向词汇作为语料库,然后运用朴素贝叶斯网络,支持向量机等分类器进行分类训练,得到训练完成的分类器后,便可以对新输入的评论数据进行预测,得到其情感倾向。

3.2自动摘要

为从海量的金融研报、股市要闻,公司公告中提取简明扼要的观点,减少金融工作者的阅读负担,自动摘要技术应运而生。然而,市场对于金融信息的需求正在日益提高,如何保证自身摘要的可靠性成为了研究者面对的主要问题。在文本摘要自动生成技术中,以长短时记忆网络(Long short term memory,LSTM)最为见长。LSTM依靠其长期记忆能力进行语义关联,能够处理任意长的文本序列,有效解决了传统模型面对数据不定长度的困难。LSTM模型的特点是系统的输出会一直保留在网络中,和模型下一时刻的输入共同决定下一时刻的输出,因此可以刻画出复杂的历史依赖关系。

3.3命名实体识别

面对着海量的互联网金融信息,投资者和决策者常常苦于如何高效的获取需要的知识。针对这一问题,金融命名实体识别的实现将有效提高金融信息的获取效率,为金融工作者提供有力的信息支撑。

命名实体识别(NER)是自然语言处理中的一项基础任务,其主要目标是识别出文本中具有特定意义的实体,一般包括两种划分:实体、时间、数字三大类,人名、地名、组织机构名、时间、日期、货币量、百分数七小类。为实现命名实体识别,首先需要进行词实体标注,常见的标注方法有BIO,BIOES,Markup等等。BIO标注法中,B表示实体词的开头,I表示实体词的中间,O表示不是实体词的部分,以此来区分识别实体词。BIOES则是在BIO的基础上,增加了E(表示实体词的结尾)和S(表示能单独组成一个实体),是目前最通用的实体标注方法。目前在命名实体识别任务中,主要算法包括有基于规则的词性标注方法和基于统计模型的词性标注方法两类,均在命名实体识别任务中取得了良好表现。

4.总结与展望

随着互联网金融的日益发展,金融从业者与数据挖掘工作者规模会日渐庞大,发现金融知识的潜在价值也是势在必行。本文基于前人基础,总结了主要的数据挖掘、文本挖掘方法,旨在梳理出前人研究脉络,分析未来金融领域所要面对的挑战。大数据时代下,金融知识发现将成为数据挖掘中的一个重要应用,会日益发挥出其价值。

参考文献:

[1].唐晓波,谭明亮,胡潇然,石文萱,周巧.面向金融决策支持的知识获取研究综述[J].信息资源管理学报,2020,10(03):27-35.

[2].马琳,董智鹤,夏嵩,贾孺.数据挖掘技术综述浅析[J].數字技术与应用,2019,37(10):230-231.

[3].陈安,陈宁,范超.金融信用风险评价中的数据挖掘技术综述[J].智能计算机与应用,2017,7(05):55-59.

[4].丁兆云,贾焰,周斌.微博数据挖掘研究综述[J].计算机研究与发展,2014,51(04):691-706.

[5].李金迎,詹原瑞.金融行业的数据挖掘技术研究[J].现代管理科学,2009(08):14-16.

[6].何德旭,饶云清,王智杰.金融安全网:基于信息空间理论的分析[J].经济理论与经济管理,2011(02):69-78.

[7].张永杰,张维,金曦,熊熊.互联网知道的更多么?——网络开源信息对资产定价的影响[J].系统工程理论与实践,2011,31(04):577-586.

[8].朱建平,魏瑾,谢邦昌.金融高频数据挖掘研究评述与展望[J].经济学动态,2011(06):59-62.

[9].柴洪峰.金融大数据及银行卡产业大数据实践[J].上海金融,2013(10):27-29+116.

[10].孔翔宇,毕秀春,张曙光.财经新闻与股市预测——基于数据挖掘技术的实证分析[J].数理统计与管理,2016,35(02):215-224.

[11].鲍捷.知识图谱如何助力实现智能金融[J].金卡工程,2016(07):45-49.

[12].汪建基,马永强,陈仕涛,刘子熠,郑南宁.碎片化知识处理与网络化人工智能[J].中国科学:信息科学,2017,47(02):171-192.

[13].U. M. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy.Advances in Knowledge Discovery and Data Mining. AAAI/ MIT Press,1996.

本文得到上海立信会计金融学院大学生创新创业训练计划(202111047034X)基金支持. 秦江源,女,法学专业本科在读;

猜你喜欢
数据挖掘
探讨人工智能与数据挖掘发展趋势
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
基于并行计算的大数据挖掘在电网中的应用
数据挖掘技术在中医诊疗数据分析中的应用
一种基于Hadoop的大数据挖掘云服务及应用
数据挖掘的分析与探索
数据挖掘技术综述与应用
基于GPGPU的离散数据挖掘研究
利用数据挖掘技术实现LIS数据共享的开发实践
高级数据挖掘与应用国际学术会议