基于网络论坛数据挖掘的投资者关注度与银行股票波动率的研究

2019-12-09 02:06王佳欢
智富时代 2019年10期
关键词:数据挖掘

王佳欢

【摘 要】行为金融学认为投资者心理活动会影响资产价格,投资者由于精力和注意力有限,无法注意并吸收市场上全部的信息,从而导致对资产价格认知的偏差。通过对投资者关注度变化的研究,有助于我们理解与预测市场的波动性。本文基于淘股吧论坛,运用爬虫程序爬取用户12年1月至18年8月的留言数据,以含有“银行”关键字的留言数在当日总留言数中的占比为投资者关注度代理指标,研究关注度变化对银行股票下一交易日涨跌幅的影响。结果表明,银行股出现大幅度波动的概率与关注度与水平成正相关,且高关注度水平在一周的交易日内的分布具有不均匀性。

【关键词】投资者关注度;银行股票;数据挖掘

一、研究背景

由于投资者的精力和注意力有限,金融市场上的投资者无法注意并理解市场上的所有信息(Barberis & Thaler,2003)从而导致对信息理解的不全面和对资产价值预测的偏差。投资者对于市场信息的认识和理解会直接影响到他们的投资决策和交易行为,从而对金融市场产生影响。

通过对投资者关注度变化的研究,有助于我们理解与预测市场的波动性。

二、意义及创新点

股吧是投资者交流意见和获取信息的重要途径,投资者在股吧中浏览他人的观点,并留下自己的判断,在交流的过程留下的浏览记录以及发言记录无疑都是投资者个体内心的写照,通过分析其留言中是否含有‘银行关键字,可以判断该投资者是否关注到了银行股,因此本文使用涉及关键字‘银行的留言在总留言数中的占比作为投资者对银行股的关注度代理指标。将下一交易日,标的涨跌幅度作为因变量,研究关注度的变化对下一交易日的影响。

根据数据来源的不同,传统的投资者关注的度量方式可以分为以下两种:第一种方式是利用金融资产的交易特点度量投资者关注度。通常的做法是使用交易量、换手率、成交量等变量测度股票是否受到了投资者关注(Chemmanur & Yan, 2009; Hou et al, 2009; Loh, 2010)。第二种方式是基于财务报表和公告数据测度投资者关注。

传统数据(交易数据及公司报表、公告等)能在一定程度上度量投资者关注和投资者情绪,但这些数据仍存在以下弊端:第一,传统数据缺乏对投资者关注和情绪的直接度量。第二,传统数据种类单一,缺乏以投资者为对象的数据,为深入研究投资者行为和心理带来了阻碍。第三,大多传统数据数量较少,计量误差较大。

相较传统交易数据或财务报表数据,股吧数据具有规模性、多样性、高速性的特点。

本文以淘股吧作为数据来源,新增了一个分析投资者关注度及其情绪的数据来源,并以涉及关键字的留言占比作为投资者关注度的代理指标,新增了一种投资者关注度的代理指标。

三、数据来源

(1)淘股吧介绍

淘股吧论坛成立于09年,发展至12年后论坛基本成熟,用户活跃度及数量都保持在一个较高水平,根据淘股吧内的帖子来看,淘股吧用户股票操作风格大多激进,其用户层面比之东方财富较窄,少有中长线价值投资者,多为快进快出的短线投机客,本文正是基于对短线投机客对于银行股关注度的变化来研究其对后一交易日银行股整体情况的影响。

(2)样本选取

本文选取的是12年1月1日至18年8月31日的共2435日近150万帖子数据。通过python软件爬取了淘股吧论坛的所有帖子,将帖子的标题、内容、发帖人、发帖时间,以及所有跟帖的内容、跟帖时间、跟帖人保存在mongodb数据库中。共得到426761条有关银行的留言。

(3)对应标的选取

因为是以‘银行为关键字进行检索,所以选取银行板块指数作为对应标的进行对银行板块整体情况的研究,该指数包含了A股所有的银行股,能较好的反应银行股的整体情况。

四、數据处理

在数据库中以日为单位对当日数据进行统计,记录下当日留言的总条数以及包含‘银行关键字的留言条数,生成当日谈及银行的留言在总留言数中的占比。

以日为单位,在excel中生成日期、星期、关键字留言数、总留言数、占比、下一交易日涨跌幅项目。

五、数据分析

删除一些无效数据后得到共2399日数据,将数据按照关注度水平进行降序排列,取前2.5%数据(60个)作为高关注度组,取后2.5%数据(60个)作为低关注度组,对比研究与总体的差异。

分别对总体、高关注度组以及低关注度的下一交易日涨跌幅进行描述统计。(表2、表3、表4)

研究发现:

(一)下一交易日出现大幅波动的概率与关注度水平成正相关

与总体相比,高关注度水平下,方差显著变大(从2.48增大至5.40),表示下一个交易日出现大幅度波动的可能性显著增大。

与总体相比,低关注度水平下,方差显著减小(从2.48减小至1.19),表示下一个交易日出现大幅度波动的可能性显著减小。

以涨跌幅超过3%作为大幅度波动,从历史数据来看,我们也可以验证这一点。以本文选用的2012年1月1日至2018年8月31日之间的1622个交易日数据来看,共有92个交易日涨跌幅超过3%,出现大幅度波动的概率为5.67%。

在高关注度组,60个样本中共有7次下一日涨跌幅超过3%(且指向的下一交易日非重复),出现大幅度波动的概率为11.67%。

在低关注度组,60个样本中共有2次下一日涨跌幅超过3%,由于这两次指向的下一交易日正好重叠,所以记为一次,所以出现大幅度波动的概率为1.67%。

可见,关注度水平确实影响出现大幅波动的概率。

(二)高关注度出现在一周内频率并不相同,交易日间的风险不同

高关注度出现在周六周日周一的频率显著最大(周日频率最高),意味着周一、周二出现大幅度波動的可能性最大。

可见,周一的风险明显大于其他4个交易日,周二其次。

六、结论

本文通过对淘股吧内投资者对银行股的关注度水平建立代理指标,研究银行股关注度水平与其对应标的(板块指数)之间的关系,研究发现:

(一)关注度水平与下一交易日的出现较大的涨跌幅的概率成正相关。

(二)高关注度水平在每周交易日的不平均分布(周六、周日、周一显著较高)可能是导致周一出现大幅波动的原因。

七、不足与展望

一、本文只从关注度角度出发,得出了高关注度导致银行股出现大幅度波动的概率增大,但是无法从关注度角度得出变化的方向,下一步将希望通过语义分析分类等方法分析投资者的情绪,研究关注度与情绪结合起来对资产价格的影响。

二、对于结论二,只是发现银行股高关注度分布的不均匀性(在周六、周日及周一显著高于其他),以及从历史数据得出的出现大幅波动的概率在周一最高、周二其次的现象,而并没有准确地分析这两个现象之间的因果关系,下一步将寻找一些模型和方法来准确论证其中的因果关系。

【参考文献】

[1]Barberis, Nicholas. & Richard Thaler (2003) A Survey of Behavioral Finance. In: George M. Constantinides, Milton Harris, and RenéM. Stulz, eds. Handbook of the Economics of Finance: Volume 1B, Financial Markets and Asset Pricing. Elsevier North Holland, Chapter 18:1053~1128.

[2]Chemmanur, T. & A. Yan (2009). Product market advertising and new equity issues. Journal of Financial Economics, 92(1):40-65.

[3]Hou, K.et al. (2009). A tale of two anomalies: The implication of investor attention for price and earnings momentum. Social Science Electronic Publishing, 45:416-418.

[4]Loh, R.K. (2010). Investor inattention and the underreaction to stock recommendations. Financial Management, 39(3):1223-1252.

[5]Grullon, G.et al. (2004). Advertising, breadth of ownership, and liquidity. Review of Financial Studies, 17(2):439-461.

[6]Solomon, D. H.et al. (2014). Winners in the spotlight: Media coverage of fund holdings as a driver of flows. Journal of Financial Economics, 113(1):53-72.

[7]Kaniel, R. & R. Parham. (2017). WSJ Category Kings: The impact of media attention on consumer and mutual fund investment decisions. Journal of Financial Economics, 123(2):337-356.

[8]许柳英, 陈启欢. 公众注意力影响买入行为吗?——基于投资者行为的分析[J].上海管理科学,2005.27(4):39-41.

[9]谭伟强, 我国股市盈余公告的“周历效应”与“集中公告效应”研究[J].金融研究,2008.2:39-41.

[10]杨晓兰我国股票市场的网络关注度效应——一个基于和讯关注度的实证检验[R].工作论文,2010.

[11]饶育蕾, 彭叠峰, 周相宜. 基于有限注意的排行榜效应研究[C].第六届中国金融学年会论文,2009.

[12]饶育蕾, 王攀. 媒体关注度对新股表现的影响——来自中国股票市场的证据[J].财务与金融,2010.3:1-7.

[13]于李胜, 王艳艳. 信息竞争性披露、投资者注意力与信息传播效率[J].金融研究,2010.8:112-135.

[14]周嘉南, 黄登仕. 投资者有限注意力与上市公司年报公布时间选择[J].证券市场导报,2011.5:53-60.

[15]张雅慧, 万迪防, 付雷鸣. 股票收益的媒体效应:风险补偿还是过度关注弱势[J].金融研究, 2011.8:143-156.

[16]李冬昕, 李心丹, 张兵. 分析师的盈利预测偏差与本地优势[J].财经科学, 2011.3:26-33.

[17]董大勇, 肖作平. 交易市场与网络论坛间存在信息传递吗[J].管理评论, 2011,11:3-11.

[18]张永杰, 张维, 金曦等. 互联网知道的更多么?——网络开源信息对资产定价影响[J].系统工程理论与实践, 2011.4:577-586.

[19]俞庆进, 张兵. 投资者有限关注与股票收益——以百度指数作为关注度的一项实证研究[J],金融研究, 2012.8:152-165.

[20]谢世宏. 基于互联网搜索的有限注意与我国股票市场的关系研究[D].南京大学,2012.

猜你喜欢
数据挖掘
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
基于并行计算的大数据挖掘在电网中的应用
一种基于Hadoop的大数据挖掘云服务及应用
数据挖掘的分析与探索
数据挖掘技术综述与应用
基于GPGPU的离散数据挖掘研究
利用数据挖掘技术实现LIS数据共享的开发实践
高级数据挖掘与应用国际学术会议
高级数据挖掘与应用国际学术会议