基于RFM模型的上市公司违规行为画像研究

2023-12-24 10:34徐静袁慧
数据与计算发展前沿 2023年6期
关键词:画像违规聚类

徐静,袁慧

1.北京联合大学管理学院,北京 100101

2.北京物资学院,北京 101149

引 言

随着资本市场监管政策的不断趋严,上市公司运作规范性明显提升,信息披露质量得到改善。然而,在经济金融环境深刻变化、资本市场改革开放不断深化的背景下,上市公司经营和治理不规范、发展质量不高等问题仍较为突出,违法违规行为频频发生。据国泰安(CSMAR)数据库资料显示,2021 年证监会、证券交易所等对上市公司做出的违规处理记录超过上千条,涉及到虚构利润、虚列资产、虚假记载、推迟披露、重大遗漏、披露不实、欺诈上市、出资违规、擅自改变资金用途、占用公司资产、内幕交易、违规买卖股票、操纵股价、违规担保、一般会计处理不当等。对此,外部监管介入势在必行,既要完善监管制度,也要发挥监管机构合力,实施分类监管[1]。所谓分类监管,是指通过合理配置监管资源,在对上市公司风险等级评估的基础上,按照风险严重程度和受监管关注程度,对不同类别公司实施差异化和精准监管[2]。国内外监管研究和实践表明,实施分类监管有助于优化监管资源配置,能够提高监管的针对性和有效性[3-4]。当前,中国资本市场步入高质量发展阶段,中共中央办公厅、国务院办公厅于2021年7月印发了《关于依法从严打击证券违法活动的意见》,指出要坚持分类监管、精准打击,全面提升证券违法大案要案查处质量和效率。监管实务中,我国证监会坚决贯彻“零容忍”工作方针,大力推进上市公司分类监管,依法从快从严从重查办各类重大违法案件。可以说,分类监管是适应证券市场发展和应对监管资源有限的有效方式。从实践来看,分类监管涉及了两个关键问题:一是对上市公司的科学分类问题,即如何界定上市公司的违规风险和受监管关注度,特别是从海量数据中精准发现重点监管对象;二是上市公司画像问题,即如何提取不同违规风险等级的上市公司特征,并进行多维度的企业画像。数据挖掘技术为解决上述问题提供了思路和方法,通过多维特征提取对上市公司违规行为进行画像研究,成为现代监管方式创新发展的有效途径。

本文立足分类监管理念,以上市公司违规风险评级为基础,对违规上市公司进行多维画像研究。主要研究贡献体现在:第一,引入RFM(Recency Frequency Monetary)模型,提出了上市公司违规风险评价的定量方法,为界定上市公司违规风险等级提供了科学依据;第二,应用企业画像(Enterprise Portrait)技术,刻画了违规上市公司的多维特征属性,有助于辅助监管部门进行风险苗头识别和违法违规线索发现,进而实施分类、差异化和精准监管。

1 文献综述

1.1 上市公司违规相关研究

根据国内外学者的研究观点,利益和目标带来的压力是导致上市公司违规的根本动因,因而财务压力往往是影响上市公司违规的主要因素。当上市公司面临财务困境或未能实现预期业绩目标时,避免报告负面业绩、虚增公司增长率的动机便会随之产生。吴国萍等[5]认为财务压力会对公司形成行为压迫,并对公司的信息披露违规行为构成显著的影响。当公司治理结构缺失或外部监管、行业规制不到位时,上市公司很可能出于内外压力或自身利益而出现财务舞弊等违法违规行为[6]。换言之,有效的公司治理在一定程度上可以抑制违规,优化公司治理结构有助于遏制误报信息等欺诈行为[7]。从目前的研究来看,大量文献从公司治理的角度研究上市公司违规行为,这些公司治理因素主要包括:独立董事薪酬激励[8]、纵向兼任高管[9]、CEO风险偏好和财务困境[10]等。也有学者从巡视监督[11]、政府监管[12-13]等角度研究违规行为,认为上市公司和政府监管机构之间存在着复杂的博弈,上市公司违规与否取决于监管机构对违规行为的惩罚力度以及监管机构的调查和曝光情况,为了提高监管效果,要加强对上市公司违规行为的惩处力度,这样才能起到警示作用。此外,产品市场竞争和市场分割[14]、社交媒体[15]等其他因素对上市公司违规也有一定的影响。

同时,学者们围绕上市公司违规风险的识别、预测和预警也进行了广泛研究,传统的研究方法主要包括粗糙集理论和遗传算法[16]、回归模型[17]、Beneish 模型[18]等。随着研究的不断深入,数据挖掘技术被用于研究上市公司违规行为,如美国证券会倡导数据驱动的调查方式,强调借助数据分析工具识别违反证券法的行为[19];郦金梁等[20]利用当年数据构建递延所得税异动指标,构建人工智能模型对违规事件进行精准判别。

1.2 企业画像技术及其应用

画像(Portrait)技术是用于勾画目标主体特征的有效工具,与之相关的概念还有属性、角色等提法。属性是指能够刻画目标主体特点的属性信息集合,包括重要的事实或者行为属性。传统的画像技术最早出现在20世纪90年代,主要应用于电子商务和社交网络等研究领域[21-22]。Cooper[23]最早提出了用户角色的概念,它是真实用户的虚拟代表,是建立在一系列真实数据之上的目标用户模型。随着大数据技术的不断发展,可以对行为主体在不同网络环境中留下的大量痕迹等碎片化数据进行潜在的价值挖掘,由此产生了数据驱动的画像技术。Jansen等[24]认为用户角色用于增加利益相关者对受众、客户或用户的理解,大数据能够使画像从对用户群体的一般表示转换为精确的交互决策工具。

画像技术也被用于研究企业的行为属性。田娟等[25]认为企业画像就是把企业信息标签化,在一系列真实数据的基础上为企业建立标签模型体系,将企业的具体行为属性进行归类,形成一个多元化的企业标签对象。Davies 等[26]提出企业特征量表的概念,用于评估企业声誉,最终确定了企业特征的主要维度和次要维度,并给企业贴上了多种标签。在此基础上,Maťová等[27]发展了企业特征量表,从7个维度对两家零售商的企业形象进行了分析。企业画像技术也在应用中得到了发展;丁行硕等[28]提出了一种基于标签分层延深建模的企业画像构建方法,通过多源信息融合获取多特征信息,实现标签分层延深建模。关于企业画像技术的应用,池仁勇等[29]从信用角度,基于关键词迭代法研究了持续创新企业具有的特殊信用画像特征。近年来,学者们开始致力于研究精准画像,通过改进细分结果提高画像的可靠性与准确性[30]。RFM模型作为一种细分目标主体的有效工具,被用于进行画像研究[31-32]。

1.3 现有研究评述

从现有的研究来看,对上市公司违规行为的研究主要集中在分析其动因,包括公司治理、内部控制、财务特征等方面,并对违规行为进行预测预警。本文认为,上市公司违规处罚记录中包含的违规处罚时间、频率和金额等信息,能够在一定程度上反映违法违规的严重程度和受监管关注度。近年来,画像技术在国内外的应用逐渐增加,将画像技术应用于上市公司违规监管成为一个重要的新兴课题。因此,本文引入RFM 模型,在对上市公司违规风险进行评估的基础上,根据违规上市公司的特征属性提取标签并构建画像,以期为监管部门实施分类监管、实现精准打击提供科学依据。

2 上市公司违规行为RFM分析

考虑到数据间的可比较性,本文选取2016-2021年因违规受罚的我国深沪两市制造业上市公司为研究对象,共涉及1,362 家上市公司。上市公司相关的基本信息、公司治理和财务数据来自锐思(RESSET)数据库,违规处罚信息来自于国泰安(CSMAR)数据库。

2.1 基本情况

根据违规处罚记录,通过分析2016-2021 年制造业违规上市公司的交易所标识、当前状态等基本信息,发现在1,362 家违规上市公司中,因违规受罚的上交所上市公司占31.5%,深交所上市公司占68.5%,因违规受罚的上市公司中有83 家被实施ST 或*ST,有2 家被暂停上市,还有27家已退市,如图1和图2所示。

图1 交易所标识Fig.1 Exchange identification

图2 当前状态Fig.2 Current state

从违规上市公司所属行业来看,违规受罚公司数量最多的198家为计算机、通信和其他电子设备制造业,占所有违规公司数量的14.54%,其次是化学原料及化学制品制造业、医药制造业、电气机械和器材制造业、专用设备制造业,以上5 个行业中的违规上市公司占违规公司总数的约54.12%。再从地域分布来看,227家违规受罚公司隶属于广东省,占所有违规公司数量的16.67%,浙江、江苏、山东省和北京市的违规受罚上市公司数量也较多,约54.56%的违规上市公司地处以上5个省份,如图3和图4所示。

图3 行业分布Fig.3 Industry distribution

图4 辖区分布Fig.4 Jurisdictional distribution

2.2 违规处罚

RFM 模型通过近因(Recency)、频率(Frequency)和货币(Monetary)分析进行用户行为评价,广泛应用于细分用户和衡量用户价值。本文借鉴RFM 模型,基于上市公司违规处罚数据库,选取最近一次违规处罚时间(R)、违规处罚频率(F)、违规处罚金额(M)作为违规行为分析的指标。

(1)最近一次违规处罚时间

最近一次违规处罚时间是指上市公司最近一次违规处罚时间距离当前时点或截止到统计周期的间隔。理论上,最近一次违规处罚越近的上市公司带来的负面效应较大,应是越受关注的公司。从监管角度上讲,最近一次违规处罚很近的上市公司数量及其随时间推移的变化趋势,能够在一定程度上揭示上市公司违规的整体严重程度和监管部门的监查力度。

(2)违规处罚频率

违规处罚频率是指上市公司在限定期间内的违规处罚次数。违规处罚频次较高的上市公司,通常也是违规风险较高的上市公司,多次受罚后依然发生违规行为,表明上市公司可能在公司治理、财务或其他方面存在较大问题,导致其违法违规动机增加。从监管的角度而言,违规受罚频次高的上市公司应引起较大关注,并采取恰当措施防范违规事件持续发生。

(3)违规处罚金额

违规处罚金额是指上市公司在限定期间内因违法违规受罚的金额。受罚金额越大,表示违规事件的严重程度越大。当前,随着监管部门执法力度的加大,相关责任主体违法违规的成本大幅提高,处罚金额也是衡量上市公司违规行为的一个重要指标。

2.3 RFM评价

借助于最近一次违规处罚时间(R)、违规处罚频率(F)、违规处罚金额(M)3个指标,可以计算出违规上市公司的RFM 分值,在此基础上对所有的违规上市公司进行细分。计算方法是:首先按5 个等级将R、F、M进行赋值分组,每个样本在R、F、M上的分组结果就是它对应的R得分、F得分、M得分,最近一次违规处罚时间越近,近因评分越高,违规处罚频率(F)越大,频率评分越高,违规处罚金额(M)越大,货币评分越高;然后以R得分、F得分、M得分乘以相应的权重,计算得出RFM分值。

考虑到最近一次违规处罚时间(R)、违规处罚频率(F)、违规处罚金额(M)分别在不同方面反映上市公司违规情况。因此,R的权重、F的权重、M的权重采用均分方法,取均值为0.3333。违规上市公司RFM分值反映了上市公司的违规风险指数(Violation Risk Index),RFM分值越大,则上市公司的违规风险指数越大,反之亦然。

应用RFM模型,对本文选取的1,362家制造业违规上市公司进行RFM 分析,得出的评分结果如表1所示。

表1 违规上市公司RFM评分Table 1 RFM scores of illegal listed companies

根据违规上市公司的RFM 分值,进一步将1,362 家违规上市公司划分为四类:低风险类(Ⅰ)、中风险类(Ⅱ)、次高风险类(Ⅲ)、高风险类(Ⅳ),如图5所示。

图5 违规上市公司RFM评级Fig.5 RFM rating of illegal listed companies

基于RFM模型的违规上市公司评分和评级综合反映了上市公司的违规风险情况,能够为监管部门实施分类监管提供科学依据。图5中,高风险类(Ⅳ)上市公司共98 家,其最近一次违规处罚时间(R)、违规处罚频率(F)、违规处罚金额(M)对应的分值都很高,须特别关注;次高风险类(Ⅲ)上市公司256家,其R、F、M3个指标中有2 个分值高,1 个分值较低,应重点关注;中风险类(Ⅱ)上市公司475家,其R、F、M3个指标中有1 个分值高,2 个分值较低,应维持一般关注;低风险类类(Ⅰ)上市公司533家,其R、F、M3个指标分值都很低,应保持适当关注。

3 上市公司违规行为画像构建

根据上市公司违规风险评价结果,基于多维画像指标体系,应用系统聚类方法识别不同风险等级上市公司的特征,进而提取描述标签对其进行画像构建。

3.1 画像指标体系

指标体系设计是构建画像的基本任务。一般情况下,可以通过企业的盈利、经营、偿债等多个方面对上市公司的财务情况进行综合评价。另外,上市公司的可持续分红能力代表了企业自由现金流的创造能力,资本结构直接影响企业的融资成本和市场价值。因此,本文以财务指标为主线,辅以公司治理等指标,建立上市公司画像指标体系。该指标体系分解为盈利能力、偿债能力、营运能力、分红能力、资本结构、公司治理六大维度,共包括33 个指标,以期能够从多维度刻画上市公司的经营管理与财务绩效表现,如表2所示。

表2 上市公司画像指标体系Table 2 Index system of listed companies

3.2 系统聚类分析

确定了画像指标体系并获取各项指标数据后,运用系统聚类方法分析违规上市公司在各个维度的特征,为识别并提取不同风险等级违规上市公司的画像标签提供基础。本研究所需的程序是用Python3.7 软件编写,具体的建模过程分为以下几个步骤:

(1)数据预处理。数据预处理主要包括重复值、缺失值的检测处理以及数据的标准化处理,由于各二级指标存在数量级的差异,采用Z-Score 方式对指标统一进行标准化,以符号Z-Xi表示。

(2)系统聚类。系统聚类又称层次聚类,主要思想是先将每个公司单独聚成一类,然后将所有类中距离最小的两个类合并为一类,重复步骤直至所有公司都被聚为一个大类。系统聚类法需要度量个体与个体之间的距离以及类与类之间的距离。本文中,计算个体与小类、小类与小类间距离采用组内聚类,不同变量类型下观测个体的距离采用余弦方式。

针对预处理后的可用数据Z-Xi,针对D1-D6维度分别执行系统聚类,并用聚合系数d来确定不同维度下最佳的聚类类别数,实现对数据本身特性学习的目的,则DiCj代表样本在i维度下属于第j类,其中i=1, 2, …, 6;j=1, 2, …。对第i维度下属于j类的所有样本求平均值,并进行降序排序,确定第i维度下违规上市公司的行为表现强弱或高低程度。据此,识别违规上市公司在盈利能力、偿债能力、营运能力、分红能力、资本结构、公司治理方面的具体类别表现。其中,除资本结构维度的特征以高低表示外,其他的维度特征用强弱表示。表3 展示了系统聚类下每个维度的聚类结果。

表3 系统聚类下各维度聚类结果Table 3 Results of hierarchical clustering

可以看出,根据X1-X13等指标的数值表现将上市公司的盈利能力分为三类,C1代表盈利能力强,C2代表盈利能力中强,C3代表盈利能力弱;根据X14-X19等指标偿债能力分为五类,C1代表偿债能力中弱,C2代表偿债能力弱,C3代表偿债能力次强,C4代表偿债能力中强,C5代表偿债能力强。同样的,上市公司的营运能力、分红能力、资本结构和公司治理能力分别分为两类、两类、五类与五类。类别界定的排序由强至弱依次为:强、中强、次强、弱、中弱;高、中高、低、中低、次低。

3.3 企业画像构建

以违规风险等级为分类依据,统计出四类不同风险等级的违规上市公司在每个维度下不同类别表现的公司数量占比。第l风险等级下第i维度下第j类的公司数量占比为:

其中,Nl代表第l风险等级下公司总数量,∑DiCj代表第i维度下第j类的公司数量。

不同风险等级的违规上市公司在6 个维度下的公司数量如表4 所示。公司数量占比最多所对应的类别表现视为该风险等级的违规上市公司的画像特征。以高违规风险上市公司为例:高风险类(Ⅳ)上市公司的盈利能力指标上C2公司数量最多,主要表现为中强;偿债能力指标上C2数量最多,主要表现为弱;营运能力指标上C1数量最多,主要表现为弱;分红能力指标上C1数量最多,主要表现为强;资本结构指标上C4数量最多,主要表现为高;公司治理指标上C5数量最多,主要表现为弱。

为了更加清晰地分析上市公司不同维度的表现,以高风险类(Ⅳ)上市公司为例,图6 展示了其在不同维度下的表现分布图,可以看出高风险类(Ⅳ)上市公司的主要特征为:盈利能力中强、偿债能力弱、营运能力弱、分红能力强、资本结构高、公司治理能力弱。

表4 各维度下违规上市公司数量Table 4 Number of illegal listed companies in each dimension

图6 违规上市公司各维度表现分布图-高风险类(Ⅳ)Fig.6 Performance Distribution of Illegal Listed Companies in six dimensions High-Risk Category(Ⅳ)

同理,由表4可以得到次高风险类(Ⅲ)上市公司的主要特征是:盈利能力强、偿债能力弱、营运能力弱、分红能力强、资本结构次低、公司治理能力强;中风险类(Ⅱ)上市公司的主要特征是:盈利能力强、偿债能力弱、营运能力强、分红能力强、资本结构次低、公司治理能力中弱;低风险类类(Ⅰ)上市公司的主要特征是:盈利能力强、偿债能力弱、营运能力强、分红能力强、资本结构低、公司治理能力强。根据不同风险等级违规上市公司在盈利能力、偿债能力、营运能力、分红能力、资本结构、公司治理等方面的表现,进行可视化展现,结果如图7所示。

图7 不同风险等级违规上市公司属性特点Fig.7 Profiles the characteristics of illegal listed companies with different risk levels

4 结 语

本文针对上市公司违规问题,选取因违规受罚的我国制造业上市公司为研究对象,首先分析了其交易所标识、当前状态、行业、地域等分布情况,进而根据上市公司违规处罚的时间、频率和金额,引入RFM 模型对其违规风险指数进行定量评价。在此基础上,从盈利能力、偿债能力、营运能力、分红能力、资本结构、公司治理6个维度进行系统聚类,提取违规上市公司的关键特征,并运用画像技术对上市公司违规行为进行了多维画像。

主要研究结论包括:(1)根据违规上市公司RFM评分,将违规上市公司划分为低风险类、中风险类、次高风险类、高风险类4个等级,反映了上市公司违规的严重程度和受监管关注度,为细分违规上市公司和实施分类监管提供了科学依据。(2)运用系统聚类方法,识别出四类风险等级上市公司在盈利能力、偿债能力、营运能力、分红能力、资本结构、公司治理方面的特征,据此对违规上市公司进行了画像。(3)违规风险指数高的上市公司表现出较弱的营运能力、偿债能力和公司治理能力,以及较高的资本结构等特征,这一结果符合违规行为发生的内在逻辑。由此得出以下启示:对监管部门而言,应重点关注营运能力、偿债能力、公司治理能力较弱,且资本结构较高的上市公司,以防范上市公司违规行为的发生;对上市公司而言,应提高企业盈利、偿债、营运与公司治理能力,并合理配置资本结构,避免财务杠杆过高,从而降低违法违规风险和监管处罚风险。

本研究为识别和刻画上市公司违规行为提供了科学方法,对于指导上市公司实施分类监管、预防上市公司违法违规、提高上市公司质量具有重要的应用价值。考虑到行业数据的差异性和可比较性,本文仅聚焦我国制造业上市公司违规行为,但企业画像的逻辑是一样的,论文研究思路和方法亦适用于其他行业。补充收集多源数据,进而扩展到其他行业、深入到具体违规类型的研究,挖掘违规上市公司更多的财务特征和非财务特征,并进行画像可视化呈现,将是作者后续开展进一步研究的方向。

利益冲突声明

所有作者声明不存在利益冲突关系。

猜你喜欢
画像违规聚类
威猛的画像
违规借调的多重“算计”
“啄木鸟”专吃“违规虫”
“00后”画像
画像
违规试放存放 爆炸5死1伤
基于DBSACN聚类算法的XML文档聚类
基于高斯混合聚类的阵列干涉SAR三维成像
违规逆行之后
一种层次初始的聚类个数自适应的聚类方法研究