基于LDA的国内直播电商领域主题分析*

2021-12-29 02:12张懿源
南方农机 2021年24期
关键词:词组一致性电商

张懿源,丛 楠,夏 换

(1.贵州财经大学信息学院,贵州 贵阳 550025;2.贵州财经大学贵州仿真重点实验室,贵州 贵阳 550025)

0 引言

随着我国经济水平不断提高,大众对于购物的便利性和多样性要求也是越来越高,电商行业由此诞生。同时,在2020年新冠疫情的影响下,消费者的出行受到限制,加上抖音和快手等直播平台的爆火,“直播+电商”的新模式应运而生。

中国直播电商起始于2016年,目前正处于爆发式增长期,截至2020年年底中国直播电商市场规模达到1.2万亿元,年增长率为197.0%;用户规模达3.88亿人,占整体网民的39.2%[1]。可见,电子商务在我国的经济发展中占据了越来越重要的地位,电商购物也成为人们日常生活密不可分的一部分。与此同时,国家方面也陆续发布了如互联网营销师等9个新职业信息,这也为“直播+电商”这种新带货模式的规范发展奠定了良好的基础。

近年来,直播带货的种类日益增多,新冠疫情后这种趋势更为突出,从日常用品到火箭发射服务都出现在直播平台的橱窗中,可谓是万物皆可直播带货。在这种背景下,许多学者也将目光放到直播带货上,将其作为研究对象,产生了众多学术成果,截至2021年10月1日,在CNKI数据库中以“直播带货”或“直播电商”作为关键词进行检索,可以检索到相关中文学术期刊2 860篇。由此可知,直播带货尚处于起步阶段,国内相关研究较少。为此,课题组利用LDA模型对CNKI数据库中相关文献进行文本建模,通过困惑度与主题一致性确定模型最佳主题数,并对主题词矩阵进行分析,以了解直播带货相关领域的研究现状及研究热点,为相关研究人员提供参考。

1 研究框架与相关技术

1.1 研究框架

课题组以2017—2021年CNKI数据库中直播带货、直播电商相关中文期刊作为数据源,依据困惑度以及主题一致性确定主题数量,并依据主题挖掘出的关键词确定研究热点,研究框架如图1所示。

图1 研究框架

1.2 LDA主题模型

潜在狄利克雷分布(Latent Dirichlet Allocation,LDA)模型是目前主流的主题模型之一,最初是由Blei等在2003年提出[2],是一个“文本-主题-单词”的三层贝叶斯产生式模型,其中文本到主题,主题到单词均服从多项分布。LDA模型假设一篇文章如果属于某个主题,则该文章中所有单词都与此主题相关,不同文章的区别在于它们的主题构成及比例不同。其模型如图2所示,其中各符号含义如表1所示。

表1 LDA主题模型各符号含义

图2 LDA主题模型

本研究中LDA模型采用Gibbs采样算法[3]得到主题Z和主题词w的分布,其中超参数α、β选取默认值[4]。而主题数K运用主题困惑度[5]和主题一致性指标[6]计算确定。

主题困惑度计算公式如式(1)所示。其中,D为测试集;M为文本数量;di为文档d中的单词序列;Ni为文档d的单词数目。

困惑度表示文档所属主题的不确定性,因此,困惑度越小说明模型预测准确度越高,困惑度最低或者拐点处对应的K值即为最优主题数。

主题一致性计算公式如(2)所示。其中,M为文本数量,D(v)表示词组v在文本集合中出现的频率,D(v,u)表示词组N,u在文档中共同出现的频率。

主题一致性是对于经主题模型所生成的潜在主题的可解释性的度量指标,如果主题易于解释,该主题中的顶部单词在对应的语料库的文档中将更频繁地共同出现,较大的一致性指标代表一个更优的模型。因此,一致性指标最高点即为最优主题数。

2 研究设计

2.1 数据来源

在CNKI数据库中采用高级检索功能,检索范围选择学术期刊,检索式为主题=“直播带货”或“直播电商”,时间跨度=“2017—2021”,检索日期为2021年10月1日,初步检索得到2 860篇文献。批量导出文献摘要后,人工去除访谈记录、行业报告、期刊动态等内容,得到1 835篇文献。

根据年份将样本中的文献分类,并统计每年的文献数量,如图3所示。可以看出,自2020年新冠疫情暴发后,发文量突然上升,体现学者们对于直播电商的研究热情。

图3 期刊年度发文数量

2.2 数据预处理及LDA参数设置

将下载好的文献题录数据通过Excel筛选出全部文献摘要,得到研究所需文档数据集,利用Python中的jieba库对数据集做去停用词和分词处理。而后借助Gensim库实现LDA模型训练。在实现模型前需确定模型的最佳主题数。课题组结合困惑度以及一致性确定最佳主题数。计算结果如图4、图5所示。

图4 主题困惑度得分

图5 主题一致性得分

对比两种确定主题数方法结果,主题困惑度计算结果并不理想。因此,课题组采用主题一致性方法确定LDA模型主题数K=3,迭代次数为100次,抽取各个主题下概率排序前10的词组,按照概率从大到小的顺序排列,并依据高概率词组含义查阅相关文献和咨询相关领域专家对主题进行人工标识。

2.3 实验结果与分析

在基于LDA模型的模拟训练后,得到“主题-词组”的概率分布,每个主题内的主题词组根据其概率大小排序,得到如下3个主题,其中核心主题词组如表2所示。

表2 “主题-词组”分布表

Topic0是从乡村振兴角度对直播电商展开研究,由于2020年年初新冠疫情的冲击,大量农产品滞销,因此产生了一条网络直播助农的新道路;在《2020年网络扶贫工作要点》中将推进农村电商作为2020年网络扶贫行动和乡村振兴的重点,成为直播助农的政策支持。李晓夏等[7]认为直播助农是网络扶贫行动和乡村振兴在农村电商模式上的全新探索,为推进完成脱贫任务,补充农村电商产业发展的不足,必须对直播助农这种新模式进行全方位系统化的分析,以探寻直播助农新模式的发展趋势;熊雪等[8]从中介能力视角出发,认为在农产品电商直播模式中“有公信力的第三方主体”要优于“一般性主体”,可以更好地为产品提供质量背书,从而强化消费者对产品的信任度,这种基于“有公信力的第三方主体+企业+电商平台”的三位一体信任体系有助于巩固脱贫攻坚成果,推进乡村振兴战略的实施。

Topic1是从消费者行为影响角度对直播电商模式进行研究。王秀俊等[9]通过构建直播电商对消费者行为影响的S-O-R模型,指出直播电商的娱乐性、互动性和优惠性对消费者行为具有显著影响;在此基础上,魏华、高劲松等[10]又以S-O-R模型为框架,指出信息交互的响应性、娱乐性和互助性显著影响直播电商用户的参与行为,而个性化对其影响并不显著,进一步丰富了直播电商模式下消费者行为影响的研究。

Topic2是从新闻媒体视角对直播电商进行研究。景义新、韩庆鑫[11]认为,直播营销已成为流量转化的新动能,在疫情刺激以及相关政策的影响下,“广电+直播”呈现极强的爆发性和发展潜力,将会是传统广电的新媒体营销新路径;邓燕玲、高贵武[12]表示,网络直播带货既是网络新媒体在运营方式和盈利模式上创新探索的结果,同时也拓展和创新了传统媒体与网络新媒体进行深度融合的范畴和渠道。

3 结论与展望

3.1 结论

课题组针对目前较为热门的直播电商领域,区别于人工识别研究热点,利用LDA主题模型对2017—2021年CNKI数据库中1 835篇相关期刊文献进行主题挖掘,从一定层面上展示了目前我国关于直播电商领域的研究热点。这有利于研究人员了解该领域发展状况,把握未来发展趋势,探求新兴主题。

3.2 展望

在目前传统媒体与网络新媒体逐渐融合的背景下,同时作为网络扶贫行动和乡村振兴战略中的重点,直播电商势必会成为学术界研究的热点。课题组通过梳理该领域的研究热点,认为直播电商领域未来的研究趋势分为以下三点:

第一,带货主播综合素质研究。随着直播电商这一话题在社会中的不断发酵,越来越多的人参与其中,成为带货主播。但因为带货主播基数不断扩大,其综合素质也参差不齐,部分主播存在夸大产品功效和刻意隐瞒产品质量情况等问题,需要出台合理且有效的主播监管政策。同时,直播带货 岗位本身也是一个就业的新方向,是年轻群体择业的一个新目标,在成为带货主播前是否需要一个正规性的岗前培训工作是值得考虑的问题。

第二,特殊产品带货研究。随着直播带货产品的不断丰富,其覆盖的行业及领域也在不断增加,前有某主播直播卖火箭,后有中国药店首届直播节的开办,这类“特殊产品”正在逐渐进入直播电商领域。但同样由于是特殊产品,其直播带货形式以及销售主体的直播方式需要经过严谨的研究讨论。

第三,直播带货的相关法律法规研究。直播带货领域也出现诸多翻车案例,如糖水燕窝、售卖假货、买评刷单等。诸如此类的各种问题不断涌现,国家政策对其的监管力度势必会不断增强,相关的标准和规范也会更新换代。如2021年3月15日出台的《网络交易监督管理办法》,明确指出网络交易经营者不得误导或欺骗消费者。直播带货领域未来的蓬勃发展,还需要相关学者予以法律层面的支持。

猜你喜欢
词组一致性电商
注重整体设计 凸显数与运算的一致性
电商助力“种得好”也“卖得火”
商用车CCC认证一致性控制计划应用
注重教、学、评一致性 提高一轮复习效率
电商赢了,经济输了
加快农村电商全覆盖
基于事件触发的多智能体输入饱和一致性控制
农资电商逃得过地推吗?
副词和副词词组