基于TF-IDF和人工神经网络模型的众筹影响因素研究

2019-07-03 03:12于昊卿

现代商贸工业 2019年10期

于昊卿

摘要：随着社会经济的发展，教育资源不平衡的情况正在愈演愈烈。很多地区的适龄儿童因为没有合适的经济条件和物质基础，就难以享受到良好的教育资源。在这种背景下，教育众筹平台成了一个协调教育资料的渠道，众多贫困地区的教师可以在平台上发布申请书而获得社会大众的关注和支持。基于美国众筹网站的18万条申请记录数据进行了一系列分析，对教育众筹成败的影响因素做了深入讨论。首先，基于TF-IDF算法，对申请书中的文本关键词进行了提取，使得大众可以快速地了解到申请书的核心诉求。基于Python计算了单词的TF-IDF值，并统计出了最常出现的一些关键词，并分析了关键词对申请结果的影响因素。之后，建立了人工神经网络模型，实现了对申请结果的精准预测，并对项目的申请者和审核者提出了合理化的建议。

关键词：TF-IDF算法;人工神经网络;影响因素分析;教育众筹

中图分类号：F23文献标识码：Adoi：10.19311/j.cnki.1672-3198.2019.10.051

1前言

众筹网站www.donorschoose.org由一位美国人建立的，该众筹平台得到了世界各地人民的赞同与支持，K12学龄段的老师们都可在该众筹平台上发出请求书，申请社会上的帮助以改善学生的教学环境。因此，研究这些请求书能否被社会人士认同并成功获得相应的教育资源成为了众筹平台和老师们迫切关注的问题。它既能帮助众筹平台更关注高质量的请求，减少由于审核这些请求所带来的人力成本，又能帮助老师更好的发布请求来获得社会人士的支持。

对于众筹影响因素的分析，国内外学者进行了诸多研究。Mollick分析了Kickstarter众筹网的数据，给出项目质量、项目目的以及项目发起人地理位置是重要因素。Colombo通过实证研究发现，项目发起人与项目支持者之间的联系强度也是一个影响众筹成功的关键因素。Frydrych在研究中指出目标金额对众筹融资成功具有反向的影响，Agrawal还指出地理位置也是影响项目成功的关键因素。在国内学术界，黄健青通过对追梦网的实证分析，指出目标额度、支持者、最小投资额和最小投资额人数是影响项目成功的主要因素。郑海超等指出融资额、融资时间和评论数是影响项目成功的关键因素。曾江红等从社会资本对众筹成功的影响因素研究中指出融资额与项目成功为负相关关系。

本文后续章节结构为：第二章介绍了数据的来源、介绍和预处理过程;第三章展示了利用TF-IDF算法提取关键词的步骤，以及优化的流程和优化前后的提取结果;第四章建立了人工神经网络模型，通过优化得到了更加精准的预测结果;第五章总结了全文内容，并对未来发展提出了展望。

2数据简介和数据预处理

本文应用的数据，主要是来自于美国教育众筹网站（www.donorschoose.org）的申请记录。该网站始建于2000年，由一名纽约的老师创建。数据整体分为两个部分：

Data.csv 文件：包含了一个申请书填写的主题内容，包括项目ID、教师ID、教师称谓、申请年级、申请地区、申请时间、申请类别、申请书标题、申请书文本、资源需求概述、教师申请过的项目数和项目申请是否通过。

Resource.csv 文件：包含了项目申请的所有资源，包括项目ID、申请物品的名称、申请物品的数量和申请物品的单价。

通过对数据的浏览和分析，首先对数据进行了如下几步的预处理工作：

（1）将项目的申请时间、教师曾经的申请数量进行离散化处理。

由于所有的18万条数据基本集中在同一年，因此我们将“申请时间”数据转化为“所在月份”，成为一个具有12个离散属性的特征变量;同时为了应用后续的分类预测模型，本文将“教师曾经的申请数量”进行离散化处理，根据数据的分布情况将该属性分为8个间隔不等的区间段，转化为具有8个离散属性的特征变量。

（2）将申请书中有所“project_essay”字段进行合并。

由于申请网站于2016年5月17日进行过改版，因此该时间前后的文本数据存在不一致性。经过分析可知，改版前的前两个文本信息“project_essay1”和“project_essay2”的内容基本与改版后的“project_essay1”一致，而改版前的“project_essay3”、“project_essay4”基本与改版后的“project_essay2”一致。因此，考虑到一个申请书全文的内容，本文将每个申请书的2-4个字段的文本信息进行合并，合并后的文字包含了一个申请书的核心文本信息，可以为关键词提取和预测模型建立做好准备。

3基于TF-IDF算法提取文本关键信息

3.1利用TF-IDF算法进行关键词初筛

本文基于Python实现了完整的关键词提取和结果统计过程。首先针对18万条申请数据的申请书文本进行分词和词性标注，利用NLTK自然语言处理工具包实现该功能。之后进一步利用NLTK的语料库去除文本中包含的停用词以及一些乱码文字，从而有了标注好不同词性的单词列表，以供后面TF-IDF算法应用。

单词的TF-IDF值的计算分两个步骤，首先是根据该单词在本文中出现的次数，计算词频即 TF 部分：

TF=词语在本文出现次数/本文单词总数

词频部分利用 sklearn 工具包中的 CountVectorizer（）函数来计算，该函数可以得到每个单词在每篇文章中出现的词频，即形成所有单词的“词频矩阵”。

第二步是计算该单词在其他文本中出现的情况，利用“逆文本频率”即“IDF”来衡量：

IDF=lg （本文库总文档数/包含本单词的文档数+1）

这部分利用sklearn 工具包中的 TfidfTransformer（）函数来计算，该函数能够基于词频矩阵来计算出每个单词在每篇文章中的TF-IDF值。进一步地，根据一篇文章中所有单词TF-IDF值排序，可以找到该文章的几个关键词。这里展示某篇文章的內容和关键词提取结果：

"My seventh graders dream big.They can't wait to go to college and they dream of college and careers in healthcare and engineering and law……My students love that they have a choice about where to sit，and thinking about what type of seat helps them learn the most helps them develop self awareness and be better advocates for their own education."

关键词提取结果：Dream，Love，Wait，help，better

可以看出，关键词的提取具有一定的效果，能反映出文章的思想和主要用词。进一步地对所有文章提取出的关键词进行词频统计，发现最高频的关键词统计结果为：

Student，School，Classroom，Learn，Need，Work，Learn

由此可见，在所有的申请书中，Student和School作为关键词出现的次数最多，这也与教育众筹的大背景有很大关系。另外在申请书中，表示需求、愿望的词也会经常出现且提取为关键词，说明很多申请书的写作都是以描述需求、表达愿望为主。

3.2基于改进的TF-IDF算法进行文本分析

由于目前提取出的高频关键词中，Student和School等单词代表性不强、并不能很好地反应文章的特殊需求;同时缺乏对比分析，难以得到非常有价值的结论。因此，进一步做以下两个方面的优化：

（1）筛除所有文本中的“常用词”：本文对所有单词在整个文本库中出现的次数进行了统计。对于在超过半数的文章中都出现过的单词（例如Student、School等），将其定义为本类文章的“常用词”。在进行TF-IDF分析之前，先把每一篇文章词语中的“常用词”统一筛除，然后对剩余的词语进行分析和提取。

（2）根据申请书的申请结果，本文将所有数据分为“通过”和“不通过”的两个部分，并对两个部分分别进行关键词提取。根据两个部分的关键词提取结果的差异，来分析一下文本因素对于申请书是否通过的影响。

在进行以上两步的处理之后，本文选取Literacy&Language，Music & The Arts类别的所有申请，应用TF-IDF方法进行两个部分的关键词提取。得到结果为“通过”和“不通过”的高频关键词分别如表1。

通过对比两类申请书的最高频出现的5个关键词，一方面可以看出本文的处理是很有成效的，一些常见的、很普适性的词语没有再出现于高频的关键词中。另一方面，通过对比两类申请书最常出现的5个关键词可以看出，能够申请通过的申请书，普遍的用词都更加客观、精准，对需求的表述也更加清晰;然而不通过的申请书，描述往往都比较抽象、笼统，没有精准地将需求表述清楚，也很难得到投资人的认可和支持。

4申请结果预测模型的建立与求解

人工神经网络无需事先确定输入输出之间映射关系的数学方程，仅通过自身的训练，学习某种规则，在给定输入值时得到最接近期望输出值的结果。作为一种智能信息处理系统，人工神经网络实现其功能的核心是算法。BP神经网络是一种按误差反向传播（简称误差反传）训练的多层前馈网络，其算法称为BP算法，它的基本思想是梯度下降法，利用梯度搜索技术，以期使网络的实际输出值和期望输出值的误差均方差为最小。

BP网络是在输入层与输出层之间增加若干层（一层或多层）神经元，这些神经元称为隐单元，它们与外界没有直接的联系，但其状态的改变，则能影响输入与输出之间的关系，每一层可以有若干个节点。BP神经网络的计算过程由正向计算过程和反向计算过程组成。正向传播过程，输入模式从输入层经隐单元层逐层处理，并转向输出层，每一层神经元的状态只影响下一层神经元的状态。如果在输出层不能得到期望的输出，则转入反向传播，将误差信号沿原来的连接通路返回，通过修改各神经元的权值，使得误差信号最小。

本文所使用的所有BP神经网络模型通过调用python中的sklearn机器学习库来实现，在该模型中，考虑了如前两个模型一致的特征。利用train_test_split（）函数将训练集和测试集划分为4：1的比例，并将特征和类别分开，产生了 X_train、Y_train、X_train、X-test四个变量用于训练和测试。

为了便于神经网络的拟合，本文还针对每个特征进行了归一化处理，防止数字过大或过小对结果产生影响。训练后的模型在測试集上的结果如表2。

可以看出，与其他模型相比，人工神经网络对模型的预测结果更加准确，而且对“通过”和“不通过”样本的预测性能比较平均。这也体现出了人工神经网络更强的非线性运算能力。

5结论与展望

本文基于美国众筹网站的18万条申请记录数据进行了一系列分析，对教育众筹成败的影响因素做了深入讨论。首先，本文基于TF-IDF算法，对申请书中的文本关键词进行了提取，使得大众可以快速地了解到申请书的核心诉求。基于Python计算了单词的TF-IDF值，并统计出了最常出现的一些关键词。为了进一步提高关键词提取的代表性，我们一方面通过筛选排除了在半数以上文章中都出现过的“常用词”，另一方面将所有申请书分为“通过”和“不通过”两个部分，进行分别的关键词提取，从而分析了关键词对申请结果的影响因素。之后本文建立了人工神经网络模型，实现了对申请结果的精准预测，并对项目的申请者和审核者提出了合理化的建议。

参考文献

[1]Mollick.The dynamics of crowdfunding：An exploratory study[J].Journal of Business Venturing，2013，59（4）：1805-1844.

[2]Colombo S.Product differentiation，price discrimination and collusion[J].Research in Economics，2014，64（1）：18-27.

[3]Frydrych D，Bock A J，Kinder T，Koech B.Exploring entrepreneurial legitimacy in reward-based crowdfunding[J].Venture Capital，2014，16（3）：247-269.

[4]Agrawal A K，Catalini C，Goldfarb A.The geography of crowdfunding[R].National bureau of economic research，2011.

[5]黄健青，刘雪霏，郑建明.众筹项目成功的关键因素基于KIA与AON融资模式的实证研究[J].财贸经济，2015，（9）：74-84.

[6]郑海超，杨婷婷，陈冬宇，万能.创新项目股权众筹融资绩效的影响因素研究[J].中国软科学，2015，（1）：130-138.

[7]曾江红，甘信禹.社会资本对众筹项目融资成功率影响的实证研究[J].技术经济，2015，33（11）：90-95.