社会化问答什区知识特征对问题质量的影响研究

2021-12-21 13:58石燕青陈思康乐乐
现代情报 2021年12期
关键词:标签程度用户

石燕青 陈思 康乐乐

DOI.10.3969/j.issn.1008-0821.2021.12.006

[中图分类号]G252.6 [文献标识码]A [文章编号]1008-0821(2021)12-0060-09

在全球社会化进程不断加快的过程中,互联网也迅速走向社交化,在线交流已经成为一种重要的人际交往模式。作为Web2.0的典型应用,在线问答平台应用户需求而出现,逐渐成为用户沟通、交流、传播、共享知识的重要渠道,并演变为一种具有超强影响力和传播力的社会化媒体。随着用户参与程度不断深化,在线问答已经从简单的提供答案转变为一种社交属性驱动的知识创造过程。在许多成熟的在线问答社区中,大部分用户都具有很强的专业知识。因此,此类平台上的信息除了能够满足用户的信息需求之外,对于平台以外更广泛的用户群体也往往具有比较持久的价值和影响力。因此,对在线问答社区的内容质量进行研究具有重要意义。

目前,针对在线问答社区内容质量的研究主要包括用户提供回答的意愿影响因素、回答内容质量的影响因素、对回答内容质量的评价等。其中,对于答案内容质量和有用性的研究角度较为全面,包括从答案特征和回答者特征角度,如回答及时性、答案的文本长度、用户的信誉度、回答中是否包含社交元素等方面研究影响回答内容质量的影响因素;以及使用多种模型从内容的情感倾向、用户个人特征、内容发布时间、内容类型等多个角度进行内容质量评价。如Kim S等从用户角度,总结出情感认同、内容和有效性为用户对最佳回答的主要评价和选择标准;Jeno J等从点击次数、回答长度、回答者活跃等级等非文本特征来评估回答质量;李明等从多维度构建了知识可信度影响因素评估模型。用户回答问题意愿的影响因素包括:通过问题答案获得的成就感和声誉的提高,以及互惠关系、社会关系和社区关系、用户体验、用户自我效能等。此外,问题受到关注的程度和被回答的可能性,还会受到提问者和回答者之间的关系影响,如二者之间的熟悉程度、物理距离、社会相似性等。

可以看出,一方面,已有的研究大多基于答案相关特征来分析内容质量,而鲜少针对问题的特征和质量进行研究。目前,多数在线问答社区的内容会通过搜索引擎进行排名,因此,许多平台将用户投票和声誉机制作为其系统设计的核心,以激励用户积极参与并生产高质量的信息。然而,在系统中仍然有很大一部分问题没有得到解答,即“问题饥饿现象”。优质的问题更容易获得高质量的回答,从而提高社区的服务质量。因此,关注问题的质量,以吸引更多用户对问题的关注,对于提高问答社区的信息价值是至关重要的。另一方面,现有研究视角多集中在用户方面,而在一个在线问答社区中,知识交流的驱动因素不仅仅是知识寻求者和知识提供者之间的关系,问题本身的特征、问题所处的环境、知识网络的发展等也是重要的影响因素。因此,比起研究平台上的答案是否能够满足用户的即时信息需求,识别出有价值的内容,分析其对于具有相似信息需求的用户是否具有潜在的长期价值,似乎具有更加广泛的意义。

为了更好地考察什么样的问题更容易受到用户青睐,本文以专业知识在线问答社——Stack O-verFlow作为研究对象,将研究视角从“知识寻求者一问题一知识提供者”关系转向内容中包含的知识,考察问题中包含的知识特征与问题质量的关系。Stack Overflow向用户提供信息资源的同时,也提供相应的标签供用户进行资源标记和分类。标签在对资源进行有效组织的基础上,也为进一步考察系统的整体发展情况提供了外显化的信息载体。因此,本文以标签作为知识的显性化表示来开展量化研究。

1研究假设

已有研究表明,在线知识问答社区中,发布的问题数量会影响潜在知识提供者对问题的关注程度。问题数量的增加会提高同类问题集合的重要性,因此这类问题更有可能得到解决。当一个问题中包含的标签使用频次越高,表明社区内同类问题越多。同时,也说明该知识在论坛内的大众化程度越高,此类知识大多是基础性知识或近期关注度高的内容,这类问题的解决会为论坛中大多数用户提供参考,贡献价值总量较大,因此这类问题更容易获得较高的用户评价。但是,随着问题受关注程度增加,进行评价的用户也会增加,该问题的综合评价达到一定程度时,可能会出现下降的趋势。因此,提出以下假设:

假设1:随着标签使用频次增加,问题得到的评价呈现先升后降的趋势。

在开放性的在线知识社区中,用户通过在线问答论坛发布内容、获取信息,本质是一种知识交换行为。社会交换理论解释了资源交换过程中的个体行为。具体地说,社会交换理论研究了个人为了从与其他人的接触中获得某些东西而相互交换资源的行为。公共产品理论认为,如果消费者能够从公共产品中获得更多利益时,他们会倾向于做出更多贡献。当问题中包含的标签之间相关性较高时,说明该问题的知识点比较集中。如果用户拥有与之匹配的知识,用户对于问题的理解和吸收能力会更强,付出的时间成本更低,提供的答案质量也会更高。因此,具备相应知识的用户会更倾向于回答这类问题,问题本身也更容易得到好评。故提出以下假设:

假设2:标签问的关联程度对于问题受到的评价具有正向影响作用。

认知心理学领域的学者对选择性注意理论的研究表明,除了问题所在的环境,如果一个问题具有较突出的特征,那么这个问题更有可能引起注意。当一个问题中的标签来自不同的知识类群时,表明该问题涉及的知识多样化程度更高,这类问题往往具有较高的创新性或挑战性。Karim R L等对于开源软件的研究表明,用户解决这类问题时往往具有更强的内在激励作用和外在奖励作用。回答这样的问题对于回答者的声誉也会有更大的提高,故用户往往对这类问题具有较高的评价。因此,提出以下假设:

假设3:标签的多样化程度对于问题受到的评价具有正向影响作用。

组织学领域的学者认为,问题所处的环境对于问题的受关注程度至关重要。当问題中的标签在整个标签关联网络中处于重要位置时,相关知识的流通程度越高,该问题的受关注程度也会更高,因此随着用户评价越来越多,该问题的综合分数也可能会呈现出先升后降的趋势。因此,提出以下假设:

假设4:随着标签网络重要程度增加,问题得到的评价呈先升后降趋势。

2数据来源与处理

为了验证上文提出的理论假设,本文收集了Stack Overflow从2008—2017年的数据,其中包括6833276名用户发布的42 134 619条问题和回答,以及48373个标签。根据标签使用的频次设计不同的阈值,来观察标签的比例和累计出现频率情况,结果如表1所示。

从表1可以看出,在48373个标签中,有135个(0.28%)标签的使用频次超过了35000次,即至少有35 000个问题中包含了这些标签,这些标签的累计使用频次之和为19853664,超过了所有标签累计使用频次之和的50%:而使用次数超过8855次的标签有566个,占标签总量的1.17%,这些标签出现的频次之和接近所有标签使用次数之和的70%:使用次数超过811次的标签有4138个(8.55%),这些标签的使用次数累计之和超过了所有标签出现之和的90%:在第4组中,9033个标签的使用次数超过了246次,这9033个标签的使用次数之和占比超过了所有标签使用次数的95%:在最后一组中,标签的使用次数累计之和占到了系统中所有标签次数之和的99.73%。从第1组到第2组,每增加1%的标签数量,会导致标签累计次数增加20.56%;类似地,从第2组到第3组、第3组到第4组、第4组到第5组,标签数量每增加1%,相应的标签累计使用次数之和分别增加2.9%、0.52%、0.09%。从标签数量占比和标签使用次数占比来看,除去第3组标签,系统中剩余标签的总使用次数占比不到10%,第3组的标签基本能够满足“用最少的标签数量最多程度地代表所有标签”的条件。因此,为了最大限度地减小计算复杂度,选择第3组,即得到的4138个标签作为本文的研究数据。

本文关注的研究问题是:问题标签的特征是否会影响一个特定问题得到的评价。因此,将一个特定问题以及标记该问题的标签作为一个研究单元,在此研究单元内分别以问题的属性和标签的属性作为研究变量。通过表1中的4 138个标签来筛选相应的问题,将不包含这4138个标签的问题过滤掉。通过对数据进行清洗,包括删除无效问题、删除有空值的问题、删除变量不完整的问题等操作,最终得到了超过2510445组“问题—标签”对,作为本文的研究数据。

3相关变量测度

3.1问题价值变量

为了研究标签的特性是否会对问题的价值产生影响,本研究从问题质量方面对问题的价值进行了量化。在社会化问答社区Stack Overflow中,用户能够对每一个问题打分,问题的分数代表该问题受到其他用户的评价,能够反映该问题的质量。问题的得分较高,表明该问题具有价值,有更多的用户希望或已经从该问题中获取知识,因此用问题的得分来表示问题的质量。

问题得分的初始值为0,问题每得到一张赞成票,分数增加1,每得到一个反对票,分数减少1。该因变量可能是正整数,也可能是负整数。

3.2知识特征变量

标签是该问题包含和涉及的知识点的浓缩和外化表达。本文研究的影响因素主要是标签特征,分别从以下几个方面对于标签的特征进行测度:

3.2.1标签的大众化程度

标签在论坛中出现的频次,即有多少个问题使用了此标签,表明了标签的大众化程度。一个问题中包含多个标签,本文以一个问题及该问题包含的标签作为一个单元,取该问题下所有标签使用频次的均值,作为该问题中标签的使用频次。

3.2.2标签的关联程度

一个问题中包含多个标签,这些标签之间的关联性能够反映出问题所涉及的知识之间的关联性。为了测量该指标,使用逐点互信息法(PMI,Point-wise Mutual Information)来衡量标签之间的相关性。逐点互信息指标的基本原理是计算标签之间共同出现的概率,相比于关注标签共同出现的次数,关注共现概率能够避免由于标签本身出现频率差异而造成的误差。逐点互信息的计算公式为:

3.2.3标签的多样化程度

当标记一个问题的标签之间距离较远或标签来自不同的类群时,对于回答者来说,回答这类问题需要更加丰富的知识储备。为了验证假设3,通过测度标签的多样化程度来反映问题所包含的知识多样化程度。

首先,使用K-means聚类算法对4 138个目标标签进行分类。在此基础上,使用Stirling A提出的多样化分析框架,将多样化程度看作系统中元素的一种分配方式,多样化概念包含3种基本特性:多样性、均衡性、差异性,每一种特性都是系统多样化程度的必要但不充分条件,系统的多样化程度由这3种基本特性共同决定。3种基本特性的内涵如下:

1)多样性。指系统中元素所在的类群数量,即系统中有多少种元素,例如,在生态学中用物种数量来表示,在经济学中用产品类别数量表示。在其他条件相同的情况下,多样性指标越大,系统的多样化程度越大。

2)均衡性。指系统中的所有元素在各个类群中分布的均衡程度,即每个类群中分别包含了多少个系统元素,系统元素在每个类群中的占比可以用一组正分数来表示,这些正分数的和等于1。在其他条件都相同的情况下,系统元素在各个类群中的分布越均匀,系统的多样化程度越大。

3)差异性。指元素间被区分的程度,是对元素问差异的测度指标。该指标对于系统多样化程度的测度非常重要,因为元素间的差异化程度决定了系统中元素的分类,因此会直接影响多样化指标和均衡性指标。在生物学和经济学中,该指标通常基于某种形式的距离测量来表示。在其他条件都相同的情况下,元素间的差异化程度越大,系统的多样化程度也越大。

在综合考虑3种特性的基础上,系统的多样化程度D的测度公式为:

其中d表示系统中元素i和元素j的差异化程度,即差异性。在本研究中将标签作为系统元素,通过计算元素间的距离来表示元素间的差异。p和p分別是元素i和元素j在系统中所占的比例,即均衡性。对(N-N)/2对元素(i,j)构成的矩阵求和,反映出了多样性。

3.2.4标签的网络重要程度

知识在网络中的重要性对于其传播能力有很大的影响。为了验证假设4,用标签的网络中心性表示该知识的网络重要性。常用的网络中心性测度指标有3类:度中心性,表示与该节点直接相连的节点个数:中间中心性,表示网络中的一个节点控制其他节点交互的能力:接近中心性,表示网络中一个节点与其他节点的接近程度。

本研究中,知识传播的路径是通过用户节点而非标签节点,因此,知识的传播不涉及标签问的接近关系和控制关系,故计算标签的度中心性,即与该标签直接相连的标签数量,来表示标签在网络中的重要性。在指标计算时,通过计算一个问题下所有标签的度中心性均值,作为该问题的标签网络重要性指标。

3.3控制变量

在知識传播的过程中,知识传播的效果除了受到知识本身特性的影响之外,也会受到用户的影响。例如,在知识共享系统中,如果一个问题由一个系统声誉较高的用户提出,那么该问题可能更容易受到其他用户关注,并获得好评。此外,提出时间更久的问题,暴露在社区中的时间更长,也会受到更多的关注。为了控制这些因素的影响,本文设置了以下指标:

3.3.1用户声誉

作为一个高效的专业在线问答网站,Stack O-verflow通过声誉管理机制,根据用户在网站上发布内容的综合价值,给予用户声誉值作为奖惩,旨在鼓励用户普遍参与到社区活动中,并激励用户产生高质量的内容。表2展示了用户声誉的管理机制。

3.3.2用户被浏览次数

该指标表示用户在网站上发布的内容(包括提问和回答)被查看和访问的次数,一方面,与用户所发布内容的热门程度相关:另一方面,也能反映出该用户在网络中的地位。

3.3.3问题创建时间

相比于发布时间短的问题,较早发布的问题会得到更多的回应,这会增加问题的累计得分和答案数量。因此,选择2018年1月1日作为统一的时间节点,以秒为单位计算问题发布时间与该时间节点的时间差,作为控制变量。

4研究结果及分析

在进行数据分析前,由于用户声誉和用户的被浏览次数的离散程度过大,为了减小模型拟合时的误差,对这两个指标取对数。模型中变量的相关系数矩阵如表3所示。可以看出,自变量问的相关系数都比较小。此外,对模型进行方差膨胀因子检验,结果显示方差膨胀因子的平均值为1.368,说明变量间不存在多重共线性。

由于本研究的因变量是计数数据,因此计数模型进行回归分析。在计数模型中,泊松模型是使用范围最广的一种模型,该模型的假设条件是样本的均值约等于方差,基于此假设,对问题的得分进行了K-S假设检验,检验结果中显著性系数均小于0.05,拒绝原假设,可知该变量不符合泊松分布。从其分布情况可以看出,问题得分是过度离散的,因此选择负二项式回归模型较为合适。负二项式模型可以被认为是泊松模型的泛化,它具有与泊松回归模型相同的均值结果,且其具有额外的参数来对过度离散的数据进行建模,可以校正来自泊松模型的标准误差偏移。

表4展示了4个标签特征对问题得分的影响作用结果。模型1是只包含控制变量的基准模型,回归结果显示,3个控制变量的回归系数均显著,说明这3个变量对问题得分都有不同程度的影响作用。提问者的声誉与问题的得分呈正相关关系。在实际情况中,提问者的声誉越高,其在用户网络中的明星效应越明显,这类用户的网络影响力通常也较大,他们在社区发布的内容一般能够很快受到关注。另外,声誉较高也能够说明这些用户发布的内容质量较高,他们往往是社区中知识较为丰富的专家型用户,因此提出的问题一般更加专业和有价值。而与用户的声誉相反,用户的被浏览次数对问题的得分具有抑制作用。创建时间更长的问题得到的好评相对更多一些。

模型2~模型5在基准模型的基础上逐步加入了4个自变量。在模型2中,加入了标签使用频次的一次项和平方项来验证假设1。结果显示,标签使用频次的一次项系数为正且显著,其平方项系数为负且显著,表明标签使用频次与问题得分之间存在倒U形关系,即随着标签使用频次增加,问题得分呈现上升趋势,但当标签使用频次超过一定程度时,问题得分逐渐呈现下降趋势。

模型3、模型4分别对假设2、假设3进行了验证。可以看出,自变量标签距离的系数显著为正,而自变量标签多样性的系数不显著:表明标签距离有问题得分之间具有正相关关系,即一个问题下包含的标签相关性越高,该问题越有可能得到较高评价,假设2得到验证:而标签问的多样性程度对于问题得到的评价并没有明显的影响作用,假设3没有得到验证。

模型5中加入了标签网络中心性的一次项和平方项来验证假设4。结果显示一次项系数显著为正,二次项系数不显著:说明标签网络中心性与问题得分之间存在单调正相关关系,即标签在网络中越重要,该问题的得分越高,且随着标签网络中心性的增加,问题得分不会出现下降趋势。假设4仅得到部分验证。该结论说明,当一个问题在网络中处于核心位置时,表明该问题的连通性更强,是一个活跃的知识共享中心,具有较强的明星效应。对于活跃程度高的明星问题,用户更有可能从回答问题中获得潜在的利益,如声誉和互惠性的提高,因此对于该问题的评价也会越高。

为了对表4的回归结果进行进一步验证,采用逐步回归筛选并剔除不合适的自变量,结果如表5所示。从表5可以看出,在包含所有自变量的模型7中,标签多样性系数和标签网络中心度的平方项系数未通过显著性检验:通过逐步回归自动去掉标签网络中心度的平方项,逐步回归分析中止,得到当前最优的模型8:模型8中的自变量系数的显著性水平有所提高,但标签多样性的显著性水平仍然不理想,因此进一步进行逐步回归分析的优化:结果显示,去掉标签多样性后,AIC值增加幅度最小,因此得到去掉该自变量后的模型9,所有的变量系数均为显著。该结果进一步验证了表4中的模型6。

在前文中,通过观察标签使用频次一次项系数和平方项系数的方向及显著性,初步得出该自变量与因变量存在倒U形关系的结论。然而,Lind J T等指出,自变量系数的表现还不足以证明U形关系的存在。为了更加严格地验证对此关系进行验证,本文使用Lind J T等提出的U形关系三步法进行检验。

通过以上方法,得到自变量标签使用频次的回归系数结果如表6所示。

从结果中可以看出,自变量平方项的回归系数为正,且在p<0.001的水平上显著,满足检验条件1。从表6中可以得到拐点为x=357 617.6,分别对拐点左右两侧的数据进行线性回归,结果如表7所示。

从表7中可以看出,拐点两侧的线性回归结果满足检验条件2。拐点x=357 617.6的95%置信区间为[329 318.4,400 342.2],自变量的数据范围是[815.5,1 281518],显然拐点及其95%置信区间都在自变量的数据范围内,因此满足检验条件3。

经过检验,证明自变量标签使用频次和因变量问题得分之间存在倒U形关系,即问题得分随着标签使用频次的增加,呈现出先升后降的趋势。在一个在线问答系统中,标签是相关知识的代表和浓缩。标签的使用频次高,表示该类知识在系统中的受关注程度较高,即有较多用户提出了涉及该知识的问题,因此这类问题的解决能为系统用户提供较高的价值,更容易受到用户的认可;随着标签使用频次的增加,问题在系统中的曝光程度也逐渐增加,越来越多的用户评价会使问题得分呈现下降趋势。

5总结与讨论

社交媒体和网络技术的发展导致信息爆炸的现象越来越严重,网络平台充斥着大量良莠混杂的信息。对于知识共享平台来说,迫切需要明确什么样的内容更加能够得到用户的青睐,以便有价值的知识能够得到有效的传播和扩散。本文以社会化知识问答社区Stack Ovemow为平台,将研究重点放在问题本身的特征和所处的知识网络环境,分析问题质量的影响因素。研究发现,知识的大众化程度、知识的关联程度以及知识的明星效应都会对知识的受关注和扩散程度产生影响。其中,知识的大众化程度与问题质量呈倒U形关系,当知识之间的关系达到一个合适的值时,问题得到的评价最高:知识问的关联度越高,问题越容易获得较高的评价:问题中包含的知识在知识网络中与更多的知识点之间建立关系,该问题越容易获得高评价。

对于用户来说,本研究的结论能够更有效地指导提问者提出价值更高的问题,通过改变设置标签的技巧,使提出的问题具有更高的可见性和质量,提高其在社区中的声誉度。对于Staek Overflow这样的专业型在线知识共享平台而言,明确问题的传播和评价受到哪些因素影响,可以进一步帮助平台制定针对用户行为的奖惩机制,制定出更完善的平台运营机制。

然而,本研究仍然存在一些局限和不足之處。一方面,本研究的样本选取具有一定的局限性:Stack Ovemow是一个专业的IT技术问答网站,内容多集中在编程领域,具有较强的领域特征。在接下来的研究中,研究将扩展到其他类型的在线知识共享系统:另一方面,由于研究侧重于知识特征的影响作用,仅将用户因素作为控制变量,并没有深入分析用户和知识标签对问题的共同影响以及两者之间的互动机制。实际上,社会化知识共享平台区别于传统网络资源的一个重要特点,是其包含丰富的用户行为和用户关系,基于用户行为的系统研究是社会化网络环境下知识组织和知识管理的热点问题。如何同时从用户和知识两个维度出发,建立完整、全面的社会化标注知识共享模型和动态演化机制,是有待继续深入研究的。

猜你喜欢
标签程度用户
精致和严谨程度让人惊叹 Sonus Faber(意大利势霸)PALLADIO(帕拉迪奥)PW-562/PC-562
无惧标签 Alfa Romeo Giulia 200HP
不害怕撕掉标签的人,都活出了真正的漂亮
关注用户
关注用户
标签化伤害了谁
关注用户
基于多进制查询树的多标签识别方法
如何获取一亿海外用户
断裂对油气富集程度的控制作用