互联网环境下失真健康信息研究进展

2023-11-01 03:48朱庆华陈琼陆冬梅王雷宋士杰赵宇翔赵月华
情报学报 2023年9期
关键词:社交特征算法

朱庆华,陈琼,陆冬梅,王雷,宋士杰,赵宇翔,赵月华

(1. 南京大学信息管理学院,南京 210023;2. 河海大学商学院,南京 211100)

0 引 言

近年来,互联网环境下失真健康信息(health misinformation)现象引起业内学者们的广泛关注。失真健康信息可以被定义为与现有客观科学证据存在偏差,对信息接收者主观感知造成误导的各类健康信息[1-2]。在新型冠状病毒肺炎(corona virus dis‐ease 2019,COVID-19)疫情爆发初期,大量有关疫情的失真信息在互联网迅速传播,混淆公众视野,误导公众对疫情防治的认知,导致恐慌情绪的蔓延[3]。例如,有关某药品能够预防新冠病毒的失真信息一出现,微博相关话题迅速登上热搜,引发群众不顾疫情期间居家隔离的规定出门疯狂抢购该药品,严重影响疫情防控的正常进行。失真健康信息的主要危害在于其误导性,混淆公众对科学健康信息的判断。公众可能轻信失真健康信息中的内容与观点,进而采取错误的健康决策与行为。

当前互联网环境中,以微博、微信等为代表的社交媒体已经成为健康信息传播的主要渠道。社交媒体的兴起极大地改变了传统的健康信息发布和传播模式,公众在快速、便捷地获取海量健康信息资源的同时,也面临来自新的传播环境的挑战,失真健康信息是其中最为棘手的问题之一。互联网环境下失真健康信息的传播更加迅速、广泛和深入[4],扩大了失真健康信息的危害。与此同时,目前互联网监管难以面面俱到,谣言和虚假信息更容易被创造和传播。社交媒体中信息过载和碎片化特征使得用户难以系统性地全面判断和把握信息的质量[1,5];另外,社交媒体容易依据用户特征形成小的社群[6],这导致不同观点的信息无法流动,形成信息孤岛。因此,互联网环境下失真健康信息传播不仅威胁公共卫生管理,阻碍健康信息资源有效传播,还不利于健康政策落实,遏制健康产业创新,甚至影响数字健康经济的发展。

因此,本研究在获取国内外互联网环境下失真健康信息相关研究论文的基础上,构建失真健康信息研究框架。首先,界定失真健康信息的概念内涵并筛选文献进行计量分析;其次,从失真健康信息的传播、失真健康信息的识别以及失真健康信息的干预3个方面进行文献述评;最后,归纳总结互联网环境下失真健康信息研究的不足和未来展望,以期推动失真健康信息传播机制与协同治理方案的研究,促进互联网健康信息生态环境的优化。

1 研究设计

1.1 概念内涵

失真信息一般是指错误的、不准确的信息[7]。失真健康信息则是指信息内容上与健康相关的失真信息。基于信息概念框架,Nyhan等[8]融入个体认知特征,将失真信息定义为“个体相信尚未得到明确科学证据和专家意见支持的信息”。失真信息首先强调客观内容上的错误和不准确,与现有的科学知识相违背;从接收者的维度上看,它还强调个体认为错误信息在解决特定问题上是有用并且适用的。

在现有研究中,伪信息(disinformation/fake news)和谣言(rumor)同样是表达客观内容不准确的概念,虽然在部分情境下可以替代使用,但在概念内涵和实际研究侧重点上存在区别。失真信息与伪信息虽然都是指信息内容上与客观事实存在偏差,但伪信息侧重强调故意创造和传播以造成伤害的意图,常见的伪信息有新闻讽刺、新闻模仿、事实捏造、广告和宣传等[9]。而失真信息不强调信息来源的意图,它也有可能是正确信息在传播过程中由信息解构和重组、部分信息丢失、外围噪音等因素导致的信息失真[1,10]。谣言更容易被证伪,时效性较短[11],对个体产生的深层次影响较为有限,一般侧重于研究谣言传播带来的群体性效应[12],但是失真信息由于客观上的不准确性,对个体的认知、心理、信念和情感都有可能产生深远的影响[13]。

1.2 文献来源

本研究将对互联网环境下失真健康信息相关研究进行文献检索和筛选(图1)。在Web of Science(WoS)上根据关键词“health misinformation”进行搜索,发表时间截至2022年12月31日,选择核心数据集并剔除会议、报告类文献,共得到文献134篇。然后,基于摘要和标题对内容进行筛选,剔除明显不是信息学领域的论文、与失真健康信息无关的论文、时间过早难以追溯原文的论文后,最终以98篇英文文献作为主要研究对象。在中国知网核心期刊中检索关键词、主题为“失真健康信息”“虚假健康信息”“伪健康信息”,筛除与研究领域无关的论文、与失真健康信息无关的论文、编者前言等非研究型论文以及重复性文章,最后得到25篇文献。

图1 失真健康信息文献来源筛选过程

1.3 计量分析与研究框架

针对筛选出来的文献进行简单的计量分析,如图2所示,互联网环境下失真健康信息研究逐年增加,且在2021—2022年数量上呈现井喷式增长,成为健康信息学领域的新兴研究主题。

图2 各年国内外失真健康信息文献数量变化

基于Ho等[14]对疫情期间失真健康信息研究的问题梳理,可以概括为以下几个方面:①失真健康信息的传播问题,信息是怎么传播的,为什么会产生并得到广泛的传播;②失真健康信息的识别问题,为什么健康问题中的失真信息更难被识别,如何从根源上更快过滤失真信息;③失真健康信息的干预问题,自动化的干预、人为教育的干预都是受到关注的话题。因此,本研究也将传播、识别和干预作为三大核心主题并进行文献的梳理。表1是已有文献中不同主题的分布情况。

表1 各主题失真健康信息文献分布

2 失真健康信息的传播

信息传播包含三要素,分别为信息来源、信息内容以及信息接收者[9],三者在信息创建、生产、分发并且再次生产分发的循环过程中发挥不同的作用。本节分别从3个维度出发梳理失真健康信息传播的影响因素,基于三要素对现有失真健康信息传播的影响因素进行梳理,结果如表2所示。

表2 失真健康信息传播的影响因素

2.1 信息来源

信息来源是参与创建和生产失真健康信息的行动者,其主动发送信息,并且继续参与信息分发和再生产过程。认识社交媒体上主动发布失真健康信息的主体,探究创造并生产社交媒体失真健康信息的动机以及信息来源方如何在整个信息链中发挥作用,可以帮助研究人员从信息链上游解决失真信息的传播问题。

失真健康信息来源可以是非官方的个人用户[10],他们可能具有相关的经验或知识背景。例如,越来越多的患者开始积极在社交媒体平台中分享自己的亲身经历或者解答其他类似疾病患者的困惑,逐渐模糊权威和经验的界限,他们可能会表达一些并不科学的见解,导致失真信息进一步扩散。这些患者并不是有意传达错误的经验,但是囿于自身知识水平难免会有一些偏见,而这种看似真实的偏见往往可能令人信服。社交网络中还存在许多伪科学家,他们在社交媒体将自己包装成为医学专业人才并获得大量关注,从而进行失真健康信息的生产和传播。社交媒体中的社交机器人(social bots)也是失真信息来源传播中的研究对象之一。例如,研究人员对机器账号在社交媒体上的信息表述特征进行分析[15],研究它们是如何影响疫苗接种信息的传播等[16]。

除了个人用户,一些看似权威的网站、出版物也是导致失真健康信息传播的重要源头。例如,掠夺性期刊(predatory journals)借用科学期刊的可信度,专注于接受尽可能多的论文,而不是着重筛选论文质量,鱼龙混杂的期刊论文成为低质内容传播的重要来源[17]。受部分组织资助的健康网站可能在利益驱使下发布诱导性的言论,如酒精工业组织赞助的健康网站会发布酒精有利于健康的论述[18]。

2.2 信息内容

探究失真健康信息内容特征是治理其传播的重要一环,早期有关失真健康信息研究主要集中于此,寻找失真健康信息的共性特征。一方面,结合主题、语言、情感、用户行为等特征构建识别模型,以优化失真健康信息的识别和过滤[19];另一方面,基于实证方法研究失真健康信息特征对用户认知、信息行为的影响[20]。

(1)语言表述。失真健康信息表现出更高的确定性,并在标题中包含更多的陈述句、更多的情感诉求、更少的范例和更少的可信来源[21-22]。大多数情况下,失真健康信息的表述方式更容易被理解,情感冲击力强,更容易引起社交媒体用户的负面情绪。当人们感到信任缺失、恐惧和怀疑时,更容易受到失真信息的影响,如果此时失真信息获得信任就很难纠正。除此之外,整体上积极型的信息表征框架[1]、精细化的叙事内容[23]也更容易促进用户对失真健康信息的信任。值得注意的是,有研究表明失真健康信息的传播程度和情感词的使用无关,包含积极情绪词更可能被分享和评论[22]。

(2)主题特征。不同健康主题下失真健康信息的传播特征也有所不同。已有研究中以流行传染病(如新冠肺炎、SARS病毒等[24-26])、癌症相关的慢性病、疫苗接种为代表进行探索[27-28]。解决的问题包括:①互联网环境下什么主题的失真健康信息占比较高。如基于描述性分析,研究发现与预防和治疗方法相关的、与日常生活相关的失真健康信息在社交媒体上占比最高[29]。②互联网环境下特定健康主题的失真健康信息的传播特征。有研究表明在推特(Twitter)和脸书(Facebook)上新冠肺炎相关的帖子传播失真信息的概率相较于其他健康主题更小[30],而且随着疫情爆发,失真信息的整体含量比前一年预期的少。

(3)图像特征。除了文本类型的失真健康信息,有学者开始从图像维度探究失真健康信息的传播。随着各类以图片、视频分享为主体的社交媒体,如INS(instagram)、TikTok、小红书和抖音的流行,包含图像的失真健康信息开始具有更强大的影响力,可能通过情感作用提升说服力[31]。You‐Tube上有关癌症的失真信息相关内容的观看数和点赞数反而多于科学性内容[32],Zhou等[33]发现引人注目的标题和情绪化的图像会误导老年人对失真健康信息的判断,实验表明,被试者仅成功判断了41.38%的失真健康信息。这意味着包含图像的失真健康信息更容易被理解或获取,因此,它们更容易在社交媒体平台上传播。

2.3 信息接收者

本节主要是从信息接收方的角度探讨哪些因素会对社交媒体用户参与失真健康信息传播行为产生影响,促进社交媒体失真健康信息的传播。现有研究可以分为微观视角和宏观视角,前者是从个体层面研究个体对失真健康信息甄别和传播行为的影响因素,后者则是从群体层面分析社交网络用户的群体特征,基于心理学理论和网络理论解释社交媒体平台失真健康信息传播机制。

(1)人口统计学因素。种族、年龄、受教育水平、性别等均与失真健康信息的传播密切相关,例如,老年人[33]、教育水平低[34]、美国少数种族群体[35-36]、非洲人[37]等均被认为是失真信息的主要受害者,是学者研究的重要对象。国内研究发现,男性、年龄较高以及受教育水平较低会促进对失真健康信息的信任[1]。已有研究主要在探索什么样的统计学特征更容易受到失真健康信息影响,但对于特定群体的深入探索还不足。

(2)健康素养。健康素养是指个体获得、处理与理解基本健康信息与服务的能力[38]。具体而言,包括与健康相关的固有认知和知识技能、对健康信息进行阅读和理解的能力、整合健康信息做出健康决策的能力等。由于健康信息非常个人化,人们往往会无意识地自动选择确认符合其先前观点的信息,因此,人们受到失真健康信息的影响程度取决于个体对主题的了解程度[39]。缺乏知识或技能、对医疗保健系统不信任、对替代医学持积极态度的个体往往更容易受到健康失真信息的影响[40]。研究表明,个体健康素养的提升可以帮助用户甄别失真健康信息[1,5,7]。

(3)技术熟练程度。在技术熟练程度特征中,用户的“信息素养”在评估网站可信度以及评价网站结构、信息特征方面发挥了重要作用。用户能够使用信息工具和资源获取信息、识别信息、加工信息、传播信息。McMillan等[41]研究发现,经常使用在线资源的“健康技术专家”对检索出的健康信息更信任,而较少使用互联网的“健康传统主义者”对网络健康信息的信任度较低。不同媒体平台发布的健康信息会影响用户的可信度判断。Ma等[42]研究表明,当健康信息在不同媒体平台发布时,可信度有所不同,用户在网站、博客以及论坛上采用不同策略来判断信息源,从而找到可信健康信息,用户越依赖某个信息源,越有可能判断该信息源提供的信息是可信的。

(4)情感与信任。信息社会将人们的注意力视为优先的资源,而情绪化的内容通常起到吸引注意力的作用,从而对外界信息的处理产生负面影响。失真健康信息的大范围传播并不是因为其内容低质,而是因为它有极强的心理吸引力。例如,引起威胁、厌恶或社会关系,从而刺激用户对其做出反应[43]。健康焦虑、错误的健康信念均会正向影响用户对失真健康信息的信任程度[44-45]。基于O-S-O-R(organism-stimuli-organism-response)模型,学者研究发现对于新冠肺炎疫情的担忧加剧了社交媒体信息过载,导致社交媒体疲劳,这可能阻碍用户对健康信息真实性的核查[46]。尤其是对于倾向于相信失真健康信息的用户而言,不愉快的、消极的信息搜寻体验会减少用户认真思考外界信息的真实性[47]。在鱼龙混杂的健康信息中,感知来源可信度对感知信息可信度具有显著的正向影响[48],Wu等[49]探究了数字媒体依赖对失真健康信息信念的影响,结果表明对社交媒体和替代健康媒体的依赖更容易使人相信失真健康信息。

(5)网络特征。失真健康信息在大规模扩散过程中呈现一定规律的网络特征,现有研究主要是基于网络理论考察失真信息传播的群体效应,通过数学建模、社会网络分析等方式模拟和研究失真信息在社交媒体传播的社会机制。确认偏误(confirma‐tion bias)是指用户对事实问题的看法会受到预先认知的强烈影响,并且寻找可以确认其能够证明预先认知的证据以验证自己的预先认知[49-50],群体确认偏误下导致的选择性接触行为会形成同质群体,即具有类似信念、观点的个体会在社交网络中聚集在一起,成为一个小社区。这种现象在互联网的推荐机制下更为凸显,暴露出一些潜在危害。例如,基于YouTube推荐算法构建视频网络结构,探究是否存在特定的社区主题在推荐更多的失真健康信息,如反疫苗接种内容[51-52]。同样的问题也存在于亚马逊的图书推荐中,研究人员讨论了盲目将商业化推荐算法应用于复杂的健康信息中的潜在后果[53]。社交媒体上的信息获取是一种迎合用户偏好的协同过滤机制,用户与用户之间交换不同观点的可能性会被进一步降低,增加了在封闭网络中放大失真信息的风险[54]。Safarnejad等[55-56]基于推文的转发数据推测失真健康信息的传播网络,并提取了9个网络指标用于预测失真健康信息的传播。研究发现,社交网络中围绕阴谋和科学主题存在着2个形成良好且高度隔离的社区[57]。Seymour等[58]发现Facebook上反对在饮用水中添加氟化物的激进分子间形成的人际网络高度互联。Nazar等[59]探究了一个新冠肺炎疫情相关的误导视频在推特上进行传播的社区结构和交流模式,研究发现该视频通过指导低影响力用户大规模分享,有效破坏了错误信息的封锁。通过探究接收群体的网络特征有助于深入了解失真健康信息大规模传播现象,并为失真健康信息的治理提供新的思路。

3 失真健康信息的识别

大数据、人工智能时代的到来激化了人们日益增长的信息需求与日趋困难的可信度识别之间的矛盾[60],对失真健康信息识别和判断的研究更加显得重要和迫切。为克服用户评估健康信息可信度的主观性,研究者将算法技术与医学知识相结合以设计健康信息可信度的自动评估算法。在医学领域,专家通过循证医学(evidence-based medicine,EBM)来确定健康信息的可信度,循证医学是一种基于当前最佳证据、临床专业知识和患者需求的系统评估健康信息的方法[61]。Samuel等[62]将循证医学与自动化计算结合开发了MedFact算法,该算法从社交媒体文章中提取与健康相关的未知短语,通过查询可信的医学知识数据库获得可信短语,然后训练卷积神经网络(convolutional neural network,CNN)计算与健康相关的未知短语和可信短语之间的一致性评分,以此评估健康信息的准确性。与此类似的还有Park[63]提出的HealthTrust系统,基于一组已知可信的健康网站自动评估在线健康信息的可信度。但可信的医学信息之间可能偶尔包含矛盾的事实,有待进一步优化彼此间的协议[62]。

为了在信息传播的早期阶段迅速识别出失真健康信息,许多研究设计了能够有效自动识别失真健康信息的模型。在失真信息检测算法中,基于特征的算法依靠不同类型的信息特征来区分真假信息[64],基于图的算法通过目标群体的传播协调来检测失真信息[65],而基于模型的算法则是在信息传播模型的基础上仿真信息传播模式[66]。其中,被用于失真健康信息识别中最多的是基于特征的算法[67],大多数识别模型依赖于从信息中生成相关特征来帮助区分真假信息,通过分析数据集提取出信息特征,运用各种分类算法构建失真健康信息识别模型,具体如表3所示。

表3 失真健康信息自动识别模型研究汇总表

在失真健康信息识别模型研究中,研究者通常使用网络平台内真实的数据作为数据集,以此来提供一个真实的数据分析场景。通常选用的数据集有微博[72]、微信[72]、贴吧[19]、Twitter[67,69-71]、YouTube[74]、snopes.com[73]等平台网站上与健康相关的文章、评论、视频等数据资料。目前能够用于评估失真健康信息的公开可用数据集不多,考虑到能够从数据集中提取网页原始HTML(hyper text markup lan‐guage)格式,有研究使用微软可信度数据集、医疗网络可靠性语料库、CLEF eHealth 2020 task-2数据集比较评估模型有效性[79]。

失真健康信息的特征是基于特征的识别模型的分析基础,许多研究者将从网络上收集的数据信息经过人工标注后进行特征分析。内容分析法被广泛用于分析社交媒体上健康错误信息的内容和传播特征[73]。张帅[80]按照开放式编码、主轴编码和选择式编码对失真健康信息进行编码分析,融合和聚类为表面特征、语义特征和来源特征3个维度。Zhao等[19]通过编码分析对数据集进行分解、检查、比较、概念化和分类,完成对文本数据组织和理解以便提取信息特征。Li等[81]对微信中的健康信息进行了真、假健康信息分类,并利用卡方检验识别出微信中失真健康信息的显著特征。现有研究中提取出的信息特征主要有语言特征[19,68,70,72-77]、用户特征[67,72]、行为特征[19,67,71,76]以及声学特征[74]等。其中,语言特征包括LIWC(linguistic inquiry and word count)特征、n-grams特征、情感特征、特定词频特征、某些标点或特殊词的频率等。在不同的数据集中选用不同特征对识别在线失真健康信息会存在有效性差异[82]。

基于提取出来的信息特征,不同的研究通常选择使用不同的技术算法构建失真健康识别模型,研究者常采用的算法有随机森林(RF)[67-68]、支持向量机(SVM)[19,70-72,74-78]、随机梯度下降(SGD)[75]、逻辑回归(LR)[19,70,77]、k最近邻(kNN)[19,72]、卷积神经网络(CNN)[77]、多层感知器(MLP)[70]、长短期记忆网络(LSTM)[75,78]等。例如,Sicilia等[67]开发的检测系统专注于Twitter上与寨卡病毒有关的失真健康信息,利用随机森林分类器对实际数据集进行测试的准确率达到71.4%。Hou等[74]的研究自动检测了YouTube视频中的失真健康信息,他们采用基于SVM开发的失真健康检测模型的准确率高达74.4%。此外,在同一研究中不同的算法模型会有不同的表现,研究者通常进行比较后选择最优的算法。在Zhao等[19]的研究中,RF模型具有比其他模型更高的性能,且时间和空间消耗更低。Deb等[70]认为卷积滤波器能够提取局部特征和捕捉单词之间的相似性,基于字符的卷积神经网络(Char-CNN)的特性适合用于推文场景下的失真健康信息检测模型。

各类识别算法主要是将互联网上失真健康信息的特征纳入考量,大多数研究都选择提取信息的语言特征。健康信息可信度评估算法的目的是实现自动化评估,但大多数算法的开发研究在实际使用场景中的效用还未知,且鲜有对于算法的实际含义以及潜在的伦理问题进行讨论。此外,在大数据时代,存在失真健康信息更新速度和传播模式变化的各种可能性,可信度评估算法中也应考虑到模型更新的问题[83]。

4 失真健康信息的干预

大量未经核实的健康信息易在线获得,学者们探索了基于网络的在线健康检索系统改进和优化的可能性,检测和减缓失真健康信息在网上的快速传播。相关研究已拓展至社会计算领域,借助算法预测和识别可能发布或传播失真健康信息的用户,并采取干预措施来屏蔽失真信息,积极向用户推荐可靠的健康信息和受信任的信息平台。

4.1 干预措施手段

用户是构成失真健康信息传播路径中的节点,在失真健康信息传播网络中扮演着重要角色,对其是否可能发布或进一步传播失真信息进行主动识别,干预被识别为传播节点的用户所传播的失真健康信息,从而有助于遏制虚假信息的传播。目前,少部分健康相关的低可信度网页拥有大量用户,但在整体上低可信度网页比其他网页的用户更少[84]。在用户接触到失真信息之前检测出潜在的传播者,以提高用户自身的警惕性以及避免对其他用户产生误导性的传播影响。Ghenai等[85]以用户为中心构建识别模型,基于逻辑回归算法的分类器识别出社交媒体中倾向于传播此类失真信息的用户。朱宏淼等[86]计算出失真健康信息传播者阈值,建议可根据传播初期的传播者数量对失真健康信息的扩散度进行预测。失真健康信息的传播网络不同于真实信息的传播网络,Safarnejad等[55-56]将失真健康信息与各种指标的真实信息进行对比,构建了寨卡病毒流行期间寨卡病毒失真信息在社交媒体上扩散的实际动态传播网络,该扩散模式反映出失真健康信息传播动态的时间顺序变化,失真健康信息传播直接在用户之间或小集群之间传播,有别于真实信息遵循的分层传播。在信息的传播网络中对失真健康信息传播者追踪有益于政府机构监测社交媒体上的言论,确定当前健康信息传播策略的缺陷,在造成严重危害之前发现失真健康信息。

针对用户发出的信息检索需求,对现有数据的准确性、相关性和可靠性进行分析评估后,将满足用户需求的可靠健康信息进行推荐和排序,实现健康信息的优化推送。研究者提出的MedFact算法[62]能够自动从在线讨论中提取相关关键词,查询可信的医学文献后将可信的医疗信息嵌入讨论中以实现内容推荐,使在线用户能够对在线健康信息的可信度做出明智的决定。Deb等[70]设计的社交机器人Notobot采用Char-CNN算法实现为用户推荐与反吸烟高度相关的信息,Notobot能够成功分析出目标推文,并在用户提到时发布推文。Shams等[87]提出的搜索引擎扩展程序SEMiNExt能够从搜索栏中读取用户查询,对查询到的健康信息进行分类,并实时向用户通知结果的真实性。该拓展程序集成了自然语言处理和机器学习算法,在训练中实现高准确度的预测。Pandey等[88]开发的WashKaro应用程序使用AI(artificial intelligence)将健康信息与WHO(World Health Organization)建议的准确信息进行匹配,并通过聊天机器人系统用可理解的当地语言为用户提供准确的健康信息,减少失真健康信息的传播,进而改善健康信息的传递。这样的算法可以有效地减少网上失真信息的传播,但信息内容的自由流通可能受到威胁,而所提出的算法在现实场景运用中可能不够准确或无效[52-53]。

4.2 传播过程干预

互联网失真健康信息的传播过程中通常会涉及不同个体,如在社交媒体上主动发布失真健康信息的用户以及接收这些信息的用户。不同用户之间存在健康信息素养差异,失真健康信息传播的受害者主要是健康信息素养较低的群体。阮智慧等[89]基于SIRS(susceptible, infected, recovered, susceptible)模型构建了失真健康信息传播的系统动力学模型,分析表明用户健康信息素养水平越高,则识别失真健康信息的能力越强,从而减少了失真健康信息的转发。目前全球范围内存在较大比例的人口数字卫生知识普及程度低,直接导致了有关COVID-19的失真健康信息的传播以及破坏性影响的产生[90]。健康素养教育通过增强用户的健康信息素养以提升其评估在线健康信息可信度的能力[83],主要开展形式为讲座[91],在社区、学校、图书馆等举办与公众进行面对面指导的讲座。例如,图书馆可提供各类健康信息服务以促进健康信息素养的提升[92-93],但受限于数据和技术以及服务针对性、即时性的不足,健康信息服务的能力和效果难与政务、企业信息服务主体相比[94]。此外,在线学习项目[95]帮助用户获得在线健康信息的使用、沟通和搜索等技能,也是提高用户健康信息素养的有效方式之一。提高用户健康信息素养和健康知识吸收涉及多方主体,亟待多方协同制定向公众传播健康知识的有效策略。

健康信息传播需要由专业人士创造高质量的健康信息,媒体将其准确地传达给公众[5]。社交媒体上传播的健康信息应该是可读的、可理解的、相关的、一致的、明确的和可信的[96-97]。医生群体、卫生机构和科学家等专业群体利用专业知识来创建和认证更可靠的、用户可访问的在线健康信息[24,98],增加在社交媒体上与公众进行交流的次数,以及与媒体开展更紧密的合作提高健康信息的准确性和科学性[5]。斯坦福全球健康媒体奖学金项目通过在科学写作和医学新闻艺术方面培训医疗保健专业人员,让更多的卫生保健专业人员制作和分享准确的健康信息以提高健康素养[99]。有研究通过短期教育课程教授医学生健康传播基础知识,提升他们通过大众媒体与非专业受众交流的舒适度和感知能力,增加他们公开传播正确健康信息的可能性[100]。医学期刊在征集和发表关于失真健康信息研究的稿件外,在控制传播方面可纳入寻找失真健康信息提供者的工作[101]。媒体平台在健康类信息的转述和审核上要提高语言表达的准确性,谨慎对待新闻标题的微小变化以及在正文中加上明确的因果关系说明,提高后续新闻标题和报道的准确性[102],减少健康信息在社交媒体中被夸大或歪曲的现象。

4.3 信息内容纠偏

健康信息传播者通过及时发布纠正性的信息,增加与用户的沟通,可以让用户及时感知到健康信息的失真,重新接收到科学、真实、准确的健康信息。尤其是在公共卫生事件危机中,纠正信息能够满足公众对可信信息和有效沟通的迫切需求[103],从而塑造人们对公共卫生的正确理解。纠正信息特征方面,纠正性信息的具体证据表述应该简短且注重事实的传达[104],过多地强调被纠正的内容反而会增加误解。为实施纠偏行为而把失真健康信息本身纳入纠正性信息,人们很可能只记得信息本身进而产生熟悉效应,在这种效应下的失真信息反而容易获得人们的信任,强化失真健康信息[105]。纠正信息来源方面,专家来源(包括政府、卫生机构)、新闻媒体和社交媒体用户可以纠正有关公众卫生问题的失真信息[29,106-110],并增加所有健康信息传播者的纠正频率[5]。纠正方式方面,医疗保健专业人员在纠正社交媒体上的失真健康信息时,大多首选公开性的纠正方式[111],社交媒体用户在Facebook发布或评论纠正性健康信息的社交性纠正与算法纠正同样有效[112]。由于微信朋友圈的用户之间存在较高的信任感,与在Facebook、推特上的纠正相比,用户在微信朋友圈纠正更为容易[113]。MacFarlane等[114]的研究将基于卫生当局材料的初步纠正与基于最佳实践建议的强化纠正进行对比,发现强化纠正的方式在遏制虚假信息宣传方面更为有效,失真健康信息文章后面跟着一篇纠正文章,非简单地指出失真健康信息文章缺乏证据,而是让读者注意失真健康信息文章中的欺骗性和误导性并解释其中的欺骗原理。值得注意的是,用户浏览过失真健康信息会降低个人信息素养及其对社会价值的认知,失真健康信息纠正后仍可能产生负面影响,如出现两极分化的情况,失真健康信息的纠正效果降低[115],或加剧社会分裂的风险,使持有相反观点的人更加疏远真实健康信息[116]。此外,对失真信息进行多次纠正并不一定能产生好的效果,如在疾病预防控制中心已经纠正失真健康信息之后,其他传播者进行第二次不同的纠正可能会产生适得其反的效果[8]。

5 研究展望

通过上述对文献的梳理和归纳分析,可以较为全面、系统地了解失真健康信息目前的研究进展。随着互联网信息传播技术和传播环境的不断变化,失真健康信息还存在如下的研究空间。

(1)失真健康信息对老年人群体的影响研究。由于老年人健康素养相对较低,对健康类信息又特别关注,更容易频繁接触并相信失真健康信息,也更愿意分享失真健康信息,因此,老年人群体中的失真健康信息更值得关注。一方面,已有研究主要是将年龄、性别等人口统计学因素作为失真健康信息可信度的关联项进行研究,对于特定群体的聚焦程度还不够,只有少数学者开始以老年人作为研究对象,探讨失真健康信息如何获取他们的信任[33]。另一方面,现有研究中对于失真健康信息危害的影响研究较少,大多停留在论述层面,即可能误导用户做出错误的健康行为,如相信新冠肺炎疫情阴谋论会导致用户不采取流感保护行为[117]。也有研究提出相反的意见,认为实际上失真健康信息的危害并没有想象中严重,因为用户并不倾向于对这些信息进行互动[43]。因此,失真健康信息-认知-行为的影响逻辑缺乏充分的论证。老年人经常会做出错误的健康行为,如使用替代性疗法、购买无用的保健品、盲目分享失真健康信息、抗拒注射疫苗等,在这些行为背后,失真健康信息及其特征是如何影响的,是否和年轻人群体存在不同,这都需要研究人员采取更多实证研究予以探索。未来可以采取问卷调研、对比实验等方法,尝试解决:①老年人群体的哪些健康决策受到互联网失真健康信息的影响;②什么样的失真健康信息来源和内容特征导致了这样的影响;③老年人的失真健康信息分享行为和年轻人有什么区别,是否存在特殊的传播机制等问题。

(2)扩展视觉类失真健康信息的传播研究。研究表明,YouTube上许多误导性的视频受到很大的欢迎,如误导性的支持厌食症的视频[118],相反地,来源于官方媒体的科普视频,如急性心肌梗死的视频,并不受关注[119]。这些不科学的科普视频有更多的评论、点赞和分享行为,因此,包含图像、视频的视觉类失真健康信息研究是值得重点关注的话题之一。现有失真健康信息研究中,大多以文本信息作为样本进行研究,视觉类型的失真健康信息受到的关注较少。视觉类型信息更加复杂,并且包含文本、音频等附加信息,如何识别并过滤此类失真信息是一个值得关注的难题。首先,针对视觉类失真健康信息的识别,可以通过多模态技术提取这类视频的图像特征,也可以通过提取视频的文本信息和用户行为特征,采取机器学习方法进行过滤。其次,需进一步研究视觉失真健康信息的核心触及人群有哪些,什么样的特征更容易使其被诱导,需要进一步了解人们如何遇到视觉失真信息,以及是否存在数字鸿沟的问题。另外,个体在接触到视觉失真健康信息后,如何改变其认知和后续分享行为,可以借助视觉观测仪器,如眼动仪,进行深入研究,为解决视觉失真健康信息问题提供行之有效的建议。

(3)失真健康信息特征的识别研究。基于用户个人判断的失真健康信息识别在一定程度上具有主观性、片面性,越来越多聚焦算法的评估与识别研究以客观标准来实现为用户自动提供信息甄别帮助的功能。目前,基于特征的算法在失真健康信息识别算法中占据主流,其挖掘出的主要特征是针对文本类失真健康信息,如信息的语言特征。未来可以采用更多的方法探索其他特征,并结合不同的分类算法构建更有效自动识别失真健康信息的模型。由于学者们通常针对主流语言文化地区的失真健康信息展开研究,少有资源支持需要特定方案才能实现准确翻译和分类的非主流语言地区失真健康信息的识别研究[78],亟待相关的数据集开发、信息特征提取和算法构建研究。但无论哪种语言文化,语言表述中常包含与地域文化相关的修辞手法或随时代发展而产生的网络用语等,这也是当前算法还未完全学习训练、有待改进更新的部分,算法识别的准确性在这方面还有较大提升空间。此外,视觉类信息在网络上无处不在,视觉内容的覆盖面和影响力不逊于文本内容,且容易吸引用户的注意力,越来越多的用户选择从视觉类健康信息中获取所需信息以进行健康决策,而夹杂在视觉信息中的失真健康信息会威胁公众健康,针对视觉类失真健康信息的特征识别有待深入探究。

(4)失真健康信息协同干预的治理研究。失真健康信息的治理过程所采用的各种干预手段,大多都需要多主体的共同参与。算法模型提供失真健康信息识别、干预的技术支撑,机构加强健康信息的准确传播、有效监管、精准纠偏,公众提升自身的健康信息素养和对信息真实性的判断能力,共同应对失真健康信息带来的负面影响。目前,对失真健康信息的干预主要是依赖专业人员和权威机构的力量,少量研究基于算法技术实现自动跟踪的集成,通过社会计算实验模拟失真健康信息传播网络[55-56],但仅基于构建的传播网络而未完成强制干预措施,如将失真健康信息的传播用户从传播网络中剔除、有效打断或终止传播路径,这些干预方式在失真健康信息治理领域值得讨论。在失真健康信息传播事后治理方面,纠偏是公共部门使用频率最高的干预方式,通常是由专业人员和权威机构等发布纠正信息,让公众接收到科学、真实、准确的健康信息,但失真健康信息和纠正信息之间的时间间隔以及纠正信息的曝光时间对纠正效果程度的影响还需要进一步明确,未来也需要讨论不同群体间文化、态度、信任的差异,将干预策略的道德约束与法律监管考虑在内,协同更多主体参与到失真健康信息治理中。

猜你喜欢
社交特征算法
社交之城
社交牛人症该怎么治
社交距离
如何表达“特征”
基于MapReduce的改进Eclat算法
Travellng thg World Full—time for Rree
不忠诚的四个特征
进位加法的两种算法
你回避社交,真不是因为内向
抓住特征巧观察