共建共治共享视域下不同智能程度聊天机器人的效果评估

2024-03-19 04:05施骞SHIQian周颖ZHOUYing
价值工程 2024年6期
关键词:程度公众检验

施骞 SHI Qian;周颖 ZHOU Ying

(同济大学经济与管理学院,上海 201800)

0 引言

党的二十大报告提出,健全共建共治共享的社会治理制度,建设人人有责、人人尽责、人人享有的社会治理共同体。社会治理主要目的是为广大人民群众谋取幸福美好的生活,其中公众既是治理主体,也是治理客体。但我国基层社会治理尚存在一些参与不积极的现象,这既是因为公众责任感和价值观不同,也因为缺乏相应渠道和机制。

在以人工智能为代表的技术加速应用的大背景下,推动社会治理智能化发展是必然趋势。党的二十大报告中部署了打造智慧城市、完善信息化支撑的基层治理平台等任务[1]。社会治理智能化是指将现代智能技术与社会治理相结合,形成以智能技术为支撑,集合多元治理诉求、整合多方治理资源、促进多元主体参与、打造多元治理平台、满足多元主体需求、提升多元主体信息处理能力的一种社会治理手段[2]。目前已经出现了通过“一网通办、一网统管”以全面推进智慧政府和服务型政府建设、构建“城市大脑”提高城市运营效率与生活质量等多种智慧治理举措。随着自然语言处理技术广泛应用,ChatGPT(Chat Generative Pretraining Transformer)能实现智能化的语言交互,国内文心一言、讯飞星火等大语言模型也在不断发展。因此本文希望探究智能程度对公众在线参与意愿的影响,为未来智能聊天机器人提升公众在线参与、建设社会治理共同体提供实证依据。

1 研究基础与假设

1.1 公众在线参与

政府不断提升公共服务数字化、智能化水平,以满足公众多层次、多样化需求。小程序、APP 等各种平台涌现出来,弥补了传统治理模式中参与率低、参与途径低效的问题。多位学者认为治理平台能够增强公众参与社会治理的可及性和便捷性[3,4]。要建立共建共治共享的社会治理制度、从而提升社会治理效能,提升公众参与水平成为关键环节。

公众参与的意义较为广泛,学者们关于公众参与的概念定义未达成统一认识。俞可平院士认为有需求的公民或民间组织在公共领域通过各种渠道影响政治生活和政府决策。公众参与有程度和深度上的区别,如Connor 提出参与阶梯模型,将公众参与程度由低至高分为七级,即教育、信息反馈、咨询、联合计划、调解协商、法律诉讼和预防与消除分歧[5]。综合各学者的意见,本研究认为“公众参与”是指公众或特定主体根据自身需求依法通过合理渠道、合规方式直接或间接参与到国家公共政策制定或公共事务治理的过程,包括投票、竞选、宣传、投诉、对话、咨询、协商、听证等。“咨询”是其中最易于操作且应用广泛的类型,以此来考察公众参与具有较强代表性。

1.2 智能性

智能性是指通过处理自然语言来理解用户的命令并产生应答从而提供有效结果的能力[6]。对于智能性影响的分析需追溯到个体对技术的接受和采纳的技术接受模型(TAM),技术系统特征等外部变量会影响感知有用性与易用性,进而影响意愿和行为。“智能”已成为任何人工智能驱动系统的重要特征,比如Moussawi 等认为感知智能可以正向影响用户初始信任[6]。其中智能聊天机器人能展示类似人类的智能[7],包括计算能力和社交技能。早期的聊天机器人主要基于对话库中的模板和句型,对语义分析和用户意图的理解还不够深入。近年来,深度学习、语音识别和模式识别等技术在自然语言处理领域取得突破,促使聊天机器人快速发展,使其又成为近年来的研究热点和实践应用焦点。当前我国大力推进“互联网+政务服务”,对便利企业和公众办事发挥了重要作用。

在智能的分类和评级方面,Huang 等人讨论了四种智能的特征及表现,将人工智能需要更长时间才能模仿的智能称为“更高”水平的智能,其中机械智能涉及自动执行日常重复任务的能力;分析智能是处理信息解决问题并从中学习的能力;直观智能是指创造性思维和有效适应新情况的能力;情感智能是识别和理解他人情绪、做出适当情绪反应的能力[8]。类似地,Schepers 等人认为智能有机械型、思考型和情感型三种[9],并且不同类型和等级的智能将在特定服务情境中发挥独特优势[10],如机械智能在标准化服务场景中、分析智能在个性化服务场景中、直观智能在社会服务场景中、情感智能在情感沟通服务场景中都能发挥各自优势,从而引发消费者较为积极的态度,例如Longoni等人在医疗服务场景之下分析病人对机械智能服务的评价发现,由于患者可能感觉到自身独特性不被重视,从而对机械智能怀有抵制态度,并且更希望接受含有情感和同理心的人类服务[11]。当公众在线参与社会治理时,聊天机器人所展现出的智能性越高,越会令人感受到自身意图得到充分理解,因此提出以下假设:

H1:聊天机器人的智能程度会影响公众在线参与意愿。

2 实验设计

2.1 研究方法

实验方法在识别因果效应方面具有很大优势,也能够对尚未能大规模实施的政策进行效果预判和评估[12],原因是实验方法具有随机化配置干预、可重复性、标准化操作、可控条件等特征、“控制-对照-比较”的严格逻辑,并且兼具信度和效度。调查实验法弥补了实验室实验样本数量较少导致的外部效度不足的缺陷,能得到大量样本数据,且能借助技术手段实现随机化分组。因此,解决本文问题最适宜的方法是调查实验法。

2.2 实验流程设计

在实验程序的设计上,本文通过在线调查平台“Credamo 见数”发放搭载实验情境设计的版本各异的问卷,被试者在完成问卷且问卷被判定有效后可获得定额奖励。通过选择平台信用分不低于80 分的样本、设置多次发布作答用户不重复(保证多个实验研究以及每个实验内部样本完全不重复)、IP 地址限制(每台设备限填一次)和设置甄别题(检测被试者是否认真作答)等方式控制填答质量,此外还剔除了答题时间过短(少于正常填答时间)和未通过情境测试题的样本确保问卷质量。实验材料共包括三个部分:第一部分假设“身份证丢失”背景;第二部分为实验情境,设置4 组智能程度不同的被试间实验设计,被试者被随机分配机械智能组、分析智能组、直观智能组、情感智能组4 组中任意一组并阅读相关材料;被试者收到一段材料,随机呈现文本和图片,从而考察不同实验条件下被试者在线参与意愿的差异;第三部分为自变量、因变量和基本信息测量,基本信息包括性别、年龄、受教育程度、收入、之前参与咨询的频率。

在实验材料的选择上,本文基于“咨询”的公众参与场景进行设计,采用Huang 对于四种智能的定义来模拟相应文字和图片[8],并参考某城市12345 智能咨询来模拟图片。机械智能组能提供简要回复;分析智能组能提供详细回复;直观智能组能整合多种信息来提供详细回复,完全理解对话含义;情感智能组还能够提供安慰、理解情绪。

3 实验结果

3.1 数据收集与被试分布

实验二共获得有效问卷292 份,其中男性33.2%,女性66.8%;年龄在18-29 岁占比58.2%,大多数为青年人;本科学历占比最多为71.9%;中等收入群体占多数;之前参与频率方面,从未咨询过、极少咨询、偶尔咨询、有时咨询、经常咨询分别有1.7%、24.7%、47.6%、22.3%、3.8%。

3.2 量表的信效度检验

感知智能量表的Cronbach's alpha 系数为0.904,该量表内部一致性非常高。其次通过AMOS 进行验证性因子分析检验效度,各测项因子载荷值都在0.9 左右,AVE 大于0.8 且Cr 大于0.9,符合效度要求。(表1)

表1 量表的信效度检验结果

3.3 平衡性检验

单因素方差分析可得各变量的F 检验均未达显著且在不同分组条件下的均值差别很小,因此被试者在组间的平衡性较好,为进一步分析提供保证。(表2)

表2 平衡性检验结果

3.4 自变量操纵检验

为检验自变量操纵的有效性,借鉴人机交互领域的成熟量表Godspeed 问卷系列中的“感知智能”设计问题,包括有能力的、有知识的、负责任的、有智力的、敏感的5 个测项。该系列到2022年已被引用1852 次,已成为人机交互领域的标准测量工具之一[13]。由于方差齐性不满足,因此采用非参数检验方法。Games-Howell 多重检验的结果表明感知智能均值关系为机械智能组<分析智能组<直观智能组<情感智能组,两两比较的差异均在p<0.001 的水平上显著。因此对于自变量智能程度的操纵可行。

假设检验同样采用非参数检验。多重检验的结果表明公众在线参与意愿的均值关系为机械智能组<分析智能组<直观智能组<情感智能组,除了情感智能组与直观智能组的差异在p=0.039 的水平上显著,其他两两比较的差异均在p<0.001 的水平上显著,如表3 所示,因此假设H1得到证实。

表3 假设检验结果

本文还通过构造加权最小二乘法(WLS)回归进行稳健性检验。首先对自变量和因变量进行对数处理,通过White 检验明确拒绝同方差假设,再将拟合值变量取指数变换、倒数变换后获得权重,经过加权的回归模型不再存在异方差性,并且R2为由0.6631 变为0.9867,模型拟合程度有了极大提升。结果为自变量回归系数为正并对因变量有显著影响(p<0.001),进一步验证了假设H1,即聊天机器人的智能程度会影响公众在线参与意愿,随着智能程度的提升,公众在线参与意愿提升。

4 结语

本文通过4 个不同智能程度的场景进行实验,分别考察公众未来在线参与的意愿,对实验数据进行非参数检验,保证自变量操纵有效、各组平衡性较好,并且经事后检验表明,政务智能聊天机器人的智能程度越高,公众在线参与的意愿越强。

当前关于“智能”的研究主要集中在探究人们对智能程度较低的系统的接受意愿及其影响机制方面,探究和比较不同类型或不同程度的智能系统对人们态度影响的相关研究较少。因此本文从实证视角出发,通过调查实验比较不同程度的智能系统效果,研究结论对相关研究是有益的补充。在实践启示方面,微观上,本文模拟实际场景调研公众在线参与的意愿,能够为实践应用中如何设置有效的智能手段来鼓励公民参与到公共事务中提供借鉴,促使智能技术真正赋能于社会治理共同体的建立;宏观上,本文认为将人工智能应用于政务服务能够满足公众的现实需要,为推进国家治理体系和治理能力现代化提供支撑,更能显著提升社会治理效能,从而尽快形成共建共治共享的社会治理新格局。

猜你喜欢
程度公众检验
序贯Lq似然比型检验
精致和严谨程度让人惊叹 Sonus Faber(意大利势霸)PALLADIO(帕拉迪奥)PW-562/PC-562
公众号3月热榜
男女身高受欢迎程度表
公众号9月热榜
公众号8月热榜
公众号5月热榜
2021年《理化检验-化学分册》征订启事
对起重机“制动下滑量”相关检验要求的探讨
关于锅炉检验的探讨