大数据时代法治传播研究的范式革命

2016-04-16 14:33孙祥飞
法治新闻传播 2016年1期
关键词:法治用户分析

■孙祥飞



大数据时代法治传播研究的范式革命

■孙祥飞

2013年中国迎来“大数据元年”,当年知网中可查与“大数据”相关的文献共有3977篇,而在2014年这一数据更是高达9151篇。据中国互联网络信息中心发布的《36次中国互联网络发展状况统计报告》所公布的数据显示,截至2015年6月,“中国网民规模达6.68亿”,同时,“中国手机网民规模达5.94亿”,而根据talkingdata平台实时的监控数据显示,截至2015年9月1日零点,中国网民已经启用的智能手机终端超过18.38亿①。数量庞大的新媒体用户在日常化的媒介使用中,产生了大量的传播、消费、表态等行为,这些行为及其所对应的用户群体的特性以及媒介使用的场景信息等,都构成了以大数据为方法进行学术研究的丰富资源。本文试图聚焦于法治传播领域,就大数据时代法治传播可能进行的尝试及突破进行梳理。

大数据理论与方法的应用状况考察

关于“大数据”(big data)是什么的问题,学界一直有较多的争论,并没有达成共识。但根据新闻传播学领域较常使用的界定,它是指“无法在一定时间范围内用常规软件工具进行抓取、管理和处理的数据集合,又称巨量资料”②。实际上这一概念仍然较为模糊。笔者认为,“大数据”至少包括三个方面的意思:第一是特指数据体量极为庞大的数据集,一般以P(1P=1024T=10242G)为计量单位;第二是特指样本规模相对较大的数据,这类数据虽然未必是全样本,也未必是P量级的数据,但比传统方法收集的数据量要大得多;第三是全样本的数据,这也是舍恩伯格在《大数据时代》中所提及的一层含义。

大数据之所以能够得到各个学科的重视,甚至在2013年至今一直拥有持续高涨的关注度,其原因在于以下几个方面:第一,大数据提供了全新的看待问题的视角,如可以对社会某一领域进行全局性观察,也可以发现隐藏在大量样本中不易为小规模数据调查所发现的深层次问题;第二,大数据提供了全新的分析问题的方式,如进行的相关分析和预测分析等;第三,是对海量数据进行处理后可以用作舆情分析、商业营销、数据新闻等。

大数据将会成为一种新的范式可能会对学术研究带来革命性的变革已经成为学界共识。其中法学领域已有不少人士充分认识到大数据对学术研究可能带来的变革,在2014年10月,《检察日报》就刊发过一组文章,专门探讨大数据成为法学研究新范式的可能性,王春晖表示,“法律大数据很有可能是一场法律研究范式的革命”。③尽管法学界的人士对此颇为重视,但目前除却理论的探讨、用户隐私保护、数据安全等几个范畴外,学界的相关研究成果较少。根据对相关文献的梳理发现,以真正大数据为方法的学术研究在纯法学领域并没有相关成果。左卫民指出,“同样是实证研究,同样是搜集、分析数据,其他学科基本上都采用数理经济学与数理统计学的方法,但在法学实证研究中,这些方法除极个别同仁有较多运用外,其他人几乎未予运用”④。在大数据方法已经成为当前学术研究新范式的背景下,法学领域缺乏对大数据理论与方法的应有重视。

相比而言,新闻传播学领域在大数据作为一种方法论上的应用已经有不少成果,如喻国明教授以大数据为方法通过对百度4年内用户的热搜词进行分析,以发现中国社会舆情的总体态势和结构性特征⑤;孟建、孙祥飞以大数据为方法,对以微博为代表的社交媒体中的16.8万余条提及“中国梦”的微博文本进行的全样本分析⑥。在法学与传播学的跨学科研究领域,以大数据为方法的研究也有一定的尝试,如通过对微博中的70余万条与“李天一案”相关的博文进行的全样本抓取分析,与《未成年人保护法》相关的微博原创样本的全文本分析等⑦。实际上,法治传播领域对大数据的应用还比较粗浅,真正有价值的应用还需要进一步探索。

大数据在法治传播研究领域的规范

大数据在社会科学领域也时常备受诟病,尤其是在移动互联网、“互联网+”的背景下,“大数据”几乎已经被神化为“放之四海内皆准”的一种表达用语,甚至有人调侃说,“当把大数据当作一把锤子的时候,一切存在之物看上去都像钉子”。在这一背景下,有学者提出了“切莫神化大数据”的观点,认为,“从统计意义上讲,通过科学抽样与分析,部分数据也可以推及全体。多数情况下,考虑到数据取得成本与需要说明问题的信度与效度,大数据并无必要”,甚至,该学者认为,“千辛万苦取得的海量数据,只能得出普通的‘就数说数’的简单结论,与成本之巨大并不相称”⑧。实际上,大数据与传统的基于抽样的定量研究有着不同的侧重点,也有着不同的研究规范性,用大数据作为研究方法进行社会科学研究,并不是要将传统定量研究的方法、目的全盘移植到大数据研究中,而是要考虑结构化的大数据与传统量化研究的差异性。

(一)实现“重要的少数”和“琐碎的多数”的兼顾

无论是传统的抽样统计分析还是基于大数据的统计分析,往往存在的一个结果就是用数据所反映出来的整体状况掩盖了对个体及小团体的深度观察。大数据研究过程中,至少应该包括三个对数据进行统计的维度:首先是对全局样本进行的统计与分析,以发现所研究问题的整体状况,如研究某一审判案件中,支持判决结果和对判决结果存有疑惑的群体所占比重,这一类分析采用抽样调查的方法来完成,样本大小对分析结果仅有极其细微的差异性,甚至数据量大未必能得出更准确的结果;其次是对整体数据中的重要典型进行分析,例如在社交媒体中,尽管在十个月的时间内会存在不低于78万条与“李天一案”相关的原创微博,但这些微博都会受到发布者的身份、诉求、立场、知识构成等因素的影响呈现出很大的差异性,其中会有部分典型的表达获得更高的关注度,这就需要格外关注对典型样本的分析;第三是对琐碎的多数进行多种维度的分析,以探讨某些现象发生在无差别的大众身上的普遍性,如分析某一典型观点为普通公众持有的情况。此上三种分析路径综合运用,将会实现整体与典型的兼顾、大数据处理与传统量化研究的兼顾。

(二)注重对计算机智能处理和人工介入的兼顾

“大数据”在现今语境下被各研究领域所关注,其背景之一就在于信息采集、储存和分析技术的迅速发展。因而,有学者认为,大数据背景下的新闻传播研究暗含了对技术的崇拜,尽管计算机可以在很大程度上减少研究者的工作量,但社会科学研究除了计算机的使用外,人工的介入更是不可或缺。

在大数据处理时,一方面要重视计算机智能处理,另一方面也需要科研工作者积极的介入。同时,新闻传播领域的大数据研究涉及到信息与计算科学、统计学、社会学、新闻传播学等多个学科领域的交叉,研究需要团队的协作与跨学科的知识储备,实现多科学资源、理论与方法的整合共享。对计算机软件、数据科学的过度重视容易导致“数据理性”至上的思维,忽视对人性、人情味的关注。数据处理是大数据研究的一个关键,但对数据处理的结果进行解读又是另一个关键,比如,此前有研究机构通过对微博用户学历的统计之后发现,74.88%的用户属于高中及以下学历,因而得出了微博用户学历偏低的结论,但如果换一种解读方式,“每4个用户中就有一个是大学及以上学历”,则可能会得出“微博用户高学历化”的结论。

(三)对数据进行多元处理,充分挖掘数据价值

学术界在总结大数据的特点时,普遍采用“4V”这一特点来概括,主要是指数据体量大(Volume)、数据种类繁多(Variety)、价值密度低(Veracity)和数据处理速度快(Velocity),“多、快、毛、糙”是大数据的特点。舍恩伯格在《大数据时代》一书中认为,大数据处理的一个重要原则是“不是精确性,而是混杂性”⑨,而社会科学研究则认为数据越精确越容易得出有价值的研究结论。

那么如何摆脱数据“混杂性”“价值密度低”或“毛糙”对研究的影响?笔者认为,数据的“毛糙”只是数据的原始特征,如果能对这些毛糙的数据进行多角度、多元化的分析,则可能会发现一些有价值的深层次的问题。甚至进一步讲,即便是那些在传统研究中被视为无效、干扰、不准确的样本,也会有其特殊的用处,如在某一案件的传播过程中,笔者通过对碎片化的大量的看似对研究并没有实质作用的数据进行统计,发现了大规模的“水军”在使用若干事先准备好的“段子”试图影响舆论,甚至通过这些碎片化的数据还原出整个“水军”的工作机制。

大数据视角下法治传播研究的框架

新闻传播学研究以及舆论学中舆情研究对大数据应用进行的尝试对法治传播更好地引入这一研究方法具有一定的借鉴价值。笔者认为,在当前背景下,大数据在法治新闻传播领域有以下几个框架具有较强的可操作性:

(一)对公检法司四大系统信息化建设状况进行研究

近年来,随着中国大力推进信息公开化建设,公检法司四大系统在门户网站、“两微一端”(微博、微信、客户端)等层面进行了大力的尝试,如新浪微博中认证为“公安局”的机构用户有13729个,认证为“司法局”的机构用户有1790个,认证为“检察院”的机构用户共有2515个,认证为“法院”的机构用户共有3651个。从中央到地方,一个横跨公检法司四大系统,纵跨中央、省市、区县的新媒体平台正在迅速搭建。尽管距离“横向到边,纵向到底”的信息化建设要求尚远,但这已经为研究当前中国公检法司四大系统的信息化建设的状况提供了丰富的资源。通过大数据技术,一方面可以了解这四大系统的全局性问题,另一方面还可以观察某些典型的案例的成败得失,与此同时,还可以通过对这些平台的适时跟踪中获得当前这四大系统最为关注的事件与话题。

(二)对涉法工作者的公共表达进行多元话语分析

涉法工作者如律师、法官、法学专家等群体借助社交媒体(如微博、微信)进行的公共表达,不只是个体性的行为,还是一项带有法律论证、法治启蒙色彩的公共行为,对其公开的表达进行基于大数据的研究可以充分了解这些涉法群体对特定的案件、议题进行表达时所持有的态度、情感、诉求等。

例如,2014年10月20日至11月30日期间,有334位涉法工作者(含警察、律师、法学专家等)借助微博对“依法治国”这一表述进行了原创式表达。此外,根据检索,目前新浪微博中认证为律师的用户共有12258人,笔者以大数据为方法对微博中所有认证为律师的用户进行了抓取,从目前所抓取到的9245位认证律师的用户状况来看,这些用户累计发布博文2100多万条,涉及到法治领域方方面面的问题。此外还有若干的警察、法官、法学工作者等都开设了自己的微博账号,这些群体进行的公开表达为系统研究中国法治化进程提供了重要素材。

(三)对特定案件中不同群体的认知、情感及诉求进行分析

在“人人都有麦克风,人人都是法官”的背景下,任何一则案件经由媒体报道、网站转载及社交平台讨论之后,都有可能成为公共议题。言说者往往会有职业属性、收入状况、知识层次、价值观念、利益诉求、既有倾向等若干层面的差异性,这就导致其在对特定的案件进行阐释时存在着若干的立场。对于法治传播研究者而言,不能不考虑这些舆论状态背后的民意指向,考虑官方舆论、民间舆论、公知舆论、草根舆论等若干舆论场之间在立场、诉求上和情感的差异性。例如在“夏俊峰案”的传播中,媒体报道的内容、公众关注的焦点、律师讨论的问题互有异同,而通过大数据的采集和分析,则可以进一步发现代表性的观点有哪一些,以及这些观点在不同群体中分布状况,不同舆论主体在诉求上的差异性。

(四)对特定的涉法工作者、涉法机构的媒介形象进行研究

近些年来,在社会化媒体迅速普及、公众权利意识觉醒的背景下,一些与警察、城管等群体相关的冲突事件时有发生,而这些涉法工作者也面临着一个被“污名化”的问题。那么,媒体如何建构这些涉法群体的公共形象?公众又是如何评判这些群体的形象?这些群体借助自身所掌握的“两微一端”平台如何建构自己的形象?这些问题通过一般的抽样调查虽然可以实现,但成本高、效率低的问题却不得不考虑。以大数据为方法,则很容易实现在最短时间内的数据采集、统计与分析。例如,在新浪微博中,博文带有“城管”关键词的原创博文有1.8亿条,这些碎片化的信息为全方位了解不同群体表述中的“城管”形象提供了极为丰富的素材,通过对这些数据的处理和分析,可以较为深入地发现这一特定群体“污名化”状态的原因,进而为工作方法改善或形象的修复提供参考。

大数据作为一种全新的学术研究范式为法治传播研究带来了新的契机,在“互联网+”、移动互联网成为时代趋势的背景下,借助信息采集、信息储存与信息处理的最新技术,大规模的数据采集分析已经不再是难事,而在UGC(用户生产内容)、PGC(专业生产内容)、OGC(职业生产内容)三种内容生产方式并存以及国家在各个层面大力推进司法公开的背景下,法治传播研究正迎来一个新的契机,处在法学与传播学交叉领域的法治传播应充分利用好资源、技术与学术优势,建构法治大数据传播研究的新体系,拓展跨学科研究融合的深度,从而为依法治国的全面推进提供智力支持。

(作者系华东政法大学人文学院讲师、新闻传播学博士、法学博士后,本文系上海市社会科学基金青年项目“社会主义核心价值观在‘两微一端’中的传播与阐释”阶段性研究成果)

注释:

①http://www.talkingdata.com/index/#/mobileIndex/en_us [2015-9-1]。

②童兵、陈绚:《新闻传播学大辞典》,中国大百科全书出版社2014年版,第1251页。

③王春晖:《开启:法学研究新领域》,《检察日报》2014年10月23日。

④左卫民:《法学实证研究的价值与未来发展》,《法学研究》,2013年第6期。

⑤喻国明:《大数据分析下的中国社会舆情:总体态势与结构性特征——基于百度热搜词(2009—2012)的舆情模型构建》,《中国人民大学学报》2013年第5期。

⑥孟建、孙祥飞:《“中国梦”的话语阐释与民间想象——基于新浪微博16万余条原创博文的数据分析》,《新闻与传播研究》2013年第11期。

⑦详见孙祥飞:《〈未成年人保护法〉的社会化媒体传播研究——基于大数据的实证分析》,《法治新闻传播》2014年第1辑;孙祥飞、董军、杨秀:《社交媒体与司法传播研究——基于“李天一案”原创微博的实证分析》;《中国新媒体发展报告(2014)》,社会科学文献出版社2014年版。

⑧胡蕊:《切莫神化大数据》,载《青年记者》,2014年2月上。

⑨【英】舍恩伯格:《大数据时代》,浙江人民出版社2013年版,第45页。

观点速递

新媒体在未成年人新闻报道中的新闻保护问题尤其值得重视。纸媒、电视媒体等传统媒体因为层层把关,对未成年人权益保护基本到位。但网媒、微博、微信、客户端等新媒体信息发布速度快、把关相对粗糙,很容易造成泄露未成年人个人隐私、侵犯未成年人合法权益等问题。事实上,从目前相关案例看,率先披露未成年人个人信息的多是新媒体。虽然部分新媒体称自己为信息发布平台,不应承担侵犯未成年人合法权益的主要责任,但作为信息载体,其理应承担把关责任。

——周爱明,《新闻世界》2015年第11期

猜你喜欢
法治用户分析
送法进企“典”亮法治之路
隐蔽失效适航要求符合性验证分析
电力系统不平衡分析
反家庭暴力必须厉行法治
以德促法 以法治国
关注用户
电力系统及其自动化发展趋势分析
关注用户
关注用户
如何获取一亿海外用户