反扯淡与信息素养

2018-11-23 06:32魏忠
中国信息技术教育 2018年21期
关键词:谎言素养

魏忠

十几年前,我刚进高校工作,一件事情让我决定从此在我所在的交通运输规划领域不再发表学术论文——我去听取学校一位权威教授的硕士答辩,该学生以一年前的8月25日和一年后的8月25日两天进行交通规划研究,证明了一个非常复杂严肃的论证,我打开电脑查了一下,发现这两天一个是周五,一个是周三,而上海的周三和周五是交通流量完全相反的,于是我便说:“你表面是非常严肃的证明,而事实上不关心真相,不就成了扯淡吗?”事后,我被人严肃地提醒要注意言语分寸。

又过了一年,我带着一位经济学家去佘山旅游,由于封路避行恰巧发现我们的学生正在佘山进行交通测试,带头的又是某位知名教授的学生,我记得非常清楚,那天是5月19日,由于特殊活动佘山封路,学生们说这样非常方便他们测量日常的交通流量。然而,封路与正常流量又完全不同,做交通课题却找封路时候去做流量测试,狗P。

今天我可以说我为什么不写“学术论文”了:我是搞信息的,至少在我研究的领域“扯淡”“狗P”是很严肃的学术词汇,并不是骂人。他们都是英文的一个词“Bullshit”,看起来是有些愤怒和粗鲁,但确实是指那些“公然罔顾事实和逻辑的语言、统计数据、图表,以及其他呈现方式”,它们的目的是让受众留下深刻印象并且让人难以抗拒,而反扯淡和驳斥狗P指的是“公开批驳有问题的东西”。驳斥的对象其实比狗P更广,还可以包括谎言、背叛、诡计和不公。这个词汇,是由时任普林斯顿大学哲学系主任、全球最具影响力的哲学家之一的G·法兰克福发掘的,2005年他发表了On Bullshit一书,该书成为亚马逊十大畅销书之一,法兰克福认为:扯淡不完全是撒谎,掩盖真相,而是根本不关心真相,扯淡不仅是反真相的,而且更严重的是它是反价值的,扯淡会消磨掉人类严肃说出的各种价值,进而解构各种具有价值的事情和生活,这才是扯淡的最大危害。法兰克福的On Bullshit的中文译名就是《论扯淡》,这个名字还是比较含糊的,而英文如果直译,就是“狗P、牛粪、狗屎”。

2015年,我女儿所在的华盛顿大学的两位教授(一位生物学教授、一位信息学教授)在网络上相继开了一门课,就叫“大数据时代如何辨别狗P”,几年后这门课成为大学的正式课程。从该课的宗旨和目标来看,实际上它就是在大数据时代,如何提高学生的“信息素养”。

一个粗俗的词汇成为了一个学术词汇,甚至成为一所大学的正式课程广受欢迎,并有越来越多的人认识到它的重要性,那是因为,随着大数据和人工智能的发展,“扯淡”和“狗P”已经泛滥成灾且走向越来越专业,“狗P们在专业地造假,统计和信息学家以及科学家们在业余地辟谣”,即使一些有科学素养的人其信息素养也未必高到哪里去。好了,现在有了一项专项的课程来提醒不专业的信息时代的螺丝钉:谨防狗P。

其实,“大数据时代辨别狗P”并不难,却也不简单。举个例子来说,传统的教师的很多信息素养是通过类似“2/8定律”“250定律”“温水煮青蛙实验”“鲶鱼效应”“霍桑实验”来建立的。华盛顿大学的这门课程基本上也采用类似的“大数据时代的统计故事”,通过12周的课程(华大采用3季3学期制),就能建立起学生的信息素养。下面,我简要介绍一下12周都讲些什么。

第1周:扯淡概论。作者发现TED上的精彩演讲往往采用的是扯淡的艺术。扯淡和反扯淡最大的问题在于成本不对称。例如,最近国内的几件扯淡的事情:“港珠澳大桥左行右行严重的设计错误”“医生罢工造成死亡率急剧下降”。扯淡者并不一定是数学不好或者逻辑有问题,而是因为偏激情绪降低了他们的思考能力;被扯淡者去传播也未必智商低下,他们并不关心真相而欢迎结论。一个众所周知的观点是人一旦进入群体中,智商就会严重降低,这也是为什么传销的洗脑课总是能成功地引人而入的主要原因。而更为吊诡的是,人们往往不容易轻信小谎言,却很容易相信大谎言,19世纪英国作家科尔顿说:“有些骗局布设得如此巧妙,只有傻子才不受骗上当。”那些布设巧妙的往往是大谎言。长期接受和依赖谎言的人们当中甚至还有在谎言破灭后,自己也加入到维持谎言之中的。

第2周:发现扯淡。真理和自由一样,需要永远保持警惕。那么如何发现自己在并不专业的领域中的扯淡呢?课程中通过一些简单而有趣的统计学验证来提高学生的信息素养。例如,本福德定律,通过对造假数据的第一个有效数字的分布,识别科学研究中的数据质量。

1945年7月16日上午,世界上第一颗原子弹在美国新墨西哥州沙漠地区爆炸。意大利裔美国物理学家恩利克·费米把笔记本里的一页纸撕碎了,一感到震波,他即把举过头顶的抓着小纸片的手松开。碎纸飘扬而下,在费米身后2.5m处落地,心算之后费米宣布,原子弹能量相当于10000tTNT当量。费米可以这么做,当然学生也可以这么做。

第3周:扯淡分布和扯淡生态。扯淡经常出现的场合是媒体、社交网络、政治、道德、宗教场所、新闻发布和官方宣传领域,即难以辨别真伪、辨别真伪又有麻烦的场合。例如,转基因的技术讨论,往往演变发展到道德討论、国家阴谋、民族种族等扯淡领域,即使国家也不得不迁就舆情,智者远离又使得扯淡的力量空前强大。

第4周:因果关系。这一周的课程内容为相关与因果、充分与必要、中位数与平均数、虚假关联关系。总体来讲就是,统计学不严格的因果关系很容易变成人的逻辑的推论扯淡。例如,最有名的胆固醇与心血管病的关系问题。最近科学发现,正是由于心血管损伤造成大量胆固醇修复血管,而“坏胆固醇”又堆积在血管造成问题。然而,如果减少摄入或者分泌“坏胆固醇”,可能连心血管堵塞的机会都没有了。统计学上的因果倒置需要领域专家,统计学家贸然进入专业领域会有很多灾难性的后果。

第5周:统计陷阱和欺骗。近年来,统计陷阱有很多的惨痛教训,这些案例让人记忆深刻的同时也普及了统计学的进展。例如,儿科大夫用不严密的一连串统计学概率推断一位死了两个孩子的母亲杀婴;维尔罗杰斯效应用来发现两个地域的GDP增长率平均值只要一个人移民就可以……通过这些典型的案例,学生们可以不必为高大上的贝叶斯类的统计术语吓破胆,即使统计学家也要明白贝叶斯规则,也要明白质与量不等价。

第6周:数据可视化。利用图形和人眼误区可以产生图像和图形误解,这是所有网民都知道的事实,这门课的可贵之处在于教学生使用一些典型的工具去制作这些“扯淡图形”。利用数据可视化造假,我们要知道眼睛对什么敏感,对什么不敏感,并不是什么时候都是眼见为实的,这些工具包括比例油墨、字符垃圾、误导轴、夸大比例。

第7周:大数据。我在上大学的时候,学过菲利普斯曲线,说的是失业率与劳动生产率的关系,这是一个经典的经济学理论,然而近些年它却不准了,这是由于政府都知道了这个秘密,当一个秘密被知道并作为调整的目标的时候,就再也不准了,这就是古德哈特定律。在大数据领域最扯淡的案例是“啤酒和尿布的故事”。这件事真伪无从考究,据说是从沃尔玛来的,但是无论是中国的沃尔玛还是美国的沃尔玛,我都没有发现啤酒和尿布放在一起。一位超市专家告诉我,即使啤酒尿布成立,也不会放在一起,那是因为那样既不卫生,也不经济(若成立,超市会故意放得远远的),更不合理(跟超市收银台放在一起的是体积小、利润高的)。很多大数据讲师也愿意讲啤酒和尿布,统计陷阱和欺骗的目的并不是欺骗,而是这个故事精彩,而精彩的故事往往会误导听众。

第8周:出版偏见。如果期刊喜欢发表积极的结果而不是负面的结果,那么即使是一个尽职尽责的科学家群体,也会产生误导性的学术记录——就像目前出版环境中的情况一样。绝大多数工程和科技使用的是成熟的技术,而成熟的技术“科技创新可能很少或者不被人注意”,从传播学的角度讲,新的技术和热点技术容易引起轰动。然而,美国科学家发现,“绝大多数科学论文都是错的”。错的科学发现不一定是科学家有意为之,很可能某些条件较为苛刻,更重要的原因在于出版偏见。

第9周:掠夺性出版和科学不端行为。这一周延续上周的学习内容,如果有人故意造假,或者出版社靠收取版面费为生,后果会更为严重。例如,哈佛大学医学院一位教授在2018年10月被辞退,他是著名的心脏权威,过去15年伪造15篇论文,被几万名学者追踪研究,学术造假手段太隐蔽了,这也是在大数据时代才被发现。

第10周:所谓胡说八道的道德规范。这一周主要讲骚扰和质疑的界限以及道德。学术领域的事情,尽量用行业评价,但如果行业内形成“均衡”了呢?总体上来讲,质疑是就事论事,用科学的方法,不牵涉到道德、宗教、政治、民族。

第11周:假新闻。这一周是上一周内容的延续,包括如何判别假新闻、假新闻及其特征。

第12周:驳斥扯淡。从这门课的目标就能看到这一周的主要内容:①对你的信息食谱中出现的狗P保持警惕;②无论何时何地遇到狗P,都能够识别出来;③能够准确说明为什么一则狗P是狗P;④能够在统计学或科学专业的人面前给出对狗P的技术分析;⑤能够在迷信的阿姨和不自觉间表露出种族主义的叔叔面前分析狗P,让他们能听懂,并且有说服力。

大數据时代,专业领域越来越细,个人不知道的东西越来越多,与此同时,人工智能、社交网络发展迅速,处于数据洪流中的人,不可能不把自己一部分思维“外包给外脑”,即10年前提出的“人机协同时代”。然而,这个时代除了人脑要处理机器不能处理的每个人的专业领域或者人文领域之外,具备对抗“狗P的一般素养”是异常重要的,而这就是这门课的重要目的,为这门课点赞。

2018年在上海的人工智能大会上,马云说:“我不担心人工智能时代机器会取代人,而担心人类思维不再进步。”是的,反扯淡、反狗P就是第一步,用文明一点的词汇说,就是“核心信息素养”。

猜你喜欢
谎言素养
抓住本质重理解基于素养活应用
兴趣与爱好
多思少箅彰显素养
谎言
一节践行核心素养的数学拓展课
追本溯源提升素养
良好的数学素养依赖于学生学习的再创造
愚人节的谎言
揭穿谎言
谎言