六本好书带你入门数据科学

2019-09-10 07:22
电脑报 2019年31期
关键词:算法

如今的数据科学家经常被要求学习一系列的建模技术、运算方法等。诸如线性回归,很多人都在使用它,但却不知道为什么使用它,因此就会出现这么一种情况,很多新人随时都准备好部署模型,但却不了解实际情况,这些技术群体并没有把重心放在解决技术的盲目性上,而是放在了关于选择何种工具的争论上(R 或 Python)。归根结底,决策是由人类做出的,想要成为一名专业的数据科学家意味着必须既了解人性又了解数据。

案例:

当美国科技公司Opower(一家致力于发掘能源数据,为用户提供节能建议的公司)想让人们节约用电时,他们向客户提供了大量关于其用电量及成本的数据。然而,仅仅靠这些冷冰冰的数字并不足以让人们做出改变。为了达到目的,Opower需要一些关于心理学及行为科学的知识,如果在家庭能源账单上用笑脸表示费用低于邻居平均水平,用皱眉表情表示高于邻居平均水平的话,人们的能源使用就会减少,也会更配合能源公司的环保要求。第二年,统计表明,高消费家庭的用户减少了3%的用电量!

No.1 信号与噪声

作者:纳特·西尔弗(Nate Silver)

本书可能是世界上最受欢迎的与统计相关的书籍之一。信号与噪声是数据科学中一种常用的比喻手法。“信号”指的是我们想要并需要的事实,而“噪声”则是另一回事,通常指的是不相干的信息,它阻碍或误导我们搜索真实的信号。

大数据时代,海量的信息充斥在我们周围,然而随着现实中生活节奏的逐步加快,所做出的预测的速度及数量也被迫逐步增加。

然而事实却是,现实世界中的很多预测都失败了,人们为此付出了巨大的社会代价。本书检视了从飓风到地震、从经济到股市、从NBA到政治选举在内的众多领域的预測事例,旨在回答一个问题:如何才能从繁杂的海量数据中筛选出真正的信号,摒弃噪声的干扰,从而做出接近的预测。西尔弗认为,未来是没有精准的答案的,只有伟大的预言家所实践的基本法则能够帮助我们改善社会。

No. 2 算法霸权:数学杀伤性武器的威胁

作者:凯西·奥尼尔(Cathy O’Neill)

数据科学家凯西·奥尼尔认为,我们应该警惕不断渗透和深入我们生活的数学模型——它们的存在,很有可能威胁到我们的社会结构。

我们生活在一个依赖“算法”的时代,它对我们生活的影响越来越大,我们去哪里上学,我是不是应该贷款买车,我们应该花多少钱来买健康保险,这些都不是由人来决定的,而是由大数据模型来决定的。从理论上来说,这一模型应该让社会更加公平,因为每一个人的衡量标准都是一样的,不应该存在偏见。

在作者看来,大数据犹如一个黑盒,规模、伤害和隐秘共存,她在书中引用了大量发生在美国当下的、基于大数据和算法的、改变个人生活的案例,并对影响这些城市生活经验的算法做了特别的观察和研究。

No. 3-4 算法之美:指导工作与生活的算法

作者:布莱恩·克里斯汀&汤姆·格里菲思

魔鬼数学:大数据时代,数学思维的力量

作者:乔丹·艾伦伯格(Jordan Ellenberg)

计算机科学和统计学(包括其他所有的研究性学科)在学校的课堂上往往会遇到一个问题:学起来既抽象又无聊。只有当它们被应用于解决现实的问题的时候,才会变得足够有趣,让我们想要去探索。

而上述这两本书都把枯燥的主题转变成了有趣的、信息丰富的描绘,讲述了如何在日常生活中使用算法、统计和数学。

所谓算法,是指解题方案的准确而完整的描述,是一系列解决问题的清晰指令,算法代表着用系统的方法描述解决问题的策略机制。如果我们在考虑问题时,清晰地了解我们所与之对应的算法,那么就可以更容易地解析问题或者更优地解决问题。

而在艾伦伯格的这本书中,主要讲述了数学的魅力,以及如何获得用数学原则解决生活中问题的技巧。作者认为,数学可以帮助我们更好地了解这个世界的结构和本质,应该被放在每个有思想的人的工具箱里,用于更好地解决问题,规避谬误和错误的方法。这本书摒弃了复杂的专业术语,用现实世界中的逸事、基础的方程式和简单的图表,为读者带来一堂零基础的数学课。

这两本书的严谨程度都是恰到好处的,其中夹杂着一些公式逻辑,还有很多实际案例。在书中,我发现了许多从未在课堂上完全掌握的数据科学概念,最后我一遍又一遍地翻阅,体验了获得知识时刻的快乐。当然,数学、统计学和计算机科学只在能帮你更好地生活的情况下有用,而且这两本书都展示了你从未考虑过的这些学科的用途。

No.5 思考,快与慢

作者:丹尼尔·卡尼曼(Daniel Kahneman)

人类是非理性的,我们通常会在生活中的各种情况里做出可怕的决定。然而,一旦理解了为什么我们会这么做而不是采取最佳行动时,就可以开始着手改变自己的行为以获得更好的结果了,这就是卡尼曼数十年实验成果的核心。他的研究打开了认知心理学、认知科学、对理性与幸福的研究以及行为经济学的新局面,而本书也是他的集大成之作。

卡尼曼在《思考,快与慢》中揭示了三十多种理性偏差,如启发式联想,其中包括可得性偏见、锚定效应、直觉判断、光环效应等;如过度自信,其中包括后见之明、有效性错觉、算法判断等;如前景理论,包括风险决策、损失厌恶、禀赋效应、四重模式等。它们像一面思维的立体镜子,360度角照见大脑思考过程和顽固的偏差,让你认知你自己的思考决策过程。

作为2002年诺贝尔经济学奖获得者,卡尼曼和他的研究伙伴阿莫斯·特沃斯基(Amos Tversky,因对决策过程的研究而著名)以及理查德·塞勒(Richard Thaler,2017年诺贝尔经济学奖得主)等其他人共同创造了行为经济学的高光时刻,也让这个经济学中本来颇为小众的分支走进了更多人的视野,它将人们视为非理性的决策者,而非追逐效用最大化的理性人。当然事实也的确如此。这使得人们不仅在经济学上,而且在医学、体育、商业实践、节能和退休基金等生活领域的思维和设计选择发生了一些巨大的转变。我们也可以将本书中的许多发现应用于数据科学,例如如何呈现研究结果等。

《思考,快与慢》的基础是作者提出的关于人类的思考框架:系统1和系统2。系统1代指人类的非受控或者说是无意识的思考模式;系统2代指受人自身控制的或为有意识进行的思考模式。用系统1思考或判断是非常快捷的,几乎完全取决于直觉和经验,因此人们往往第一时间通过它在脑海中形成观点。但有时系统1可能得不到结论甚至得到错误的结论,在这种情况下,人类也经常求助系统2进行更为复杂和费力的思考过程,以补充或纠正系统1。

如果你想了解实际的人类心理学,而不是传统课堂上的那种理想化的知识,那么这本书是最好的开始。严格地说,卡尼曼并不是一个热衷于科普书籍的作家,但是他和他的同事杰出的学术贡献,却深刻地改变了我们对自己的認识。相较之下,近年来很多研究开始将目光投向社会行为的神经基础,用磁共振脑成像之类的法子探究问题。卡尼曼的工作专注于人类的行为,严谨地避免过多关于机制的推论。在如今的心理学界看来,似乎不那么时髦了。但是他的实验充满巧思与洞见,却不会是科学史上昙花一现的观点。

No.6 黑天鹅:如何应对不可预知的未来

作者: 纳西姆·尼古拉斯·塔勒布 (Nassim Nicholas Taleb)

塔勒布曾是一名定量交易员,在2000年和2007年的市场低迷期间赚了大量的钱,他已成为一位有名学者研究者,为他的作品赢得了全世界的目光,数不尽的赞誉和批评接踵而至。

那时,塔勒布感知到一种想法:当代思维方式的失败,尤其是在不确定性的时代的失败,是非常严重的。在《黑天鹅》一书中,塔勒布提出了这样一个概念:我们对支配人类活动的随机性视而不见,因而,当事情没有如预期那样发展时,我们就会被毁灭。黑天鹅最初于2007年出版,自2008年和2016年的金融危机以来,它变得更加有说服力,完全颠覆了传统的一套思维模式。

“黑天鹅”对数据科学家很重要,因为它表明,任何仅基于过去性能的模型通常都会出错,并产生灾难性的后果。所有机器学习模型都是用过去的数据构建的,这意味着我们不能太信任它们。模型(包括Taleb)是有缺陷的,为了尽可能与现实贴近,我们应该确保有系统来处理这些不可避免的失败。

值得一提的是,塔勒布不仅以其新颖的思想而闻名,而且他的性格也极端好斗。他甚至愿意和所有人较量,经常批评像史蒂文·平克(美国实验心理学家)这样的学者,或者像纳特·西尔弗(数据分析师,曾经在2012年美国总统大选中准确预测了50个州的选举结果)那样的公众人物。

猜你喜欢
算法
国际主流轧差算法介绍:以CHIPS的BRA算法为例
利用数形结合明晰算理
《算法》专题训练
例说算法初步中常见的易错点
清华大学开源迁移学习算法库
Travellng thg World Full—time for Rree
算法框图型扫描
《漫画算法:小灰的算法之旅》
学习算法的“三种境界”
算法框图的补全