计算社会科学与人工智能

2016-03-19 13:00
关键词:类脑人脑社会科学

罗 俊

(武汉大学 社会发展研究院,湖北 武汉 430072)



计算社会科学与人工智能

罗 俊

(武汉大学 社会发展研究院,湖北 武汉 430072)

一、计算社会科学与非结构化数据

计算机科学和信息技术的飞速进步,对社会科学研究产生了巨大而深远的影响。2009年哈佛大学教授拉泽尔等15名学者提出计算社会科学的概念,他们认为在互联网时代,社会科学家借助视频监控、电子邮件、计算机智能命名系统等,使搜集与处理海量数据的能力得以空前提升;同时,人类对自身认知机制的了解不断深入,神经生物学与计算机科学及其他学科的融合,为人类行为研究的计算机模拟提供了条件。

计算社会科学提出了一个新的社会科学研究范式,即计算范式——利用从互联网获得的海量数据,通过先进的计算技术对复杂的人类社会进行跨学科研究。在此后几年时间里,移动互联网和物联网又迅猛发展,与互联网一起,把人类带入了大数据时代,计算社会科学由此获得了更大的发展机遇,这首先表现在可资研究的数据变得空前丰富。三大网络上生成、采集了大量可供社会科学研究所用的数据,可以把它们称之为“社会科学大数据”,例如网络通信数据(即时通信、电子邮件)、网络信息获取数据(搜索、新闻浏览)、网络社交数据(微博、微信、论坛/BBS)、网络商务数据(购物、预定、支付、理财、企业在线行为)、网络学习数据(学习性阅读、在线教育)、网络娱乐数据(音乐、游戏、视频、娱乐性阅读)等,以及由以上在线行为构成的另一个层次的数据——网民在线行为的时空电子踪迹数据(由行为时间数据和空间位置数据整合而成)与在线社会网络分析数据等。这些数据有些是以往无法获取或难以获取的,有些相对以往的数据在质量上有所改善,有些与以往数据各有长短,可相互补充。

社会科学大数据包括结构化数据、半结构化数据和非结构化数据。按体量计算,非结构化数据占比高达80%~95%,主要包括文本、语音、图像、视频等。传统的方法无法有效处理这些数据,无法进行文本分析、语音识别、图像识别。要发挥这些非结构化数据的作用,数据分析处理技术必须要有长足的进步。

人工智能(Artificial Intelligence)是非结构化数据处理的关键支撑技术,其难度最大,最具挑战性,它的进步对计算社会科学的发展有至关重要的甚至是决定性的影响。美国学者温斯顿认为:“人工智能是研究如何使计算机去做过去只有人才能做的智能工作。”也就是说,人工智能是在对人类智能活动规律的认识的基础上,研究如何应用计算机的软硬件来模拟人类某些智能行为的理论、方法和技术,其目的是构造具有一定智能的人工系统,来完成以往需要人的智力才能胜任的工作。

二、弱人工智能与强人工智能

从石器时代简单的工具一直到工业化时代复杂、精密的机器,人类一直在设法延伸自身的功能,用工具和机器辅助、代替自己来完成工作。在上世纪初,有一种观点认为地球上的一切工具和机器,不过是人肢体的知觉的发展而已。人类在这方面的进步是相当显著的,生产线上的各种机械代替人手来完成各种生产性的劳动,汽车代替了人的双足,并且远远超越了人的腿脚的能力。然而,此观点并不完全正确,因为除了肢体功能的延伸之外,人类还试图发明机器来延伸大脑的功能。

人类智能到底包括哪些内容?这恐怕是一个不容易达成统一认识的问题。但如果说数学计算(尤其是复杂的数学计算)需要高级智能,相信在看到那么多学生在高等数学习题前流露出的痛苦的表情后,绝大多数人都会认可这一观点。人类用工具和机器来辅助计算过程其实很漫长,先是发明了算盘、计算尺等,一直发展到计算器与计算机。如今,数学问题对计算机来说早已不在话下,其精确性和效率是人脑无可比拟的。在记忆能力方面,虽然有人说人脑的记忆潜力大得惊人,可以装下50座图书馆的藏书,但迄今为止我们也没有见到这种奇迹出现,甚至没有发现哪一个人能够记住一座图书馆藏书的内容。现实的情况是,即便是记忆力超群的天才,也无时无刻不在与记忆错误及遗忘做斗争;而以当前计算机的存储能力,却可以轻而易举地装进人类所有图书(只要愿意这么去做),并且可以保证永不出错和永不丢失信息。

如果数学计算能力、记忆能力属于人类智能的范畴,那么在这两个方面,计算机的能力早已超过了人脑。一个有趣的现象是,一旦人的某种智能在机器上获得完美的实现,似乎人们就不再把它当作一种智能来看待,至少是不再把它当作一种高级智能来看待。尽管我们过去认为复杂的数学计算需要高级智能,现在也并不否认这一点,但似乎已经对计算机高速准确的计算习以为常。如今,科学家已将数学计算能力、记忆能力等作为弱人工智能——机器只不过看起来像是智能的,但是并不真正拥有智能,也不会有自主意识。他们要挑战的是强人工智能,想赋予计算机更多的类人智能,制造出有知觉的、有自我意识的,真正能推理(REASONING)和解决问题(PROBLEM_SOLVING)的智能机器。

三、基于统计学方法的人工智能

我们现在常说的人工智能,一般指强人工智能,发轫于上世纪50年代,其发展经历了巨大的起伏,大致可以分为两个阶段:第一阶段是上世纪50~60年代,其口号是“重建大脑”,试图赋予计算机人脑的思维能力,然而在兴盛一时之后,以失败告终;第二阶段是从上世纪70年代至今,随着计算能力的极大提高,人们转而基于统计学的方法,通过大规模数据库、复杂传感器、机器学习和巧妙算法来实现自然语言处理、语音识别、图像识别和视频识别等机器智能,在多个领域取得了重大突破。

基于统计学的人工智能取得了巨大成就,最典型的案例是国际象棋电脑“深蓝”、围棋电脑“AlphaGo”战胜世界冠军,自然语言处理电脑“沃森”在智力竞猜中击败人类,谷歌机器翻译的不断进步。

但是,基于统计学方法的人工智能技术,并不能使计算机真的像人一样理解、思考,而只能从大规模数据中发现统计方法所能发现的普遍规律和统计方法能够寻找到的最优对策,它的实现必须具备两个前提条件:

1.必须具备大规模(优质或混杂)的数据库。对于“深蓝”和“AlphaGo”来说,是大量的高手对弈的棋谱;对于“沃森”和谷歌翻译来说,是混杂的庞大语料库。

2.恒定不变或相对稳定的规则。对于“深蓝”和“AlphaGo”来说是国际象棋、中国围棋的千年不变的行棋规则;对于“沃森”和谷歌翻译来说,是变化极为微小的语法规则。如果没有大规模专门的数据库,就无法实现机器学习;如果规则处在不断变化之中,就难以进行预编程。

正是由于这种难以克服的局限性,现有计算机仍难以完成许多对人类大脑来说轻而易举的复杂任务。

“AlphaGo”之父哈萨比斯认为:“距离人脑水平的人工智能仍然相当遥远,可能还需要几十年”。他在回答记者采访时说:“你必须思考一下:为何我们现在还没有这些东西?为何我们还没有能够自动清理房屋的机器人?原因是每个房屋的布局、家居等各不相同。即使在你自己的房子中,其每天的状态也绝不一样,有时候会显得混乱不堪,有时候则十分整洁。因此你没法对机器人进行预编程,以方便其帮你整理房间。此外,还需要考虑到你的个人喜好,比如你喜欢如何叠衣服等。实际上这是个非常复杂的问题,人类做这些事很容易,但机器人处理却非常复杂。”

虽然计算机已经击败了国际象棋冠军、围棋世界冠军,但赋予计算机更多类人智能的努力,至今仍未成功。现实是——弱人工智能取得可观了的成就,强人工智能依然任重道远。那些对人类的政治、经济、军事决策将由计算机来主宰的担心,对机器人最终会成为人类的统治者的恐惧,其实是没有根据的。人类社会的变化越来越快,新生事物层出不穷,至少在当前和可预见的未来,我们不可能及时地构建和刷新政治、经济、军事活动的大规模数据库来训练计算机,并且,人类社会充满了不确定性,绝非仅用恒定不变或相对稳定的规则就能够描述。

在社会科学研究中,当前的人工智能技术还远远不能让我们满意。除语音识别达到了相当可观的水平外,现有文本分析技术有很大的局限性,并且精度不高;机器翻译、图像识别的水平仍然差强人意;对视频数据的处理,还仅限于将其中的语音转换成文本,然后进行有限的文本分析。

四、仿脑计算与类脑计算

人工智能有两个发展方向——仿脑计算与类脑计算。

1.仿脑计算:有的学者认为,要想实现真正意义的人工智能,必须首先在脑科学、认知神经科学上取得突破,清晰、准确地了解人脑的认知、思维机理。在此基础上,我们才能知道是否能够用电子器件来模拟人脑,如果能够模拟,才可能实现真正意义上的人工智能。也就是说,“仿脑计算”不是计算机领域取得突破就可以实现的,需要脑科学首先取得突破。而人脑的结构是迄今已知的最为复杂的结构,仅神经元就数以千亿计,每个神经元通过数千甚至上万个神经突触和其他神经元相连接,我们对人脑的认知、判断、思考等机理还知之甚少,在这方面取得重大突破尚无可预见的时间。对人脑的认知、判断、思考等机理的不知,意味着连讨论电子器件是否能够模拟人脑的条件还不具备。要对仿脑计算能够达到何种水平下结论,显然为时尚早。

2.类脑计算:有的学者认为,不必等待洞悉人类智能或心智的机理后再行模拟,可以绕过这个难题,通过结构仿真等工程技术手段间接达到功能模拟目的——从结构层次仿真入手,采用光电微纳器件模拟生物神经元,以及神经突触的信息处理功能,网络结构则仿照大脑神经网络,以模拟大脑神经系统的信息处理过程。他们认为在仿真达到一定精度后,类脑计算机将具备生物大脑类似的信息处理功能和系统行为,包括“灵感涌现”等高级智能。

对这种观点,学界依然充满争议。当前,类脑计算最成功的例子是“深度学习”(deeplearning),“深度学习”植根于对大脑视觉系统的研究。视觉系统由很多“层”神经网络组成,故而称之为“深度网络”。神经信号经第一层处理后送至第二层,经第二层进一步处理后送至第三层,以此类推。层与层之间的网络连接,是通过学习训练而形成的,所以称之为“深度学习”。目前,深度学习系统在完成某些任务上(比如二维物体识别)已接近人的能力,然而这个理论仍然有相当大的局限,例如,深度网络模型通常只有“前馈”连接(从第一层到第二层、第二层到第三层等等),而人脑的神经系统有很多“反馈”连接(如从第三层回到第二层),比如视觉注意力就来自于从高级“控制”脑区到初级视觉脑区的反馈信号。另外,训练深度网络的学习算法目前也十分有限,需要千万张图来训练网络。因此,“深度学习”尚无法具备自主学习、想象、创造等人类智能的高级特征。

从本质上看,“深度学习”仍然是基于统计学方法的人工智能,仅模拟大脑神经元的拓扑结构就能让计算机达到人脑的能力吗?

尽管对类脑计算能否实现人脑的高级智能尚存疑问,但可以肯定的是,类脑计算在大数据时代必将得到进一步发展。类脑计算水平的提高有赖于大规模数据库和大规模计算,而处在高速增长之中的大数据为形成特定人工智能的大规模数据库提供了数据源,云计算技术使大规模强时效性的计算得以实现,并且计算成本不断下降,这为类脑计算提供了强有力的支撑;类脑计算水平的提高,又会反过来促进大数据分析处理水平的提高。

类脑计算在自然语言理解、图像识别、视频识别三个方面的能力提升,对社会科学研究有重要价值;而仿脑计算的突破,将导致包括社会科学研究在内的诸多领域发生天翻地覆的变化。

社会科学研究者不必要(一般也不应该)去研究脑科学和研发人工智能,但必须保持对这两个科学领域相关研究进展的及时觉察,以预测未来非结构化数据处理技术的发展趋势和可能达到的水平,并做好相应的准备。

2016-10-12

国家社科基金重大项目“大数据时代计算社会科学的产生、现状与发展前景研究”(16ZDA086)的阶段性成果。

罗 俊(1969-),男,湖北武汉人,武汉大学社会发展研究院研究员,大数据与计算社会科学研究中心主任。研究方向:计算社会学、计算历史学。

猜你喜欢
类脑人脑社会科学
人脑拥有独特的纹路
《云南社会科学》征稿征订启事
《北京科技大学学报》(社会科学版)
《河北农业大学(社会科学版)》2021年喜报
神经元规模最大类脑计算机问世
让人脑洞大开的绘画方式
基于多尺度网格细胞模型的无人机类脑矢量导航方法
中国成立“类脑国家实验室”“借鉴人脑”攻关人工智能
让人脑洞大开的建筑
Sox2和Oct4在人脑胶质瘤组织中的表达及意义