华大基因:挖掘人体的大数据

2014-08-11 01:02
中国计算机报 2014年27期
关键词:华大基因黔西南天河

“一个人的基因总和是6×1023字节,谁还有这么大的数据?没有!我们每个人身体所携带的信息,比现在世界上已知信息的总和还要多。”华大基因董事长汪建说。根据IDC的预测,到2020年,全球数据总量为40ZB(4×1023字节),人均5247GB。

“在此之前,国内所有的大数据活动从未邀请我们参加,我们感到很不平衡。”汪建说,“人们常说低价值是大数据的特征之一,而我们研究的基因是高价值,人的生老病死都在这些数据里面。”的确,小到生命个体的音容笑貌、生老病死,大到社会发展乃至人类繁衍生息,还有比这更有价值的事情吗?汪建的演讲不仅讲述了信息技术与生物技术结合展现出的广阔应用前景,更重要的是言语之间传递出的科技应该普惠民生的人文精神。基因的价值唯有通过信息技术才能挖掘出来。华大基因成立十多年后,汪建发现华大基因的数据产出量,每两年都要在其后面增加一个0,增长速度远远超过摩尔定律的每两年晶体管集成度增加1倍。“基因测定过去很长时间都是跑在我们自己的计算机上,到了后来扛不住了。”汪建说,“‘天河一号曾经名列全球超级计算机500强第一名,华大基因在‘天河一号中的使用率达到50%,半个多月前启动的‘天河二号有8000个CPU节点,我们预定了3000个。”

特立独行的汪建认为,当前大数据的目标都太大,而“我们的目标很小也很简单,就是健康长寿、不病不傻,我的健康我做主,生老病死我掌握”。汪建说:“12年前,我的血液分离出来都是白色的,高血脂、高血压、冠心病集于一身,基本上属于无可救药了。经过分析,又发现我的基因包含:出生缺陷、心脑血管及猝死相关基因、肿瘤易感基因、酗酒嗜烟基因、老年痴呆基因、药物敏感基因。”然而,汪建却身“残”志坚,在56岁那一年,成功登顶珠峰,成为国内登顶珠峰最年长的登山队员。汪建的秘密在于“从不吃任何保健药,而是定期检测体内激素、维生素和氨基酸的水平,缺什么就补什么。”

根据卫生部2012年发布的《中国出生缺陷防治报告》,目前我国出生缺陷发生率在5.6%左右,每年新增出生缺陷数约为90万例。出生缺陷首先是给家庭带来不幸,其次也影响到社会的发展。“广东省贫困人口中一半是因病致贫或者返贫,”汪建说,“如果我们将癌症早期发现率提前1年,那么病人5年的存活率至少可以提高2~3倍。控制出生缺陷、预防心脑血管疾病、肿瘤个体化治疗、抵抗衰老乃至女性美容,哪一个不是价值成千上万亿元的产业?”

大部分精力放在慈善事业的盖茨,曾经多次拜访华大基因。第一次拜访时,汪建对西装革履的盖茨说,华大基因有个不许穿西装更不许打领带的规定。于是,从第二次开始,盖茨入乡随俗。“我们最短一次谈了2个小时,最长交流了6个小时,双方签订了16项重要合同。”汪建说,“我跟盖茨说,我们不要你的钱,你提出一个项目,双方各出一半的钱,共同为人类做点事情。”

贵州省黔西南是我国的基因宝库,具有民族多样性和生物多样性,是疾病研究的宝贵资源。“黔西南山区的遗传性疾病有其多样性和特殊性,我们能够控制黔西南的遗传性疾病,我们就能控制中国其他山区的遗传性疾病,我相信也可通过盖茨推广到全世界去控制这些遗传性疾病。”汪建说,“贵州是生态宝地,好山好水好地方,养身养水养健康。我们依靠创新驱动,依靠服务民生,建立一个新的集聚区,来共同减少出生缺陷、肿瘤和心脑血管病。这三类疾病加在一起对人类健康和生死的影响率达80%,如果我们在这80%上对人类有所贡献,我们就不会愧对一生。华大做任何事情都是从个人开始的,我想这样的结果一定是有利于一个地方的发展,有利于一个城市的发展,也会有利于一个国家的发展。用基因科技造福人类,是我们最大的愿望。”汪建表示。

当今,经历了实验科学、理论推演、计算机仿真后,科学研究正进入第四范式——数据密集型科学发现。华大基因在智惠民生、产业报国的同时,也在科学研究上硕果累累,多次在《自然》、《科学》等权威杂志上发布文章,从而成为科学研究第四范式的范例之一。endprint

猜你喜欢
华大基因黔西南天河
黔西南,美丽的家园
湖南省潇水涔天河水库扩建工程通过竣工验收
华大基因收入疑云
一条天河走运来
寻味贵州——黔西南
昔日千亿市值半年跌去六成 华大基因“举报门”后又迎解禁潮
华大基因大股东是以“白菜价”减持吗
天河CBD:集聚创新,遇见城市未来
“天河二号”获全球超算五连冠等
浅析黔西南雄武背斜构造特征