陈运文:只要有足够的数据,这个世界没有偶然

2016-04-11 21:07上海国资金琳
上海国资 2016年7期
关键词:数据挖掘用户

文‖《上海国资》记者 金琳

陈运文:只要有足够的数据,这个世界没有偶然

文‖《上海国资》记者 金琳

他为公司新入职的同事下发了一套题,如何预测泰坦尼克号上的幸存者

在绝大多数人尚未听说过大数据这个名字的时候,陈运文就已经浸淫其中。如今大数据如火如荼,离职创业对于他来说是一件水到渠成的事情。良好的教育和职业背景使陈运文创办的达观数据在张江高科“895创业营”中脱颖而出。

著名投资人巴菲特曾经说,对投资高科技行业不感兴趣,因为这个行业变化太快,竞争激烈,难以把握。对此,陈运文则自信地表示,大数据领域竞争相对较少,自己的团队一直处于技术研发一线,这是别人难以逾越的核心竞争力。

正因为此,“达观数据科技”成立短短几个月,就获得了来自真格基金领投的1000万人民币天使轮融资,众米资本和掌门科技集团跟投。

数据应用已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。

达观数据抓住潮流。

出身

2008年获得复旦大学计算机博士学位的陈运文有着让旁人羡慕的履历,毕业后的第一份工作就是百度核心技术研发工程师,后进入盛大创新院担任大数据团队负责人,成为盛大文学、腾讯文学首席数据官。

“在复旦掌握了学术界前沿的数据挖掘技术,在百度是从学术界进入产业界,理论转化为实践。在盛大开拓了视野,结识了很多互联网各个方向的精英。在腾讯锻炼和提升了团队管理能力。每一份经历都是一次收获,不过最难忘的还是盛大研究院。”陈运文说。

陈运文一直对盛大网络心存感激,他告诉记者,“盛大网络放手让技术人员去探索,让我们去参加竞赛”。正是这种敢于投入,敢于涉足前沿研究的魄力,让陈运文成为国内第一批接触大数据领域的人。

陈运文与盛大网络结缘于2010年。那一年,还在北京百度工作的陈运文在一次聚会上结识了当时的盛大创新院一位副院长,他向陈运文介绍了盛大创新院的规划:既要进行创新项目的孵化,又可以结合盛大内部的应用需求来做一些有意思的工作。那时盛大正处于巅峰状态,盛大游戏一骑绝尘,管理层希望在其他领域有所拓展,据说盛大创新院最初是要模仿普林斯顿大学高级研究院,在这种思路下,盛大以业内一流的薪水,从全国各地招聘了很多一流的互联网人才。陈运文是江苏人,去百度工作之前,他在复旦计算机系攻读了硕士和博士,盛大网络描绘的蓝图让有意向回上海发展的陈运文非常心动。很快,他就接到了邀请加入盛大创新院的电话。

陈运文说,创新院聚集了各行各业的技术牛人,没有经营压力,没有KPI考核,没有部门之间的隔阂,有的是脑洞大开和激情四射。“有想法的人都有很强的内在驱动力。”云计算、多媒体、大数据……,那些当时听上去有点儿玄的技术,现在都成了最热的名词。

创新院的氛围让陈运文感触颇深。“创新院有两项独特的制度,一个是技术分享会,每周开一次讲座,大牛们轮流上阵,有助于大家开阔眼界。另一个制度是项目评审会,如果有好的想法可以提出,大家帮忙出主意,不同意的可以‘拍砖’。”这些制度看起来平等、民主、公开。陈运文说,创新院总是鼓励大家去试一试,志同道合的几位小伙伴很容易就聚在一起把点子实现出来,例如现在用户规模达7个亿的Wi-Fi万能钥匙当时也只是创新院里一个初创的项目。

在盛大创新院,陈运文负责大数据研究。在创新院宽松的氛围下,2011年,陈运文所在的大数据团队开发出了一套个性化的推荐系统,这个系统涵盖了获取新闻、深度分析、用户个性化口味的建模和精准推荐等一系列服务。

值得一提的是,因为在盛大大数据挖掘方面的优异成绩,他作为队长代表创新院参加了各项国际比赛,在国际计算机学会的大数据挖掘竞赛中,拿到过国际亚军,创下中国大陆企业参赛的历史最好成绩。在2012年伦敦大数据黑客马拉松大赛和2013年ACMCIKM举办的国际数据挖掘竞赛中,他又连夺两个冠军,并受到盛大集团最高层的亲自嘉奖。如今,这些奖状被摆放在陈运文办公室的显眼位置。让陈运文记忆最深刻的是2012年在伦敦举办的EMI数据黑客竞赛,“我们对500万听歌用户的数据进行了挖掘,开发了系统分析用户偏好模型,形成了500万个预测模型,从数十万首曲库中预测每个用户最有可能接下来收听的歌曲,精度超过了其他300支参赛队获得了冠军。竞赛过程中我们和剑桥大学代表队的算法交替领先,在竞赛截止前1分钟才最终锁定胜局”。

“聚是一团火,散是满天星。”尽管最后盛大创新院解散了,但是陈运文认为,“这是创业人才的黄埔军校”。陈运文说,盛大创新院走出去的团队在上海创业圈形成了巨大的影响。

投入

在盛大创新院解散后,陈运文和他的团队加入了盛大文学,担任首席数据官。

在盛大文学,他开发了针对文本的自动审核系统,搭建了文学搜索引擎和推荐系统。正是有了这些系统,读者才能从浩瀚的书籍中找到自己想看的内容。盛大文学被腾讯并购后,陈运文又加入腾讯担任数据中心的负责人。他领衔开发的这些系统还在继续沿用。

2015年年底,陈运文和他的团队正式创业,很顺利地拿到了投资,天使轮一共融到了1000万元。公司业务主要面向企业,已与多家企业建立了合作关系,帮助企业挖掘大数据,并与一些媒体展开合作,开发了针对读者的个性化推荐系统。公司还服务两万多家新媒体,推出了新媒体大数据排行榜。

大数据产业链大致可分为上游大数据资源、中游大数据储存与分析以及下游大数据应用三个环节。其中,数据资源是大数据发展的基础和前提,目前主要掌握在政府部门、国有企业以及BAT等大型互联网公司手中。数据加工、处理、流通以及应用是实现数据价值的终点和驱动力,也是陈运文等创业企业大展身手的战场。

达观数据人才济济,陈运文任CEO,CTO纪达麒是原腾讯文学数据中心高级研究员、搜狗广告系统架构师;COO冯佳妮是原盛大云计算公司运营总监;首席科学家段如冰也是原盛大创新院资深研究员,美国南加州大学博士后……不过,在创办公司的过程中,陈运文觉得最大的困难是寻找人才。“应聘者一般希望选择大的平台,我们希望招到大数据领域最好的工程师,最有潜力的毕业生,就要做好说服工作。”陈运文说,公司通过提供有竞争力的薪酬,小而美的特色来吸引人才。“我们会给员工提供全面的锻炼机会。”

关于大数据,陈运文的理解是,数据要落地,产生价值,才是真正有用的大数据应用。“这里的落地,既可以是对历史数据的总结,生成报表,更可以是对未来数据的预测,并提供自动化的服务。达观数据就在这些落地的方向深耕。”他对记者说,“通过大数据,很多事情都是可以预测的。”

他为公司新入职的同事下发了一套题——如何预测泰坦尼克号上的幸存者。整套题通过获取泰坦尼克号上所有乘客的真实信息,包括性别、年龄、职业、票价、舱位等,然后编写程序来预测这2000余名乘员中哪些人最终得以生还。

在陈运文眼里,将所有信息加以综合挖掘,就能够推演出最终的答案——“705名生还者都可以准确预测。”

预测这样的事件只是数据挖掘的一个案例,对于极客而言,只要给他们足够的信息,这个世界就没有意外和偶然。

现在,陈运文用自己的技术帮助企业进行商业决策。陈运文将第一批客户瞄准为自媒体人,通过数据分析,为自媒体提供可以引发热议的话题,并告诉这些作者,什么人喜爱看他们的文章、会关注什么话题。让机器自己学会分析信息早就在商业行为中广泛存在。在百度工作期间,陈运文负责搜索引擎的核心算法研究,主要“为用户提供最有价值的信息”。工作的难点不在于搜索信息,而在于让机器认知用户的搜索意图。

用户经常会在搜索框中输入“口语词汇或者模糊的语句”,服务器要从人们的搜索语句中判断真正的需求。陈运文就需要设计算法让搜索引擎理解用户的语义,从数百亿的网页中迅速找到对用户最有价值的结果。这种“算法”就属于人工智能。百度每天的搜索有数十亿次,每当陈运文改进了算法都能看到用户点击的满意度在上升。

商业模式

达观数据已经形成了清晰的商业模式,按照数据规模、模块功能、使用时长收取技术服务费。公司在创立四个月后已经实现盈亏平衡,计划在今年下半年起在全国扩大销售和市场规模。

达观数据利用在推荐系统和机器学习等领域的技术优势,专注于为企业提供大数据挖掘服务,服务对象不仅有目前活跃的新媒体行业,也包括电商、金融、传统企业等。在895创业营的培养下,达观数据快速成长,现已针对电商、新媒体和服务企业开发了多个大数据解决方案,其提供的大数据预测、搜索引擎、个性化推荐等产品服务能够帮助客户更好地提升点击率,实现广告营销。

陈运文说:“我们面向这些企业的收费是阶梯性设置的,根据用户的数据规模、调用接口的数量和频次等指标来定价。”而他们服务过的企业,除了可提供已经开通使用的功能,还会根据所采集的反馈数据,持续优化系统。

“虽然我们现在还是一个很小的公司,但目标远大。希望未来大家讨论大数据的时候,都能想到‘达观’。我觉得这样我们就成功了。”中国互联网都会以国际上成功的企业为范本,达观也是如此,达观对标的是一家美国大数据服务公司Taboola,这家公司通过帮助发行商网站提升流量并通过广告盈利,发展极为迅速,已成为仅次于Google的北美第二大流量公司。

陈运文的耐心和亲和力让人印象深刻。他认为,老板的亲和力能让团队更有“韧性”,尤其逆境的时候大家能沉得住气,能一起团队起来想办法。“我希望自己能身先士卒,让员工打心眼里佩服我、信任我,愿意跟着我一起坚持到底。”

回顾创业来的历程。他说:“事实上,大数据应用的需求很多,出发之前你会发现这个领域很多条路都能走。但你其实不知道哪条路能走到终点。”陈运文一直很和缓的语气忽然加重了点,“但我们会沿着现在的路坚定走下去。”

猜你喜欢
数据挖掘用户
探讨人工智能与数据挖掘发展趋势
基于并行计算的大数据挖掘在电网中的应用
关注用户
数据挖掘技术在中医诊疗数据分析中的应用
关注用户
关注用户
一种基于Hadoop的大数据挖掘云服务及应用
Camera360:拍出5亿用户
100万用户
如何获取一亿海外用户