小毛病,先找机器人医生“聊一聊”

2018-04-25 14:57袁斯来
第一财经 2018年14期
关键词:张超夫子结构化

袁斯来

如果身体有些不太舒服,我们可能不会马上加入到三甲医院看病的人海中,为个小毛病挂上百元的专家号。很多时候,人们习惯于先上网搜索一番,对症自我诊断一下,再看是不是真有必要劳心费力地跑一趟。

没有任何医学背景的张超创立康夫子就是想让用户的自我诊断更加专业一些。康夫子是一家医疗人工智能(AI)辅助诊疗提供商,它想用AI培养出靠谱的机器人“全科医生”,更好地提高就诊效率,尽可能利用有限的医疗资源。它的预问诊机器人能嵌入到各大挂号平台和医院的医院信息系统(HIS)中,完成智能导诊和分诊,让病人更准确地找到医生,帮医生节约重复性询问和初诊时间。目前,康夫子已经和知名的HIS系统提供商东华软件、东软集团、健康160、360良医搜索等数十家企业达成合作,并且在2017年9月完成5000万元人民币A轮融资,投资方为火山石资本和宽带资本旗下的晨山基金,天使轮投资方晨兴资本跟投。

康夫子的创始人张超是个不折不扣的理工男,他本科在成都的电子科技大学学数学,到新加坡交换时,研究方向为自然语言处理,也曾在百度从事自然语言处理和信息提取工作。2015年,一直想创业的张超终于还是离开了百度,拉着自己的同事成立了康夫子。当年和他一起交换的同学很多拿到了美国的教职,有的还成了“青年千人计划”学者,但“我是肯定要去工业界的,我还是喜欢折腾”,张超告诉《第一财经周刊》。

其实,张超当时也还不知道AI将成为一个大风口,他们小团队最大的强项是善于做知识图谱和自然语言处理,他想要切入的是一个既需要技术,又需要“知识经验”的领域。最开始,张超甚至还想过去做金融领域的应用,但被在金融行业工作的妻子劝住了。后来他和同伴几乎是凭直觉选择了医疗健康行业,“当时觉得医疗变化很剧烈,觉得这样的领域能杀出来。”张超说。

正巧那个时候,妻子怀孕,张超就想着做个针对孕妇膳食营养分析的应用。他们拿着靠“刷脸”得到的将近200万元投资,五六个人全职投入进去,很快就推出了一款“孕妇营养”的小工具。最开始,这个应用的表现还不错,但当他们兴致勃勃地上线了更详细的分析功能,要做产品迭代时,日活没上升,反而下跌了不少。准妈妈们对每天多吃或少吃“一个苹果”其实没有多大的兴趣,那些分析可能远不如关键意见领袖(KOL)的一碗心灵鸡汤有用。“孕妇需要心理慰藉,需要很多运营,我们不擅长。”张超感觉失去了方向。

张超意识到他们几个理工男必须从纯“技术思维”中走出来,真正从产品的角度去关注用户的刚需。他想起自己在百度工作时,很多人会搜索“头痛应该怎么办”“咳嗽是什么病”这类问题。在张超看来,即使除开导流的因素,搜索引擎上良莠不齐的答案其实并不能很好地解决问题,这就意味着他们的强项可能有用武之地。

在国外,有了这些常见的症状,人们首先会去找全科医生诊疗。同样是头痛,可能只是感冒,也可能是恶性肿瘤的症状表现,如果是后者,就会很快转到专科医生处,全科医生承担的是分诊的工作。而在国内,更多人是直接到大医院找到专科医生。这样一来,很可能大把时间就浪费在了一次次转诊上。

“平时看病就和升级打怪一样,要花很多钱,还会走很多弯路。计算机技术能够缩短就医路径,这个是刚需。”张超说。

虽然选定了新方向,但这时候的张超还对之前做的营养分析产品念念不忘,拿着BP给投资人做介绍时,他还提到70%做医疗,30%做营养。投资人明确表示,“不要说营养,我只对医疗感兴趣”,张超才终于放弃了之前的产品。

转型自然是痛苦的。他们实际上要从无到有去训练一个全科医生,最重要的就是要搭建一个诊疗“知识图谱”。

医学是一门知识+经验驱动的学科,知识图谱是知识非常好的表达方式。很多日常会使用的功能都可以靠知识图谱解决,比如越来越“聪明”,能够理解我们话语的“语义搜索”—输入“咳嗽可能是感冒吗”,计算机就会去查找“咳嗽”和“感冒”的关系,再分析推理,之后给出相应结果。

在康夫子,最初的知识图谱搭建非常艰难。他们得教会计算机像人类一样学习海量的医学文献,在分析数据后,发现上亿条文本书写的规律,还要根据规律,从这些文本中自动抽取知识,形成一张网络交错的图谱。

训练计算机的“学习原料”就是结构化的数据。所谓结构化,就是将以自然语言书写的文献或者病历,处理成计算机能够理解的信息点。“最关键的是要从无结构化中提取出结构化的信息,比如用了什么药,症状是什么,表现怎么样,必须是明确结构化后的知识。”康夫子的技术合伙人栗晓华告诉《第一财经周刊》。

而且,仅仅是提取信息点远远不够,还要把口语和专业的术语对应,才能形成医疗上的判断。这需要计算机具备推理能力,比如它能自动把“拉肚子”和“腹泻”“抽筋”及“痉挛”联系在一起。

但是,仅仅搭建这样一个图谱,还不足以辅助诊断。一种症状可能对应多个疾病,计算机还得算出不同疾病之间的权重,才能为医生的诊断提供一目了然的参考意见。他们计算权重,用的是统计学的办法,比如感冒病人里面有多少有咳嗽症状,然后根据病人的回答做计算。“你要定义成医生助手,即使是医生,也会有反应不过来的时候,机器能避免盲区。我们不是帮著决策,只是收集数据,给出建议,不是帮医生做决定。”张超说。

既需要将海量信息提取和串联,还需要算出不同可能性,对技术来说是巨大的考验。好在张超团队之前在百度做的就是类似的工作,当时他们每天需要在上千亿个网页中抽取知识点,算是有了方法论上的优势,所以康夫子花三个多月就搭建起了初版引 擎。

现在看来,张超他们转型初期还是陷入了过于迷信“技术至上”的误区。虽然一开始就组建了自己的医学团队,但张超并没有多重视医学本身的特殊性。他很简单地认为,“只要数据足够多,应该就能跑出漂亮的模型。”

实际上,要建立起完善的诊疗技术的知识图谱,他们很多时候还是彻底的外行。比如用药,张超只是觉得把说明书扔到系统里,分析下每种病应该用什么药,完全没想到要考虑药物冲突、药物禁忌,还要知道病人的过敏史和用药史。

而康夫子刚开始的交互甚至没有办法判断患者是急症还是慢症,这只能通过不断交互去优化。比如同样是出血,有可能只是小擦伤包扎一下就行,也可能是被带铁锈的利器划伤,这会儿就没时间再一问一答了,康夫子应该马上建议患者去医院挂外科号,打破伤风针。

张超设想的应用场景是高度模拟医生问诊的对话式人机界面,要做到这一点,他们必须获得大量医患就诊时一问一答的数据记录,来训练对话引擎。但实际情况是,医患之间的这些回答最终都体现在病历中,无法逆向还原。虽然他们能够从患者填写的材料中获得一些数据,但这些远不足以支撑一个合格的“机器医生”需要的计算。

康夫子只能用“笨办法”解决,招聘了一批有医学背景的员工,让他们通过病历,反向还原问答场景。比如医生只记录了腹痛几天,他们就需要还原出“腹痛多长时间”“痛了3天”这样详细的回答。

现在来看,康夫子的客户主要集中在B端。走到这一步,他们踩过的“坑“还是不少。他们最早的客户是一家医疗信息技术公司,张超希望帮他们做电子病历评级,对方一开始很不感兴趣,“就觉得,你们团队活到什么时候我们都不知道”,张超说,直到拿到一笔新投资,对方才答应让他们“试试”。

康夫子早期另一家重要的合作伙伴是东华软件,这家公司的客户包括北京协和医院、四川大学华西医院等。康夫子为它们提供的还是比较简单的病历结构化产品,也就是把病历“翻译”成计算机能够识别的信息点。

但刚开始,客户对他们的产品并不满意。他们提供的结构化数据几乎就是照本宣科,很难达到医生的需求。“就是没满足具体场景和医生患者的心态。”张超后来检讨。比如做鼻咽癌结构化,他们提取的只是一些症状加上检查报告,但实际在临床诊断上,医生非常关注患者的吸烟史,甚至会细化到几岁开始吸烟、习惯抽什么牌子多少价位的烟、每天吸多少支、平时吸烟会不会用滤嘴等。

不止如此,他们的“外行”还导致了不少bug,比如只是很机械地复制理想化的看病流程,和真实场景相差很远,在和山东大学齐鲁儿童医院合作时,有些科室号挂完了,康夫子的机器人医生就束手无策,直接让患者回家。但实际上,病人可以去问导诊台还有没有其他科室的医生也能诊断。“越做越发现,这是个非常庞大的系统,所以对系统的理解是一层层的,越做越复杂,不是单纯用算法能够解决的问题。”张超感慨。

张超也是从这时开始越来越重视医疗团队。从前医疗团队只是做数据标注和医疗建模,现在他们成了所有产品的“裁判员”,产品合不合格,首先得通过他们这关,看看是否满意,有没有不符合他们常识和认知的部分,只有得到医学团队的认可,产品才会上 线。

不过,除了挫折,现实的场景有时也会带来意外之喜,比如儿科和妇科,康夫子就做了单独的优化,因为这些患者在就诊时会填写得非常详细。“尤其是家长,一般都受过比较好的教育,所以填写的数据质量非常高。”张超说。

经过了两年的时间,康夫子的引擎在这样的试错和调整中一点点成熟。到现在,如果加上检验报告的数据,康夫子辅助诊断引擎算出的结果和医生诊断的重合度基本能达到90%。

这个结果意味着AI辅助诊疗领域巨大的想象空间。“人工智能医生不是很近的事,但也没那么遥远。第一步是先要达到一定水平,要人机能PK,第二才是在监管下作出诊断。未来可能做到人工智能家庭医生的级别。”火山石资本副总裁刘凯告诉《第一财经周 刊》。

一直以来,国内的医生都是短缺资源。卫生计划委的报告表明,2017年1月至11月,中国医疗卫生机构总诊疗人次达73亿,比2016年多了2.1亿人次。但是,去年新增的医生不过20万左右。

所以,康夫子这样的人工智能医疗产品获得资本青睐的主要原因是它们实际上增加了医疗生产力,而不是简单地做了生产力的分配。AI醫生的未来目标,就是能够复制医生的能力,甚至代替他们做一些重复性的工作,这样能最大限度解放医生的生产力。“引擎和AI算法的规模效益会很高,边际成本很低,如果能够替代医生30%的工作量,会有巨大的潜力。”学医出身的刘凯对此还是充满信心。

猜你喜欢
张超夫子结构化
夫子的挑战
My New Invention
How to Protect Us from Infectious Diseases
促进知识结构化的主题式复习初探
结构化面试方法在研究生复试中的应用
夫子之文章
基于图模型的通用半结构化数据检索
基于软信息的结构化转换