深度报告:中国医疗数据创业的4大方向 峰瑞资本 2016-08-21 17:30
这篇文章从数据产生、数据处理、数据消费的角度分析了医疗数据产业链。 医疗行业是数据密集型产业,数据积累亘古存在。然而,在数据的应用水平上,医疗行业远远落后于互联网、金融和电信等信息化程度更好的行业。 峰瑞资本生物医疗技术团队从数据产生、数据处理、数据消费的角度分析了医疗数据产业链。分析显示,医院、诊所等专业医疗机构和保险机构仍然是医疗数据产生的最重要来源,来自手机 App 和可穿戴设备的数据开始提升数据的完整性、连续性和准确性;数据处理是个系统工程,包括清洗、整理、分析等标准环节,对数据结构化提出了更高要求;截至目前,为医疗数据买单的是 B 端的医疗机构、药企和保险公司,让 C 端的病人和医生为数据付费目前还不现实。 美国的医疗体制相对市场化,对医疗体系的投入巨大,使其在技术、服务和流程等支柱产业,都可以成为中国医疗产业发展的远景参照物。近几年,医疗数据产业在美国发展迅速。峰瑞资本生物医疗技术团队挑选了4 家有代表性的美国医疗大数据公司(Flatiron、IBM Watson Oncology、IMS Health Oncology、Palantir)做案例分析。 如果您在医疗健康领域有创业想法,可以与本文作者、峰瑞资本医疗组早期项目负责人王蕾( lei@freesvc.com)和谭验(yantan@freesvc.com)联系。加入峰瑞资本前,王蕾曾任职于美国最大的医药咨询和市场调研公司 IMS Health,负责为国际和中国本土医药企业提供战略和战术咨询。谭验曾是 Tamr 早期员工,大数据整合平台公司 Tamr 由 2014 年图灵奖获得者、美国数据库专家 Michael Stonebraker 创办。 大数据产业的出现和医疗数据投资策略分析 文 / 谭验(yantan@freesvc.com) 王蕾(lei@freesvc.com) /01/IBM用3V定义大数据 IBM 最早提出了大数据的 3V 定义。3V 是 Volume,Variety,Velocity。 Volume 比较好理解,因为大数据本身的 “大” 代表了数据数量的巨大。数据量越来越大的原因很多,其中一个是现在机器和网络每天都在生成大量的数据。据统计,我们现在每两天产生的数据量约等于自人类文明开始到 2013 年的数据量的总和。 第二个特征是 Variety,多样化。多样化主要指不同的数据来源和种类。传统意义上的数据主要来自类似 excel 的表格和数据库。现在人类能够分析各种形式和类型的数据,比如电子邮件、图片、视频、音频、监控仪器,等等。 第三个特征是 Velocity,即数据生成的速度。比如,互联网上数据的生成是以秒甚至毫秒来计算的。再比如,基因测序仪、网络监控的录像,都在随时随地产生大量数据。 以上 3 个 V 是公认的大数据定义。在 2013 年波士顿的大数据峰会上,Express Scripts 的首席数据科学家 Inderpal Bhandar 提出了 Veracity 的概念。Veracity 主要是指数据是否有偏差、数据噪声有多大,以及是否有异常值。当业界大量积累各种来源的数据时,数据是否准确变成一个非常重大的问题,否则最后就是 “Garbage in,Garbage out”。 峰瑞观点(freesvc) 从以上对大数据的描述可以发现,大数据对数据存储、数据传输和数据处理这 3 方面的能力提出了挑战。 企业在数据产生和处理端也逐渐出现了一些变化。企业开始存储海量数据,数据传输并分布式地存储到数据中心,数据在云端进行处理和分析,通过网络端进行数据的呈现并指导商业决策。 / 02 /大数据的产业链分析 |