来源:朱慧(vishuo)
大数据分析已经应用在电信、金融、教育、医疗、军事、电子商务甚至政府决策几乎所有领域,尤其在医疗领域的应用越来越多,不同来源的医疗大数据对医疗细分领域已经产生了直接影响并将持续体现价值,全球科技巨擘们也都纷纷积极布局。总的来说,医疗大数据可分为四大类:诊疗数据、研发数据、患者数据以及支付和医保数据,其中,基因测序产生的大数据主要可归属于诊疗和患者数据,这类数据对于临床决策支持、疾病预防和管理、新药研发和基础研究等方面都有重大意义。本文主要针对国外科技巨头在基因大数据细分领域的主要布局和最新动向做全面介绍。
IBM
IBM的全称是International Business Machines Corporation,即国际商业机器公司,1924年由托马斯•沃森创立于美国,是全球最大的信息技术和业务解决方案公司。
IBM现任掌门人罗睿兰(Virginia Rometty),也是其历史上第一位女性CEO,对IBM的定义是:“IBM已经不再是一家硬件或软件公司,而已经转型为一家认知解决方案云平台公司。”而她所说的这个平台正式IBM Watson。IBM Watson目前已经在医疗健康、商业、教育、市场、供应链、金融服务等领域展开了应用。IBM Watson health板块中与基因大数据相关的几个项目包括Watsonfor oncology、Watson for genomics、Watson for drug discovery。
Watson for oncology,基于 Watson 认知计算的肿瘤解决方案。我们相对比较熟悉,因为它是 IBM 旗下 Watson health 首个在中国本土化的项目。在这个项目中,Watson 的作用是建造了一个多学科会诊(MDT)的场景,通过来自普外科、肿瘤内科、放疗科、放射科、病理科、内镜中心等科室的专家经验,提出适合患者的最佳治疗方案,继而由相关学科单独或多学科联合执行该治疗方案。Watson强大优势在于其凭借知识库中290多份医学期刊,200余种教科书以及一千两百万页的医学文献、以及美国国立综合癌症网络(NCCN)发布的临床指南、纪念斯隆-凯特琳癌症中心等世界顶级肿瘤学专业国际水准肿瘤治疗专业知识来给出诊疗建议。
Watson for genomics,基于 Watson 认知计算的基因组学解决方案,是11月初由 IBM 和奎斯特诊断公司(Quest Diagnostics)联合推出的项目,目的是帮助美国肿瘤学家发展个性化医疗。Watson for Genomics将会对匿名患者数据进行筛选,为全球范围能够推进研究、揭开抗药性癌症背后隐藏模式的科学组织提供可用信息。
Watson for drug discovery,基于 Watson 认知计算的新药研发解决方案,它是一个新的云平台,旨在帮助科学家发现新的药物靶点和替代性的药物的适应症。近日,辉瑞与 IBM 达成协议,辉瑞将利用Watson for drug discovery 的机器学习、自然语言处理及其它认知推理能力,用于免疫肿瘤学中的新药物识别、联合疗法和患者选择策略。
Microsoft
微软,其英文名称来源于“microcomputer”和“software”两个单词,1975 年由比尔•盖茨与保罗•艾伦创办于美国,以研发、制造、授权和提供广泛的电脑软件业务为主。提到微软,我们可能首先想到的是操作系统,还有其曾经“史上最值钱公司”的称号,但这位科技巨头早已风光不再,但在经过艰难转型之后,它已经在云服务与人工智能等新机遇面前迎来事业第二春。
在生物医学大数据领域,微软也早已启动了 Microsoft Biology Initiative 项目,此项目期望给生物信息学和生物学领域带来新的技术和工具,项目分为两个主要部分,即Microsoft Biology Foundation 和 Microsoft Biology Tools。MBF 是一个不依赖任何语言的生物信息学工具包,而 MBT 则是一个工具集,它能帮助生物学和生物信息学研究人员更有效的做出科学发现。相关具体信息和合作伙伴方面目前还没有更确切的消息来源。
Intel
英特尔,其英文名称来源于“Integrated”和“Electronics”两个单词的缩写,1968 年由罗伯特•诺伊斯和戈登•摩尔创办于美国,主要研制 CPU 处理器,是全球最大的个人计算机零件和 CPU 制造商。其推出的微处理器所带来的计算机和互联网革命,改变了整个世界。
上月,Intel 联手博德研究中心(Broad Institute)开展基因组信息整合计划,该计划致力于在未来五年内整合现有私人、公众以及云平台上的基因组数据以加速生命科学领域研究。简单科普一下博德研究中心,它是一个高水平的基因组学研究机构,隶属于麻省理工学院和哈佛大学,“CRISPR大神”张锋就是博德的核心成员之一。除了基本的合作,双方还希望帮助生物医药公司、学术机构以及医疗保险提供者在内的多个使用者打造一个基因组数据共享平台。
我们知道精准医疗是数据驱动的科学,这其中包含海量的基因组数据、影像学数据和其它临床数据。英特尔致力于驱动云计算以及日益智能互联的世界,充分发挥从云到端的技术领先性,为精准医疗注入计算优势。今年 6 月,英特尔携手合作伙伴推出“精准医疗伙伴计划”,共推中国精准医疗行业健康发展,并力争在 2020 年实现 24 小时之内完成包括基因序列检测、数据分析、疾病诊断,以及制定个性化治疗方案在内的精准医疗的主要过程,并进而让精准医疗早日惠及大众。
谷歌,1998 年由拉里•佩奇和谢尔盖•布林创办于美国,属于跨国科技企业,大家对它最深刻的印象可能还是全球最大的搜索引擎。2015年,谷歌宣布实施控股公司重组,Alphabet 成为继任者。从 2016 年第一季度开始,Alphabet分为谷歌和其它业务两个部分。谷歌包含互联网及相关业务、硬件产品和虚拟现实产品;其他部分则涉及到风投机构、生命科学和生物技术、google X 实验室(“神秘项目”)等方面。
基因大数据在分子诊断和个性化医疗方面有着非常诱人的前景,作为云计算平台的顶级服务商以及大健康积极关注者谷歌自然也不会放过这个机会。其于2013 年推出的一项名为 “Google Genomics”的云端服务,旨在帮助大学实验室和医院将患者或科研对象的生物基因储存到云端上,服务的目标是“探讨遗传变异交互”,意味着科研专家能够访问数百万的生物基因,并能轻松简单的进行对比分析。
其他方面,谷歌先后投资了Foundation medicine 和 DNAnexus 两家公司,前者是一家提供癌症全基因组测序及分析的公司;谷歌与后者DNAnexus 则一起打造一个巨大的开放式 DNA 数据库,并将共同接管联邦政府的国家生物技术信息中心(NCBI)的数据。这些数据将合并进入DNANexus的DNA信息历史文档,并储存于谷歌的云计算服务器,这是谷歌的云计算服务器中最大的第三方数据资料,免费向医学研究者提供接入服务。
另外,谷歌自身还成立了Calico 公司,利用大数据进行人类衰老及相关疾病方面研究,公司CEO 亚瑟•莱文森(Arthur Levinson)也是苹果公司董事。2014 年 7 月,google X 实验室启动Baseline Study 项目,大量收集人类基因组标本并利用大数据合成健康人类基因图谱,为疾病的提早发现及治疗提供前提。
Apple
苹果公司,由史蒂夫•乔布斯、斯蒂夫•沃兹尼亚克和罗•韦恩等人于 1976 年创立于美国。创立之初,主要开发和销售个人电脑,截至 2014 年致力于设计、开发和销售消费电子、计算机软件、在线服务和个人计算机。苹果公司在高科技企业中以创新闻名世界,乔布斯时代的苹果也的确让人仰望。
现任 CEO 蒂姆•库克(Tim Cook)多次明确表示,医疗领域是苹果公司一个“巨大的”机会。牵手 IBM 开展健康医疗大数据合作打造沃森健康云平台、与医疗机构的合作、以及正在筹备中的世界一流医疗科技团队,无一不显示着苹果在医疗领域的野心和抱负。从影响力、技术和资源上来看,苹果公司的确是做人群健康数据研究的不二之选。
关于其在医疗领域方面的布局,必须提到其建立的三种类型的“Kit”数据平台。分别是 “HealthKit”、“ResearchKit”以及“CareKit”,跟本文主题最相关的是ResearchKit。运行这个平台,首先需要用户提供唾液样本,创建基因数据后保存在 ResearchKit 的云计算平台中,医院和其他研究人员可以连接ResearchKit 平台获得大量研究样本,从而让一手资料的收集过程不再困难。ResearchKit平台上已经有不少科研机构开发的 APP 取得了不少成果,比如罗彻斯特大学、赛智生物网络共同推出的 mPower,可通过小测试、简单提问、让患者动动手脚的做法来判断帕金森症的病情状况,至今已有超过 10000 人参与,这是有史以来最大的一次帕金森症临床研究。
Amazon
亚马逊,全球商品品种最多的网上零售商和全球第二大互联网企业,1995 年成立于美国。公司的发展经历了三次大的转变,分别发生在 1994-1997 年,成为“地球上最大的书店”;1997-2001 年,成为“最大的综合网络零售商”;2001 年至今,成为“最以客户为中心的企业”。介绍这个背景就是让更多人了解到亚马逊真的不只是家网店,下面就是力证。
亚马逊云服务(Amazon Web Service, AWS),早在 2006 就推向市场,以 Web 服务的形式 向企业提供 IT 基础设施服务,现在通常称为云计算。作为 AWS 公共数据集项目的一部分,合格的研究者现在可以在 AWS 上免费访问两个世界上最大的癌症基因组数据集,即癌症基因组地图集(TCGA)和国际肿瘤基因组协作组 (ICGC)。这将使研究人员能够聚焦于他们的科学研究而不是基础设施,允许他们在更短的时间内取得更多的成果,最终加快癌症研究领域的研究和探索步伐。
TCGA 语料库囊括了从数以千计的癌症患者处收集来的原始和加工过的基因组、转录基因组、和表观基因组数据,现在在 AWS S3 上对 Cancer Genomics Cloud(CGC)的用户免费开放。现在在 AWS 上也可使癌症研究者访问 2400 多组被持续分析的基因组,这些基因组对应于1100 多位独特的 ICGC 捐赠者。这些数据也将在 AWS S3 上对那些符合 ICGC 数据共享策略并受到信任的研究者免费开放。
AWS 还托管了国际千人基因组计划(1000 Genomes Project)庞大数据库,并免费开放。目前该项目拥有超过 1700 个样本,高达 200TB 数据量的 DNA 序列,这些数据都可以通过 AWS 免费获取,用于进行疾病研究。千人基因组计划的取样包括来自 26 个种群超过 2600 人的基因组,今年国家卫生研究院将继续增加其余的基因组样本到公共数据库中。
Philips
飞利浦,全称是荷兰皇家飞利浦,1891 年成立于荷兰,主要生产照明、家庭电器、医疗系统方面的产品。可能我们对它最为熟知的是电子产品,但其实飞利浦是个综合性大集团,通过医疗保健、照明和优质生活三个交叉部门为专业市场和消费市场提供服务。
IntelliSpace Genomics,即 IntelliSpace 基因组学解决方案,飞利浦医疗众多 IT 解决方案的一种,其它还包括高级分子影像、心电图诊断、放射肿瘤学、心血管 IT 解决方案等。飞利浦的IntelliSpace 基因组学解决方案是一个可配置、可扩展,同时又是安全的医学信息解决方案,可为医院的医生和专家在治疗时提供实时可操作的诊断信息。这个平台使医生在集成的工作流程中能够利用最好的临床专业知识和系统运算能力去回答临床上的关键问题,它无缝衔接了来自多个数据源的数据,包括原始测序数据、最新的电子基因组数据库、临床资料和知识数据库、纵向患者记录、医学图像以及病理数据在内,这和 IBM 的Watson解决方案有些类似。
以上 7 家行业巨擘围绕着基因大数据的布局只是部分呈现了这个细分领域强大的号召力和发展前景,国内外还有不少优秀企业都已经启动了相关的项目和合作计划,比如Facebook、国内的阿里巴巴集团、华为、腾讯、百度等等。基因大数据是海量的,如何共享、规范、管理和利用是关键。大数据科学横跨信息科学、社会科学、网络科学、系统科学、生物医学、心理学、经济学等诸多领域,如何利用好大数据来推动各个细分领域的发展是我们需要长期思考的问题。