机器学习的黄金年代，早期癌症治愈率高达89％

2016年，全球新发癌症数量超过1400万人，并导致了900万人的死亡。癌症在发达国家中已成为主要死亡原因之一，美国每年逝世的5个人当中有一人是因癌症致死。根据美国抗癌协会和国际癌症协会数据，所有的癌症都是越早治疗、治疗效果越好。癌症的早期发现，可以为病理诊断和治疗赢取更多的时间，能极大提高治愈率与患者生存周期及质量。癌症的早期筛查是个万亿级别的市场。

资本市场的火爆，得益于近十余年基因测序技术的迅猛发展，特别是在肿瘤领域的广泛应用。另一方面，机器学习技术在基因大数据处理上的大量应用，积累了前所未有的知识。这些全新的知识及组合为医疗界打开了一扇新世界的大门，使得医学工作者对许多疾病的认识、筛查和治疗都有了新的渠道和信息。

基因测序技术的进步使得基因分析更加的高效快捷

人可以被看作一台极其精密的仪器，人的一生，万亿计的细胞在体内不断复制更新，每代复制严格相同，但存在极其微小的错误率，造成所谓的基因突变。绝大多数突变无关紧要，少量突变造成抑制生长的基因的功能失常，或者激活生长基因，变成癌细胞。而癌细胞一旦逃避了免疫系统的监控，就造成生长失控变成癌组织。

一条人的基因组序列共有30亿位，按正常排版打印在A4纸上，大概有华盛顿纪念碑那么高。人与人之间会有小于千分之一的差异，癌细胞与自身的正常细胞基因组序列也会有细微的差别。基因测序的进步，让鉴别这些差别成为一件快速、高效、低成本的事。

计算机运算速度和能力的发展，进一步推动了基因分析的进步

由于人类基因组的复杂性，测序数据量非常庞大，一个人的全基因组测序数据可以达到上百G。普通的计算机技术和统计学方法无法在短时间内很好地处理这些信息，而机器学习的发展以及GPU运算的进步逐渐为科研工作者解决了这一难题。现在只需要将基因测序的数据输入经过机器学习反复训练的模型中，计算机就可以很快的分析出目标区域是否存在变异，进而找到可能变异的基因点位为医生提供更多的可用于诊断及治疗的信息。正是因为机器学习和基因测序技术的日渐成熟，以癌症筛查和诊断为首的各类疾病早筛项目渐渐成为科研及创投的热点。

机器学习是近年来非常火热的技术方向：

简单来说，机器学习就是为计算机提供大量的数据，而这些数据都有他们各自对应的标签，例如我们想教会计算机识别图片中的动物，我们则要提供各种各样的动物图片，并且每一张图片都带有对应的标签，这个是猫，这个是狗等等。机器在分析大量的数据之后会在图片之中找到规律，例如猫在图片中大多是独来独往，而许多有狗的图片中还有别的动物或人类。通过这些信息，计算机不断地调整，更新它的数学模型。

当有新的图片到来时，计算机就可以根据建立好的模型来判断哪个是猫，哪个是狗。当然，这只是一个非常简单的机器学习的例子，现在的机器学习已经被广泛应用于自动驾驶，数据分析，信息挖掘，治疗诊断等等许多在过去只有人类能够胜任的工作。成百上千的学习模型被开发出来，甚至有许多不需要大量数据，或者不需要带标签的数据就能学习的模型。正如70-80年代计算机开始爆发一般，这确实是一个机器学习的黄金年代。

今天就为大家详细的阐述一下机器学习是怎样与基因测序紧密合作完成癌症早筛的。

ctDNA是什么：

想理解基于基因测序的癌症早筛首先需要理解什么是ctDNA。ctDNA是circulating tumor DNA的缩写，也称为循环肿瘤DNA。是一种存在于血液、尿液、脑脊液等体液中的细胞外的基因片段，主要来自于坏死或凋亡的肿瘤细胞。ctDNA是癌症的特定标记物，如果能在血液中检测出ctDNA通常就意味着体内有癌症正在发生，这也是癌症早筛的基本原理。

然而，因为ctDNA和由正常细胞产生的游离DNA碎片是混合在一起的，只占所有游离DNA（cell-free DNA，cfDNA）含量的0.1%-1%之间，因此准确检测出ctDNA的难度相当的大。其中所涉及到的信号降噪，降低假阳性、假阴性的发生率等都是难度相当高的科研课题。

即使在体液中发现了ctDNA，由于血液循环，ctDNA可能来源于身体的任意一处，确定肿瘤在体内的生长位置也是另一件高难度的事情。得益于近些年肿瘤基因组测序结果的大量积累，科学家们发现了多种具有组织特异性的踪迹。通过机器学习的途径，结合这些踪迹信息，科学家们就能通过ctDNA来大致判断组织来源。

当然，人工智能的发展并不代表我们可以轻松地解决问题。尽管在现如今，机器学习，乃至深度学习已经拥有了许多开源的算法，哪怕只是一个普通人也可以在一定程度的学习后，运用现有的接口去开发一些简单的模型。但是也正是因为如此，不同层次的算法人才所做出的产品质量和效果也截然不同。正如汽车制造的普及使得人人都可以拥有自己的汽车，但是普通人与赛车手之间车技的差距却仍然非常明显。

同样，也因为这是个高度跨学科、知识密集型的领域，肿瘤早筛的创业团队在机器学习方面的专精程度和对肿瘤病理学的理解导致了产品质量和效果的巨大差距。譬如，由于人类基因组的高度复杂，和当前二代测序技术依然存在一定的错误，使得数据分析成为极为关键的一环。团队需要对测序数据的非常熟悉，精通数据挖掘的应用，以及对肿瘤临床知识有精准的理解。

链接：http://www.tuicool.com/articles/qyeuYnj

摘自——推酷周佳英