IT时报 -V6 新闻产业-
6新闻产业
  • ·AI+基因测序 疫情中的“救命良方”?
  • ·舍不去的流量 背不动的佣金

AI+基因测序 疫情中的“救命良方”?

准确率高但周期长 全面研究才能提出治疗方案

  

IT时报记者李蕴坤
  早在这次疫情横扫全国之前,生物科技界就将云计算与基因检测视作“黄金搭档”,因为海量的基因序列数据将带来庞大的计算机集群负担。
  虽然在过去的十几年里,基因测序的成本一降再降,从2007年绘制第一个中国人基因组的300万美元滑落至500美元,但是疫情之下,与其他确诊手段比起来,基因测序的成本之高和周期之长仍然十分突出。
  既然如此,云计算和人工智能又该如何驱动生物科技的变革?
周期过长确诊等不起
  “初期,病毒只能通过两种手段确诊,一种是基因比对法,另一种是PCR试剂盒,直到上个月第五版诊疗方案才把CT结果纳入诊断标准。”Ucloud医疗解决方案负责人王彬告诉《IT时报》记者。
  然而,若通过基因比对法来确诊,就要采集患者的基因与病毒基因进行比对,会导致确诊周期很长。王彬担心的是,在患者未被确诊之前,可能增加扩散的风险。
  上周,基于国家基因组科学数据中心授权,Ucloud为几十GB的新型冠状病毒基因库创建镜像文件。因为该数据集比较庞大,难以在医疗机构进行传播,导致很多医疗机构无法开展研究。该镜像文件的创建能够让企业、医疗机构更快、更便捷地使用详细的病毒数据,开展医疗研究。结合Ucloud的云计算和大数据科研方案,可满足医疗机构在基因测序分析上所需的算力及数据海量存储需求,加速新型冠状病毒的医疗科研成果。
  此前,百度研究院曾宣布免费开放LinearFold算法以及世界上现有最快的RNA结构预测网站,可将新型冠状病毒的全基因组二级结构预测从55分钟缩短至27秒,提速120倍。但是,预测病毒结构在整个基因测序的周期中占比并不大。因为患者要先到基因检测机构去做基因采集。按照基因测序的标准化流程,第一步是文库制备,对DNA样本进行片段化处理,将特定的接头连接至片段的两端,以此来制备测序文库;第二步是簇扩增,将DNA片段扩展成不同的克隆簇;最后才是测序、比对和分析,识别基因组之间的差异,之前的那些准备时间都是不可缩短的。
  虽然基因比对法的准确率比CT影像更高,但是两者的速度却天差地别。通过AI阅片,只需2-3秒就能完成病灶定量分析。“目前基因比对法需要2-4个小时。”王彬说。
药物研发求得最优解
  既然基因测序不适用于诊断场景,那在疫情之下,它又能做些什么?
  目前,基因测序主流的方法还是二代测序法,在往三代测序法演变的过程中,云计算能够满足大量存储和算力的需求。生物信息中需要建立模型,比如说测序仪采集到原始数据后还需要做相应的去重,而AI有助于训练出一个更好的模型框架。
  在生物信息行业中,因为应用场景和数据类型的不同,会导致所设计的pipeline(流水线)不同,也就是从数据清洗到发现变异、评估分析的整条流水线不同。AI有助于实现自定义pipeline,能够直接和BT(BioTech生物科技)相结合,在特征比对和变异发现的过程中可以让数据更好地流转起来,“很多生物工程的关键在于‘试’,一个一个排列组合地试。如果AI能够把pipeline优化好,实现多条流水线并行,就能很快速试出一个最佳结果。”
  除了国家基因组科学数据中心的基因库,Ucloud还从美国国立生物技术信息中心(NCBI)收集到了6份早期新冠肺炎患者的原始基因库数据。王彬表示,一个人的单次基因测序数据量大约为3GB,但通常需要30-40次检测才能完成全基因组测序,届时单人数据量就会高达100GB。而其中病毒所占的体量通常只有几个GB,和这部分基因进行比对至多只能确诊病例,无法起到疫情防护、药物研制的作用。自疫情爆发后,想要针对新冠病毒提出治疗方案、研发疫苗,那就需要对基因信息展开全面研究。
  中国工程院院士、华中农业大学教授陈焕春曾对外表示,新型冠状病毒属于SARS相关冠状病毒,而非SARS冠状病毒。美国加州大学圣迭戈分校医学院教授Robert Naviaux也曾在媒体采访中表示,根据Genebank数据库里给出的冠状病毒基因序列,再通过分析软件phyloT计算出不同病毒间的基因关系图,可以看出新型冠状病毒和SARS病毒属于同一“种”,被称为SARS相关病毒种,但不属于同一“簇”。“以前不知道新冠病毒和SARS病毒是两回事,以为抗疫药物很快就能研发出来。后来发现并不是这样,这个药物的研制周期可能要以半年为维度去计算。”王彬表示,通过将病毒相关数据库部署在云环境上,未来就能更多地服务基因测序、生物制药、生物农药等细分领域,加速抗疫药物的研发。