Xilinx FPGA 创造的吉尼斯世界纪录: 在最短时间内创下分析 1000 个人类基因组的世界纪录

日期:2018-03-23 作者:赛灵思官网
2017 年 10 月, 费城儿童医院 (CHOP) 与 Edico Genome 通过在 1000 个亚马逊 EC2 F1 实例上使用 Edico Genome 公司的 DRAGEN 加速器管线,共同在快速处理人类全基因组方面于创造了全新的科学界标准。
 
CHOP 使用 DRAGEN 加速器管线在短短 2 小时 25 分钟内即处理了 1,000 个儿童全基因组。这一成就被吉尼斯世界纪录认定为在最短时间内创下了分析 1000 个人类基因组的世界纪录。该项吉尼斯世界纪录获得了现场评判员的官方认可,并将在同行评审的期刊上发表结果。
 
该演示使用了 CHOP 专项重点项目中心(即应用基因组中心 (CAG))收录的 1000 例儿童患者的全基因组。匿名基因样本的选择不仅反映了整个生物样本库的组成,而且也代表了最常见的复合基因紊乱症和罕见的单基因疾病。将从亚马逊 S3 Bucket 中的 FASTQ 文件迁移至 EC2 F1.2xlarge 实例,可采用赛灵思 Virtex UltraScale+ 现场可编程门阵列 (FPGA)。DRAGEN 加速器管线功能包括映射、对齐、整理、复制标记以及单倍体调用(haplotype variant calling)等,当将变体调用格式 (VCF) 文件交付回安全的亚马逊 S3 Bucket 时,该过程结束。
 
CHOP 旗下 CAG 的主任、医学博士 Hakon Hakonarson 在新闻稿中表示:“今天的速度测试是 CAG 和 Edico Genome 两年来协作的结晶,其中也包括在我们的中心对其产品进行 Beta 版测试。我们使用 DRAGEN 作为我们基因组工作流的一部分,达成了将基础研究成果转换为医学创新的使命。该技术处理海量原始数据的速度极快,在几分钟内即完成,这就使得我们能在短短几小时内就交付切实有效的结果。这一至关重要的功能将成为我们进一步实现儿童与家庭精准医疗的强大优势。”
 
Hakonarson 在试验后向 Bio-IT World 表示:“现在,我们真的做到了。序列生成变得越来越不重要了。这是名符其实的信息研究流程,即将序列转化为可使用的文件,进而您就能开展表现型-基因型(phenotype-genotype)分析,[这才是真正的挑战所在],而这也是我们已经实现的。”
 
去年,Edico 将 DRAGEN 加速器管线移植到了 Amazon Web Service 的 EC2 F1/FPGA 实例中。此前,DRAGEN 仅适用于内部安装。今年 8 月,Edico 的总裁兼首席执行官 Pieter van Rooyen向 Bio-IT World表示,到目前为止,DRAGEN 加速器管线年内已在现场部署环境中处理了 12PB 的数据量。他随即还表示,预计对云端的使用还会进一步大幅增长。今年夏天他曾表示:“今后云端使用毋庸置疑会大幅提升。在云端处理基因组数据是必然的发展趋势。坦诚地说,我认为混合解决方案才是正确的解决之道,也就是将现场与云端相结合。”
 
不过,Hakonarson 提出了访问云端 DRAGEN 的灵活性问题。“在 Broad、Baylor、WashU 及西雅图等多个地点都有大规模排序中心,需要处理大量数据。这些中心设备精良,显然具有处理数据的能力。不过,各种中型企业类型机构现在也要处理序列,这些机构的具体体量各不相同,他们在处理方面面临困难。(参见Shawn Levy 对安装在 HudsonAlpha 上的 DRAGEN 的初始印象。)
 
虽然吉尼斯世界纪录反映的是测试速度,但是其处理的成本也很低廉。Hakonarson 指出:“事实上并不太贵。由于仅用了短短的两个小时,所以实际成本相对较低。”他谢绝提供具体金额,但表示“我们指的是单位样本的成本”。随后他又补充说:“当然,成本在大多数情况下都至关重要。但是,如果婴儿在 NICU 内抢救,而您又必须针对诊断目的快速处理数据,那么这时花钱也是必须的事情。”
 
此外,将 Edico 的管道用于临床领域还创造了另一项吉尼斯世界纪录:26 小时基因组诊断,该项目由来自堪萨斯城儿童慈善医院旗下儿科基因组医学中心的 Stephen Kingsmore 及其同事执行,论文于 2015 年发表在《基因组医学》上。
 
昨天,在 ASHG 上进行演示所用的数据不是临床数据。样本来自 CAG 生物资料库,都是删除了身份识别信息的研究样本。样本的 60% 以上来自非洲裔美国人,这也成为迄今为止这类人群规模最大的基因组排序之一。CAG 将使用快速分析所得的结果,希望从中发现哮喘、自闭症、糖尿病、癫痫、肥胖、精神分裂、儿童癌症等常见儿童疾病以及各种罕见病的基因联系。
 
CAG 拥有总量约 100,000 个样本的生物资料库,同时还拥有对协作伙伴 350,000 个样本的权限访问。Hakonarson 指出,基本上所有样本都进行了基因型分析。数千个样本进行了外显子测序(exome sequenced),并有 2000 个样本完成了全基因组测序。
Hakonarson 指出,全基因组测序的成本是限制性因素,他表示“每个样本的成本约 1500 美元。如果我们能负担起 100,000 个样本分析的成本,那么我们立即就会行动!”目前,CAG 正兢兢业业,努力在今年年底前完成约 10,000 个样本的全基因组测序。
关于OpenHW  |  OpenHW使用说明  |  FAQ  |  相关法律  |  版权声明
联系邮件: openhw@eefocus.com   联系电话: 0512-80981663-8062     Fax:0512-80981279
Powered by eefocus.com