高性能计算中心

网站首页 > 新闻动态 > 正文

超算抗疫|超算助力分析定位新冠病毒元凶

发布时间:2022-06-07 来源:深圳云计算中心 点击次数:

新冠肺炎疫情防控形势持续向好,生产生活秩序加速恢复。在这场生死时速的战疫中,科学技术是强有力的武器,科技创新是“硬核”力量。药物筛选、病毒溯源、疫苗研制,争分夺秒背后,都有超级计算机的身影,它成为了我们与病毒赛跑的“加速器”。

 

新型冠状病毒,呈球状,直径约为100nm~160nm,基因组是一条单股正链RNA,大约包含3万个碱基,属于基因组最大的RNA病毒之一。

最初人们误以为它是SARS病毒,直到科学家们通过基因测序、比对“调取”出它的身份——新型冠状病毒与SARS分在同类,均为严重急性呼吸综合症相关冠状病毒种,两者基因组序列相似度为80%左右。

通过高通量基因测序技术及后续的序列图谱构建、序列比对、变异检测等高性能计算分析,我们可以解析生物DNA信息。

“基因序列可以说是一张‘身份证’,就像是警察通过指纹找犯人一样,我们把新冠病毒的序列放到病毒基因数据库查找和比对,如果库里有记录的,我们一下就能确定它的身份,如果没找到,那么它可能是迄今为止还没有在人体身上传播过的,在比对的过程中,我们还可以通过基因相似性分析构建基因演化树。”

国家超级计算深圳中心从事基因与计算科学方面研究的科研人员表示,此次抗疫中,超级计算发挥了重要的作用,除了确定病毒来源、基于病毒RNA序列对新冠病毒进行亚型分类进而指导疫苗研发外,建立在基因序列比对基础上的检测试剂盒能帮助快速诊断,把握时间窗口,帮助疫情防控。

从更广泛的场景来说,基因检测可以帮助精确诊断和治疗。例如,美国女星安吉丽娜·朱莉就是通过基因检测,选择切除乳腺降低罹癌风险;苹果前CEO乔布斯也在对抗胰腺癌的过程中通过基因测序进行了精准用药。

伴随基因测序和检测技术进步而来的是庞大的数据量。以一个人的全基因测序数据量为例,把人的46条染色体都读取、存储下来约3G,但在实际测序中需要复制50至100份,因此数据量达到300G。

这些数据产出后,需要配备海量存储以满足存放需求。在序列比对或者拼接阶段,需要一次性将海量数据载入到内存中并加以处理,要快,还要准,这些都是高密度的计算过程。显然,传统的计算平台已经不能满足需求,超级计算机的超强计算能力,高容量的存储能力,数据传输的高速网络等则可提供巨大助力。

超级计算机的大规模并行处理和内存容量能支撑海量数据的载入、计算和分析,并通过多节点协作提高作业效率,缩短计算时间。国内已有团队开发出可在超级计算机上运行的基因组装分析软件,其可在20分钟内处理4T的基因数据,扩展性和系统效率都处于全球领先水平。在来势汹汹的新冠肺炎面前,通过基因测序尽早把握病毒的来源、变异进化等信息,就能为救治生命、防控疫情争取时间。

此外,通过基因组信息,科学家可以预测病毒的蛋白结构信息,找到攻克新冠肺炎的药物靶点,加速药物筛选进程。在这些过程中,涉及到大量计算和模型训练,超级计算在其中发挥了不可或缺的重要支撑作用。

目前,国内疫情防控形势持续向好,国外的确诊病例依旧在攀升。知己知彼,百战不殆。尽管我们还没有最终战胜新冠病毒,但基因测序让科学家进一步认识、揭示病毒的相关特性,为找到攻克它的路径提供了重要参考信息。超级计算将用强大的算力和系统支撑持续为基因测序和检测注入动能,为彻底战胜疫情,打赢疫情防控攻坚战提供“硬核”支撑。

(文/林克权 李旖露)

信息来源:深圳云计算中心 2022.6.6