基于强大的计算能力之上的计算生物科学,将给我们带来生命科学的新契机。
目前,显微镜被广泛应用到生物科学中,科学家利用计算显微镜来观察生物细胞,模拟细胞的物理化学过程。这需要具备强大并行计算能力的计算机辅助,因此,计算机的并行计算能力直接影响了生物科学中的研究能力。目前,GPU被广泛应用到各行各业中,这也包括生物科学研究领域。
模拟病毒感染的过程
1.模拟脊髓灰质炎病毒感染过程(Polioriurs infection)
脊髓灰质炎病毒(Poliovirus,或称为脊髓灰白质炎病毒)是脊髓灰质炎(小儿麻痹)的病原,又称小儿麻痹病毒,是一个没有外壳的病毒,由一条单股RNA组成。人类和猴子都容易受这种病毒的感染。病毒在感染后的细胞内复制成熟后,就会在短期内一次释放大量的病毒,使得被感染的细胞死亡,释放出来的病毒又会感染其他细胞,又开始新一轮的感染周期,直到所有容易感染的细胞都被感染并死亡。如果要弄清楚整个复杂的物理过程,就需要构建一亿量级的单位物理模型,并经过长时间的模拟运行,才能真正得到这个物理过程。这个模拟过程的计算量是大得惊人的,无疑这适合并行计算能力强大的GPU去运行。
2.病毒衣壳力学
乙型肝炎病毒(Hepatitis B virus)又被称作乙肝病毒(HBV),属于DNA病毒。就目前科学研究的成果来看,HBV只对人类和猩猩有易感性,容易引发乙型病毒性肝炎疾病。完整的乙肝病毒成颗粒状,分为外壳和核心两部分,直径约为42纳米。灰色菱形为采用原子力显微镜得到的物理实验结果,绿色圆形为计算机模拟下的结果。这里通过计算机模拟的方式得到的结果几乎和原子力显微镜实验中得到的结果完全吻合。在这种情况下就可以通过模拟的方式对病毒进行分析,从而更加清晰地了解整个病毒物理作用的过程。采用GPU加速的模拟过程可以提高25.5倍的速度,可以节省10倍的能源。
光合作用过程
这里展示的紫色光合作用细菌,原理是光转化为电,ADP(二磷酸腺苷)转化为ATP(三磷酸腺苷)。需要采用静电场计算并且使用多级求和法,这要求具备千万量级计算能力的单位进行模拟,需要进行大规模并行计算,原子越多,模拟的过程和时间越长。在目前主流的CPU上计算大约需要1小时10分钟。而如果利用具备并行处理计算能力强悍的GPU进行运算的话,时间会大大缩小。而且整个三维模型可以很好地跟GPU的三维架构的线程模型进行匹配,能最大限度利用GPU计算的能力。采用基于G80架构的3块GPU就可以在大约90秒钟内模拟完成,并可以达到拥有线性时间复杂度,且比其他方法的有更高的灵活性。利用GPU进行运算的话,效率会大大提升。
通过基因蓝图制造蛋白质
制造过程
科学家通过核糖体从mRNA中解码基因信息并产生出新的蛋白质,这是蛋白质的制造过程。实现这个过程也是研究抗生素的重要目标。其中重要的环节就是弄清楚核糖体的结构,模拟整个制造过程。2009年的诺贝尔化学奖就给了揭开蛋白质制造过程的三位科学家。这样的生物物理过程的研究可以比喻成足球比赛,期望的不只是足球比赛的结果,而是整个足球比赛的过程。了解生物的物理过程才能更好地了解其中的物理原因,找到问题的根本。传统的低分辨率的图像只能得到足球比赛的结果,而不知道比赛的过程。对于现在基于高性能计算的高分辨率结构图,可以清晰地看到新生的蛋白质。
分子动力学模拟
通过分子动力学的方式可以模拟整个新蛋白产生的过程,具体方法是使用计算机来模拟蛋白质产生的过程,这差不多需要模拟100万个单元。可以看到下图,随着GPU数量的逐渐增多,单步的模拟过程时间越来越短,可以达到很高的性能。通过GPU的加速,整个模拟的过程从以前的两个月缩短到了两周。随着GPU数量的逐渐增多,计算机的性能也越来越强。
纳米孔传感器
新型纳米孔是通过电力场作用驱动单个分子逐一通过纳米孔来实现测序的。由于纳米孔的直径非常细小,可以侦测通过的单个核酸聚合物,能保持良好的持续性和高精度地测量基因信息。对于长达1000个碱基的单链DNA分子、RNA分子或者更短的核酸分子而言,也并不需要进行扩增或标记就可以直接使用纳米孔来进行测试,这使得快速地进行DNA测序成为可能。
对于基因的了解,通常情况下大家知道A、T、G、C四种碱基,其实还有第五种碱基——甲基化胞嘧啶。单分子纳米孔测序仪能直接分辨出未修饰的胞嘧啶和甲基化胞嘧啶。当单链DNA通过纳米孔的时候,单个碱基落入孔中,它们跟纳米孔内特定物质相互作用,阻碍了穿过孔中的电流同道。A、T、C、G以及甲基胞嘧啶都会有自己特有的电流振幅,因此很容易把这些电流振幅转化成DNA序列。这样就可以通过纳米孔技术就能直接读出这第五种碱基。
但是现在的纳米孔材料还有很多问题需要解决,例如可以通过模拟的方式来选择生产更好的高分子纳米材料。但现在还没有一种生物纳米孔或者人工合成的纳米孔能有一个非常合适的几何结构,并通过模拟的方式分析合成出适合的高分子材料,在这个过程中通常采用径向分布函数的方法来进行分析沉淀物和流体的情况。下图模拟了4700万个单元,如果利用4核心的英特尔Xeon X5550 CPU,需要15个小时,如果利用4台NVIDIA的Tesla C2050GPU,只需要10分钟就可以完成。这里还有一个数据,利用Fermi架构的GPU的性能是采用上一代GT200架构GPU性能的3倍以上。