去年,Alphabet的DeepMind发布了一个开源数据库,其中包含数十万种蛋白质的3D结构,包括人体中所有的2万种已知蛋白质。现在,这个AlphaFold蛋白质结构数据库已经扩展到2亿个,包括科学上已知的几乎所有蛋白质。
蛋白质是细胞的重要组成成分,执行着对生命至关重要的数不清的生物过程。它们由氨基酸链组成,折叠成复杂的三维形状,这决定了它们的功能。绘制蛋白质的结构图对于了解它们的作用、它们如何工作以及事情如何出错非常重要,这是研究从新药和治疗方法到改善作物和动物保护等一切问题的关键。
但要根据组成蛋白质的氨基酸计算出蛋白质的确切结构,仍然是很棘手的。弄清这一点通常需要大量的计算能力和人类的工作时间,这种情况已被称为"蛋白质折叠问题"。因此,几十年来,进展一直相对缓慢。
也就是说,直到Alphabet将其强大的DeepMind人工智能放在这个问题上。该系统最初在10万个已知的蛋白质结构上进行训练,发展出预测其他数百万种蛋白质结构的能力,每一种蛋白质只需几分钟或几秒钟,而不是几个月或几年就能确定。
2021年7月,第一个AlphaFold蛋白质结构数据库被发布给公众,供科学家们研究。它最初包含超过35万个蛋白质结构,包括大约98.5%的人类蛋白质,以及那些在果蝇、小鼠、酵母和大肠杆菌中发现的蛋白质。后来,它被扩展到来自1万种动物、植物、细菌、真菌和其他生物的大约一百万个蛋白质结构。在此后的一年里,来自世界各地的50多万名科学家访问了该数据库,以帮助他们的研究。
现在,DeepMind已经发布了对该数据库的大规模更新,它现在包括来自一百万个物种的约2.14亿个结构。这几乎涵盖了目前科学界已知的所有蛋白质,为疾病治疗、疫苗、可持续发展、抗生素抗性、甚至塑料污染的研究提供了巨大的助力。
斯克里普斯研究转化研究所主任Eric Topol说:“AlphaFold已经加速并促成了大规模的发现,包括破解了核孔复合体的结构。而随着新增加的结构照亮了几乎整个蛋白质世界,我们可以期待每天有更多的生物之谜被解开。”
整个蛋白质结构数据库由超过25TB的数据组成,可以从谷歌云公共数据集下载。