来自Stowers医学研究所的研究人员创造了一种以快速,有效和信息丰富的方式定义个体蛋白质关联的新方法。这些发现发表在2019年3月8日的Nature Communications期刊上,展示了由Stowers研究人员创建的拓扑评分(TopS)算法如何通过组合数据集来识别聚集在一起的蛋白质。
该方法类似于查看社区中所有个人的活动和交互,然后选择最有意义的交互,其中一些可能非常罕见。研究人员正在寻找两个人的生物学等价物,这两个人可能是整个社区中参与重要互动的唯一两个人。
这不仅有助于研究人员识别蛋白质如何执行生物功能或执行生物过程,该算法还可以应用于先前生成的生物数据以及潜在的其他科学领域,以收集新信息。
“这是一种大数据分析形式,我们正在应用于蛋白质组学数据来识别和理解蛋白质相互作用网络,”Stowers蛋白质组学中心主任Michael Washburn博士说。“这是对已经使用的许多技术的补充,因此它可以用来提问和回答新问题。”
蛋白质数据集可能难以检查有意义的信息,因为它们非常大。“你需要看到数以千计的蛋白质,”Stowers的高级研究专家Mihaela Sardiu博士说。了解各种各样的蛋白质如何结合起来做某些事情,比如修复DNA,是一个难题。“我们想简化这个问题。”
这意味着他们不是全面了解一切,而是寻求不太常见的事件。研究人员通过寻找诱饵(已知参与感兴趣的过程的蛋白质)和猎物(可与诱饵蛋白相互作用的蛋白质)来研究它们在人类DNA修复和酵母染色质重塑复合物中的相互作用。通过TopS,数据以并行方式进行分析,这意味着同时考虑来自几个生物相关诱饵的数据。TopS的一个关键属性是能够评估猎物蛋白质对诱饵相对于其他诱饵的偏好。Sardiu解释说:“我们现在不是仅通过集中一个诱饵的信息来计算得分,而是整合整个数据集中的信息。”
Washburn和Sardiu认为,无论是基础研究还是其他研究,TopS都可以应用于蛋白质组学以外的各种数据集。Sardiu看到了将其用于医疗保健数据的潜力,医生可能能够将患者的健康状况与其他人进行比较,例如能够判断患者的病情是否“与其他患者相比是否真正先进”,她说。
该团队还在计算机代码库Github上发布了这些发现,因为他们希望为其他研究人员提供测试算法的机会,并了解他们如何将其应用于自己的项目。
“我们很高兴看到这可以走多远。这是一个潜在的高影响力工具,我们希望看到其他创造性和创新人才能想出来,”Washburn说。“我们认为这对于很多人来说是一个非常有价值的潜在工具,他们正在努力应对大规模数据分类的挑战。”
来自Stowers Institute的其他贡献者包括Joshua M. Gilmore,博士,Brad D. Groppe,Arnob Dutta博士和Laurence Florens博士。Dutta目前是罗德岛大学的助理教授,Groppe目前在Thermo Fisher Scientific工作,Gilmore是Boehringer Ingelheim的科学家。
该研究由Stowers研究所资助,并由国立卫生研究院国家综合医学研究所资助,奖学金编号为R01GM112639。内容完全由作者负责,并不一定代表美国国立卫生研究院的官方观点。