随着基因组测序变得更便宜和更快,导致数据呈指数增长,对预测基因功能的效率需求也在增长,以及需要培养下一代生物信息学科学家。博伊斯汤普森研究所(BTI)教员Lukas Mueller实验室的研究人员制定了一项战略,以满足这两方面的需求,使学生和研究人员受益。
穆勒实验室利用大量新基因组序列作为有兴趣学习基因组注释的本科生的培训资源创建了一个框架。该框架于2019年4月3日在PLOS Computational Biology上在线发表。
什么是基因组注释,为什么它很重要?
在研究人员确定生物体基因组中数百万个碱基对DNA的序列后,他们需要弄清楚两件事:哪些DNA片段是编码蛋白质的基因,以及这些蛋白质的功能是什么。这种鉴定基因和预测其功能的过程称为基因组注释。
“基因及其功能的预测是大多数生物学家所关心的问题。这就是生物过程的最大理解发生的地方,”穆勒实验室的生物信息学分析师,该论文的第一作者Prashant Hosmani说。
通过将其序列与来自其他相关生物的基因序列进行比较来注释基因组。最准确的基因组注释方法是手动管理,一个人进行分析。相反,利用计算机程序识别基因及其功能更快,但有时不太准确。
“手动注释是非常耗时的,因此非常昂贵,”Mueller实验室高级生物信息学分析师和项目协调员Surya Saha说。“诀窍是两者兼顾:首先使用自动注释,然后关注感兴趣的基因和生化途径,并手动注释它们。”
本文概述了从头开始开始本科注释计划的一系列逻辑步骤。当学生第一次加入该项目时,他们会受到团队领导和专家注释人员对交易工具的培训。
在整个项目中,学生会仔细记录他们的研究和结果,最终将他们编入关于感兴趣的生物化学途径和成员基因家族的报告中,这些报告可能会发表。实际上,这种方法已被用于生成一份同行评审的出版物,其中有超过20名本科作者。
“工作是一回事,接受对这项工作的认可也非常重要,”Hosmani说。“这对学生来说是一种真正的动力。”
其他学生福利包括与国际合作者合作,建立网络,练习沟通和同行评审技能,以及获得有关职业选择的宝贵见解。本科生也可能因其工作而获得研究或顶点项目学分,这增加了他们对项目的承诺。越来越多以科学为基础的研究生课程也需要生物信息学方面的知识,因此这些技能在很多领域都很有价值。
最后,研究人员为任何物种(不仅仅是植物)获得高质量的基因组注释,从而更好地了解有机体如何发挥作用,最终使农业,生物燃料和医药等许多领域的社会受益。
作者希望其他机构能够适应和建立这个框架,无论其规模大小,资源获取或注释目标如何。为了使框架易于使用,作者将其图形和表格设计为独立且易于打印,以便于参考。
“任何有研究问题,有序基因组和有兴趣的学生的人都可以通过建立我们的工作流程来实施一个系统,”Saha说。