来自环境的信号引发了一系列变化,以不同方式影响不同的基因。因此,传统上很难研究这些信号如何影响生物体。在一项新研究中,研究人员开发了一种名为 FUN-PROSE 的机器学习方法来预测基因对不同环境条件的反应。
无论生物体如何,细胞都会使用 mRNA 微调其对周围环境的反应。首先,他们使用称为转录因子的蛋白质来感知变化,然后与基因前面的 DNA 序列(称为启动子)结合。这种附着可以阻止基因 mRNA 的形成,也可以增加 mRNA 的生成量。然后 mRNA 作为模板来产生负责细胞中各种功能的蛋白质。这种机制允许细胞快速地将资源重新分配给生存所需的进程。
研究启动子的控制方式是基因组学中最古老的挑战之一,但研究人员仍在继续努力解决这个问题。最大的问题是不同的转录因子可以结合相同的启动子序列,并且在不同的环境条件下以不同的排列方式结合。此外,虽然有一些证据表明转录因子倾向于与启动子中的特定序列基序结合,但并非所有转录因子都得到了广泛的研究。近年来,研究人员转向人工智能来帮助他们解决这些挑战。
“基因具有平均表达水平,以前的机器学习模型无法测量不同条件下表达水平的变化,”生物工程和物理学教授谢尔盖·马斯洛夫(CAIM 领导人/CABBI)说。“我们有兴趣了解特定基因如何对 pH、温度和营养物质的变化做出反应。”
研究人员开发了一种名为“条件特异性表达真菌促进剂”(FUNgal PROmoter to Condition-Specific Expression)或“FUN-PROSE”的模型,用于预测面包酵母(酿酒酵母)和较少研究的真菌 粗糙脉孢菌 和 东方伊萨琴菌 对环境变化的反应。
为了开发该模型,研究人员首先必须确定这三个物种的启动子序列和转录因子。然后,他们训练模型以了解转录因子在不同条件下识别哪些启动子基序。
“粗糙猪笼草 和 东方酵母的转录因子 并不像 酿酒酵母那样广为人知,因此我们必须推断这些物种中的转录因子可以识别哪些基因”,马斯洛夫研究所的研究生 Ananthan Nambiar 说道。团体。马斯洛夫小组前研究生、现格莱斯顿研究所博士后研究员维罗妮卡·杜宾金娜 (Veronika Dubinkina) 表示,这一过程涉及一种常用的扫描已知结合 DNA 的蛋白质区域的方法。
最后,该模型学会了如何整合所有信息来计算在特定条件下产生的 mRNA 量与 mRNA 的平均水平相比。然后,研究人员将 FUN-PROSE 获得的结果与 RNA-seq 数据进行了比较,RNA-seq 数据测量了所有三种真菌的 mRNA 水平波动。每个生物体都有超过 4000 个基因和 180 个转录因子,根据研究的程度,在 12-295 种条件下对这些基因和转录因子进行了测量。
“预测哪些基因在一系列条件下很重要一直是一个难题。然而,我们发现我们的模型非常接近于预测这些生物体中实际发生的情况,”南比亚尔说。
除了评估其性能之外,研究人员还阐明了该模型如何进行预测。马斯洛夫小组的前本科生西蒙·刘 (Simon Liu) 表示:“即使具有黑匣子性质,我们也能够理解我们的模型如何看待启动子,并发现它已经学会了搜索已知序列。” “能够解释经过训练的模型对于验证其逻辑以及利用它发现新的监管知识至关重要。”
然而,该模型确实遇到了以前从未遇到过的发起人的困境。“这个模型在新条件下表现很好,但如果你给它一个新的基因或启动子序列,它就会出错,”南比亚尔说。
马斯洛夫表示,这些错误是由于可用数据有限造成的。“机器学习是一个黑匣子,你需要好好训练它,这样你才能学习生物学,”他说。“如果我们能够获得更多数据,该模型将有更多模式可供学习,并且可以做出更准确的预测。”
研究人员现在有兴趣在其他生物体上测试他们的模型。“原则上,我们的技术没有任何限制——它应该适用于任何生物体。然而,例如在动物中,基因是以更复杂的方式控制的,这将需要模型架构的重大改变和更多的训练数据”马斯洛夫说。“不过,看看这个模型的表现如何会很有趣。”
该研究“FUN-PROSE:预测真菌条件特异性基因表达的深度学习方法”发表在PLOS 计算生物学上,可以在https://doi.org/10.1371/journal.pcbi.1011563上找到 。这项工作由先进生物能源和生物产品创新中心、诺伊大学、圣西蒙基金会和格拉德斯通研究所资助。