这项研究由李慧慧教授(中国农业科学院作物科学研究所,中国北京)领导。作者使用盐生草互花米草作为目标物种,拟南芥以水稻为参考物种,开发盐胁迫相关基因挖掘方法。作者首先将这三个物种的所有基因的氨基酸序列与365个物种的蛋白质组进行了比对,并构建了归一化的进化信息矩阵。随后,作者通过文献综述,对拟南芥和水稻基因组中研究清楚的盐胁迫相关基因进行了总结和分析。
通过构建机器学习模型,作者确定了参考物种中盐胁迫相关基因的进化信息,从而可以对目标物种中的同源基因进行跨物种表征。同时,机器学习模型的特征重要性分析表明,不同进化分支的信息对模型预测精度的贡献不同。因此,作者使用可以在不同进化水平进行系统发育分析的 CladePP 方法来预测潜在的盐胁迫相关基因。结果表明,与已知盐胁迫相关基因高度共进化的基因集中在离子运输、对有物质的反应和解代谢等生物过程中。
通过这种基因挖掘策略,作者鉴定了5个编码离子转运蛋白的基因,并且所有这些基因都经过实验验证具有钠离子摄取的能力。综上所述,本工作证实了利用进化信息挖掘盐胁迫相关基因的可行性,并展示了系统发育分析与机器学习算法相结合在植物功能基因组学研究中的巨大潜力。