CROPSR：加速基因发现的新工具

作物的基因组是由一代又一代的育种来定制的，以优化特定的性状，而且直到最近，育种者们还局限于对自然发生的多样性进行选择。

CRISpR/Cas9基因编辑技术可以改变这一现状，但迄今为止，设计和评估CRISpR实验所需的软件工具都是基于哺乳动物基因组编辑的需要，而哺乳动物基因组与复杂的作物基因组没有相同的特征。

CROpSR是第一个用于CRISpR实验的全基因组设计和指导RNA (gRNA)序列评估的开源软件工具，由能源部门资助的生物能源研究中心(BRC)的科学家创建。根据发表在《BMC生物信息学》(BMC Bioinformatics)杂志上的研究，这种全基因组方法显著缩短了设计CRISpR实验所需的时间，减少了研究作物的挑战，并加速了gRNA序列设计、评估和验证。

“CROpSR为科学界提供了进行CRISpR/Cas9基因敲除实验的新方法和新工作流程，”CROpSR开发者汉斯·Müller·保罗(Hans Müller paul)说。他是一名分子生物学家，与他的合著者马修·哈德森(Matthew Hudson)是伊利诺伊大学厄巴纳-香槟分校作物科学教授。“我们希望新软件能加快发现速度，减少实验失败的次数。”

为了更好地满足作物遗传学家的需求，该团队构建了一个软件，该软件取消了其他软件包在设计和评估gRNA序列时施加的限制，这些指南用于定位目标遗传物质。团队成员还开发了一种新的机器学习模型，该模型不会避免对植物中经常发现的重复基因组区域进行指导，这是现有工具存在的一个问题。作者说，CROpSR评分模型提供了更准确的预测，即使是在非作物基因组中。

Müller paul说:“我们的目标是结合一些特征，让科学家的生活更轻松。”

许多作物，特别是生物能源原料，具有高度复杂的多倍体基因组，具有多组染色体。一些基于二倍体基因组(如人类基因组)的基因编辑软件工具在处理作物基因组的特性时遇到了麻烦。

“有时需要几周或几个月的时间才能意识到你没有得到你所期望的结果，”Müller paul说。

例如，一个性状可能受到一系列基因的调控，特别是涉及到植物逆境时，备份系统是有用的。科学家可以设计一个实验，敲除一个基因，而不知道另一个具有同样功能的基因。在不以任何方式改变性状的情况下，这个问题可能直到植物成熟才会被发现。对于需要特定天气条件才能生长的作物来说，这是一个特别的问题，错过一个季节可能意味着一年的延迟。

通过使用全基因组方法，科学家们消除了现有软件工具中存在的固有偏差，从而为植物使用定制了CROpSR。因为它们是基于人类或小鼠的基因组，而在这些基因组中，基因的多重复制并不常见，所以这些工具会惩罚在基因组多个位置撞击的gRNA序列，以避免在它们意想不到的地方造成突变。但对于农作物来说，目标往往是使一个以上的位置发生突变，从而破坏一个基因的所有副本。以前，科学家有时必须设计4到5个突变实验，以单独敲除每个基因，这需要额外的时间和努力。

CROpSR可以为整个作物基因组生成可用的CRISpR指导RNA数据库。这个过程是计算密集和耗时的——通常需要几天——但研究人员只需要做一次，就可以建立一个数据库，然后用于正在进行的实验。

因此，科学家可以在他们自己的数据库中搜索基因，查看所有可用的指南，而不是通过在线数据库搜索目标基因，然后使用现有的工具为五个不同的地点设计单独的指南，并进行多轮实验。CROpSR还可以指出基因组中其他靶点。研究人员可以选择一个针对所有基因的指南，使设计实验更容易、更快。

“你可以直接进入数据库，获取你需要的所有信息，然后开始工作，”Müller paul说。“你花在计划实验上的时间越少，你花在实验上的时间就越多。”

他说，对于CABBI的科学家来说，他们经常研究重复的植物基因组，拥有一个可以让他们有信心设计功能指南的gRNA工具，“应该是向前迈出的一步”。

顾名思义，CROpSR在设计时考虑到了作物基因组，但它适用于任何类型的基因组。

“CROpSR也是基于人类基因,作为作物基因的数据可用性还没有形成,”Müller paul说,“但我们正在调查一些与其他brc的合作提供一个更有能力的预测基于生物物理学,帮助缓解一些问题造成的缺乏数据。”

展望未来，他希望研究人员将记录他们失败的结果和成功的结果，以帮助生成数据来训练一种特定作物的模型。如果合作成功，“我们可以看到一些非常有趣的进展，为CRISpR应用训练机器学习模型，可能也会应用到其他模型。”

Hans Müller paul, Dave D. Istanto, Jacob Heldenbrand, Matthew E. Hudson. CROpSR: an automated platform for complex genome-wide CRISpR gRNA design and validation. BMC Bioinformatics, 2022; 23 (1)