案例研究:在免疫球蛋白的可变区中寻找强大的域。
在生物数据库中搜索相似性很容易掌握,但很难精通。DNA、RNA 和蛋白质序列数据库通常很大、很复杂并且是多维的。
从概念上讲,当需要对多个序列进行比对时,动态规划等简单的方法表现不佳,而启发式算法则会偷工减料来提高速度。
一种基于计算机科学进步的新方法可以结合两全其美的优势,在不牺牲准确性的情况下提供出色的性能。
寻找生物序列中的相似性具有挑战性
在生物数据中寻找模式是 柬埔寨手机数据 生命科学中许多数据分析工作流程(如组学分析)中最重要的部分之一。区分相似性和差异性就是找到意义。无论是构建进化树、识别目标蛋白质中的保守域,还是研究从 DNA 到 RNA 再到氨基酸的结构-功能关系,科学家都依赖于一些方法来寻找生物序列中的相似性和差异性。
序列搜索和比对本质上是在网格上匹配字母并指定相似性高的区域和变异性高的区域的问题。但大自然已经做了很多工作,使这项任务变得具有挑战性。
首先,数据的范围非常广:人类基因组包含 30 亿个碱基对,序列相似性搜索很少局限于简单的一对一查询。对齐大型患者数据库的基因组序列意味着查询变成了 n 对 n。在这种大小的网格上匹配字母这一简单任务需要大量计算,因此需要巧妙的优化,但也很危险:偷工减料可能会导致有意义的数据被混淆。
除了大小之外,生物序列数据在进行比对搜索时非常难以处理还有一个原因。生物数据不是静态的。每当 DNA 复制时,就会出错。每当基因转录或转录本翻译时,出错的可能性也随之增加。
这种易犯错误的倾向是生物学的核心,因为它被认为是生物体适应环境能力背后的分子驱动力。然而,这种优雅的迭代适应系统使生物数据变得更加复杂。生物数据中的随机突变和其他不规则性(SNV、CNV、倒位等)使得很难区分“自然噪音”和有意义的差异。
所有这些特性使得生物数据集在概念和数学层面上具有挑战性。