Resolving multicopy duplications de novo using polyploid phasing 用多倍体相位法解决多拷贝复制的新问题

抽象。
虽然单分子测序系统的兴起已经实现
组装复杂地区的能力空前提高
在基因组中,基因组中的长节段重复仍然是装配中具有挑战性的前沿。

分段重复同时具有丰富的基因并且倾向于大的结构重排,使得它们的序列的分辨率在医学和进化研究中是重要的。

在哺乳动物从头塌陷的重复序列
组件很少相同;
 序列重复后,它开始获得paralog特异性变体。

在本文中,我们研究了这个问题
解决多拷贝长节段重复的变化
开发和利用多倍体定相算法。


我们开发了两种算法:第一种是针对最大化使用离散矩阵完成来观察基础单倍型的读数的可能性。

第二种算法基于相关聚类并利用一种假设,这种假设通常在这些重复中得到满足,即每个旁系同源物具有相当数量的旁系同源变体。


我们开发了详细的仿真方法,并演示了所提算法在模拟阵列上的优越性能
数据集。

我们测量似然得分以及重建精度,
即,哪些部分的读数被正确聚类。

 在两个性能指标中,我们发现我们的算法在超过93%的数据集上占据了现有算法的主导地位。

虽然离散矩阵完成在似然得分上表现更好,但是由于算法中固有的更强正规化,相关聚类算法在重建精度上表现更好。

我们还表明,我们的相关聚类算法可以在10个拷贝的复制数据集中平均重建7:0单倍型,而现有算法平均重建少于1个拷贝。

原文地址:https://www.cnblogs.com/wangprince2017/p/9605107.html