Fractal Dimension|Relative Complexity|CG含量|重复序列|

生物信息学-序列拼接方法

物理学方法

Fractal Dimension of Exon and Intron Sequences

 

 --------------CGCGGCGTGTGTTATA --------------

数学方法:Relative Complexity in Exon, Intron and Flanks

序列复杂度依据不同组合出现的次数,windows变大之后发现codingnon-coding复杂度变多。

 

 COINCIDENT INDEX OF EXON AND INTRON

密码学方法使用重合指数,指数高留下,指数低删去,发现效果很好:

 

多序列比较是多个序列一同比较

多种方法综合使用:

 

Challenge

重复序列:

串联重复AGCAGCAGCAGCAGCAGCAGCAGC

散置重复AGCAGCAAAGGCCCTTAAAGCGGGGGGGAGGCGCGCAGCGCGAGC

重复在UNICQ marker中,剪切有marker的片段,就避免了重复的复杂性。

方向代表在模板链还是互补链上

 

Eg:脂肪酸网络填充,将细菌的全基因组得到,然后比对合成蛋白在脂肪酸网络上是否存在,如果有通路能够打通,则即可知该细菌能实现合成何种脂肪酸的功能。

 

 高度重复序列在耐热菌内广泛存在:

 

 生成蛋白的核酸GC含量与耐热相关高,所以推测这些蛋白与耐热性有关。CG含量反应活性,CG含量高则突变率高,比较活跃。蛋白质制作机器在高温下耐热。

 

原文地址:https://www.cnblogs.com/yuanjingnan/p/11851693.html