复杂分析-多序列比对相关

用一段序列的复杂度来测度这段序列可能是编码区呢？还是编码区？如果这短序列的复杂性越高，也就是说花样越多的话。这段序列越像是编码区。

外显子是被内含子隔开的.

用数据库资源如何发现新基因

通过数据库资源发现新基因的途径:

1.这两个途径就是你用了什么样的数据库资源,利用数据库当中的基因组序列进行来发现新的基因.发现新的编码序列.通过实验得到的基因组序列发现先的编码序列。

原理是：识别。如何识别呢？是利用序列当中的信号或者组分来识别。

2.基因组数据库中的EST数据是发现新的编码的区域的另外一个数据源。

很重要的一个部分是进行比对:

发现基因以后和标准数据库来对比,有一个数学上完全给出确定解的算法.就是动态规划算法.但是如果三个序列在一块比,能不能也有一个完全确定的解呢?四个序列呢?五个序列呢?统称为多序列比对.Multiple Alignment,用来发现新的基因的工具.

多序列比较其实也是一种通过序列比对来发现新基因的办法.如果序列条数多的话,计算复杂度要大大增加.所有的多序列比对的办法都是近似解,暂无精确解.

当序列数大于10或者更复杂的时候实际上就是一个NP问题,就是计算复杂度极高的问题.

往往是通过多种办法的结合才能找出新的基因，方法的组合。

一般有五种方法.定个阈值，假设四种都说明有。那我就定位有。用不同的办法来投票。最简单的办法就是用多种办法来进行投票计数。这就是目前我们实际真正使用的。最后采取投票的方法。

现在有的办法是构造神经网络:

实际是一个投票的机器，输入端是不同的方法的集合。对不同的方法给予一个权重。整合权重的方法就来的更可靠一些。

目前没解决的好的问题?

1.基因组拼接中的重复序列处理。

如果有100个序列都是一样的。那么就只有1个是接对的，99个是接错的了。这就没办法处理了。重复序列其实是比较多额。所以就不好处理。确实是个难题.人类基因组实际上没这么复杂，为什么？全世界的科学家们成百个实验室，就研究人类基因组，做一个工作。就找什么样的序列在整个基因组当中只出现一次，这种序列就是Mark，就是标记。当人类基因组测序之前这种Mark已经找到了六万个，可以按照这6万个标记切成6万段。每一段能接起来的。人类基因组实际不是完整的序列。实际是测的是克隆。人类基因组的复杂度已经降低了六万倍了。做大规模测序之前，先按标记切开，那么每个序列里重复序列就很少了.

2.基因标识的准确率。

发展新的检测编码序列的办法依然有很大的空间.

3.基因的可变剪接；

4.蛋白质的空间结构和功能预测。