初学生信——Base-calling(碱基判读技术)

参考:https://zhuanlan.zhihu.com/p/340449764

Base calling是一种算法(软件):可以从row images(原始图像)里通过计算机视觉的方式识别碱基类型(DNA序列),将结果写到cal文件里,最后帮助我们生成测序报告和FastQ数据。

Base Flourescence:荧光

signal detection:信号检测

每一次保存图像后,算法软件会找到每一个DNB (DNA纳米球) ,并将数据记录在案。因为每一个芯片上都有数以亿计的DNB,所以我们也会通过特殊的结构设计,让算法软件可以更容易的找到并识别每一个DNB。

一旦找到并识别出DNB,接下来我们就可以提取图像光强(灰度值)。这里我们采用的是4荧光系统,也就是ATCG四种碱基会表现出不同的激发反应,会得到不同的灰度值。这里,我们可以看到在第三张表格里,A对应的图像位置灰度值最高,所以可以判定此处的碱基是A。

上图是一张简化示意图,每一个正方形的区域都是一个视野FOV(Field of View),也就是说每次拍照后,摄像机只能看到这么大的区域,当然通过移动,可以随后通过多FOV拼接技术,还原整个芯片的大视野。这里,四种荧光物质会被激光激发,如果是A则会产生绿光,如果是C会得到红光,如果是G会得到蓝光,如果是T则会得到黄光。

图像配准和灰度值提取

首先我们会找到一些标记点(crosspoints),然后对每一个小块的4幅图像进行配准(registration),最后对每一个DNB位置上的灰度值进行读取。理想状态下,相应颜色碱基的灰度值最大,其他非相应碱基的颜色最好为0。然而实际上无法做到。会存在crosstalk现象,也就是其他非相应碱基的荧光物质也会或多或少地被激发,对实际的测量会造成影响。

原文地址:https://www.cnblogs.com/xiaoqing-ing/p/14840273.html