如何到NCBI提交基因组

1 步骤和说明

NCBI官方说明
 点此处打开提交基因组页面
以下例子：纯菌的基因组草图用于新菌鉴定。

1.1 提交基因组数据到 NCBI 需要什么？

.fsa 格式的基因组数据；
- fsa 就是用公司返回的 .sqn 的数据改为 .fsa 后缀，里面是 fasta格式的逐条 scarfold 或者 contig。
- 每条序列有唯一的编号，例如contig1，长度不超过50，其他说明不是必须的，因为BioSample里面的信息会自动被加进去。
- 如果里面有NNNNNNNNNNNN说明有Gap，提交之后会需要在Gaps的部分说明
BioProject 号；
BioSample 号。

1.2 Meta data

为了简化填写，只填带*的项目。
作为例子提交的是从环境样品中分离纯化的细菌菌株的基因组草图。

提交过程中提供的信息包括：

我是谁？我的单位是哪里？我有没有和其他单位合作？
样品来自哪里？是那种生物信息数据？
数据如何获得的？

1.3 提交步骤

申请 BioProject，BioSample先空着。
- monoisolate
- 几分钟内获得
- 关于你的项目
申请 Biosample。
- Target 这里如果 organism 自己取了一个NCBI系统中不存在的名字，NCBI会分配新的 taxonomy ID 需要1-2工作日。
- 如果选择已有的最近似的物种名，则不需要等待，输入部分关键词，然后按上下键，会提供备选的名字。
- 不论哪种情况，strain 应该填自己的菌株的特定编号。
- 如需要等待 Taxonomy ID 提交完成后，会在后台看到用橙色文字说明的提示信息。
如果 BioProject 只包含一个 BioSample，可以同时提交 BioSample 和 BioProject，方法见后
以上两个号拿到后，提交 *.fsa 的基因组，Home 找到 New Submission。
- 根据解压后的ClearData的大小/组装数据的大小除以基因组的大小得到Coverage，按210x的格式填写，后面是小写字母x。
如果没有问题1-2个工作日收到信息，告诉你释放的日期和 GenBank No，字母接一大串0000就是。

例如：3月23日获得BioSample号，27日提交基因组，28日收到邮件说明4月1日释放。

2 注意事项

提交过程中请勾选使用基因注释流程就能同步完成注释。注释了之后就能找到16S rRNA等信息。

ANNOTATE THIS PROKARYOTIC GENOME IN THE NCBI PROKARYOTIC ANNOTATION PIPELINE BEFORE BEING RELEASED

NCBI 提供 google 地图预览经纬度。这里的格式不是度分，是小数点，所以需要转换一下。这里提供一个经纬度转换和查询的网站
不需要转换为 .sqn 格式，那是有蛋白质注释的情况下才用的。
提交的是草图，属于Whole Genome Shotgun (WGS)，如果是完成图就是 non-WGS。因为是草图，所以所有的序列没有拼成一条，所以才会有很多contig或者scarfold。至于总数量和拼接的以及测序的好坏有关。scarfold是用contig拼起来。
数据在几个MB左右，所以选择用 HTTP 在线传就可以。
注意关注注册NCBI的邮箱，如果有问题，能及时修改。

3 同时提交 BioProject 和 BioSample 的方法

前题BioProject只包含一个BioSample
SUBMITTER 个人信息
PROJECT TYPE:
- Genome sequencing and assembly
- monoisolate
TARGET
- 如果是新菌写 sp. Strain 写你的菌株号
- 如果是模式菌写物种名，Strain可以写购买菌种保藏号
GENERAL INFO
PROJECT TITLE
- 自动生成的，可以再增加菌株编号
PUBLIC DESCRIPTION
- 例如：For bacterial novel spices identification
BioSample页面点连接，进入Biosample提交
- General INFO 没有改
- Sample type Microbe
- 填写的时候isolate source 是指样品的来源，比如底泥
- Sample type其实指的是你用来测基因组的样品，所以我们的是cell culture
- Title 最好改为改为 XX.sp strain No. isolated from XX
- 提交完成之后会返回到BioProject的提交，两边已经自动匹配上
如果没有publications就跳过
再完成review就结束了。

4 关于提交 scaffolds 还是 contigs

写邮件问过，得到了如下回复。

Without seeing the files, it is difficult to guess what the scaffold file looks like.
You definately can submit the contig file+agp file (split submission format). If the
scaffold file is joining the contigs with Ns that represent assembly gaps, it can be
the gapped submission format. When you submit the scaffold fasta file to our submission
portal, the portal will guide you through by asking you questions about the Ns in the
fasta sequences.
For more information about the split submission format vs. the gapped submission format,
please consult https://www.ncbi.nlm.nih.gov/genbank/wgsfaq/#q5.

You don't have to change the seqids of the fasta unless you want them to be more
cosmetically appearing.

再回到公司返回的数据，的确是有两种fasta格式的文件。举个例子：
- 一种是 scaffold，其中序列命名是 scaffold1，scaffold2，scaffold3...，
- 另外一种是 contig 的，其中序列命名是 scaffold1-1，scaffold1-2，scaffold2-1，scaffold3-1...
- 也就是说 scaffold1-1，scaffold1-2 对应的是 scarfold1，虽然他们是 contig 但是名字是 scaffoldXX 也没有问题，这个工作人员也和我确认了。
那么到底是依据什么拼接的？
- 你应该能找到一个 agp 文件，这个文件说明如何拼装。所以如果选择上传 contig 文件应该把这个也一起传上去。这就是工作人员说的 split submission format。
- 当然，更简单的就是，就传 scaffold 文件。如果里面有 N 也就是 gap，系统会自动识别到，然后问你这些 gap 是怎么回事。常见原因就是 paired-ends read 不懂一般不改就可以。

----ฅ(*ΦωΦ)ฅ---- cognata ad sidera tendit...