AD文献分析整体框架和数据设计

biopython ，可以自动获得NCBI的接口，ESearch可以获得文章ＵＭＩＤ，可以获得文献等具体信息

获得UMID后，动态生成url爬取整个html页面，填入文章表，是否已爬取，防止崩溃，作记录

把爬取到的HTML页面的字符串存到mongodb中，mongodb是no sql db，存取字符文本等。

beautiful soup解析mongodb中的html，把解析到的信息填入作者表，文章表以及引用表存于MYSQL，便于统计

NCBI

１爬取原文（大概５万）

２爬取论文信息页（大概８万）

NCBI直接搜索翻页无法实现，在服务器上有部分数据，根据搜索历史翻页。

Author表：

1）Id

2）全名

3）简称

4）NCBIUID (NCBI给每个作者分配的独一无二的id）

文章表：

1）Id

2）文章题目

3）文章链接

4）作者：存id或NCBIUID

5）发表时间

6）Abstract

7）Keywords

8）标志位1：是否有原文

9）标志位2：是否已爬取

10）PMID（NCBI给文章分配的专门的ID）

引用表：

1）Id

2）原文：存文章ID或PMID

3）引用文