AD文献分析 整体框架和数据设计

1

biopython ,可以自动获得NCBI的接口,ESearch可以获得文章UMID,可以获得文献等具体信息

biopython的参考网站,http://biopython-cn.readthedocs.io/zh_CN/latest/

2

获得UMID后,动态生成url爬取整个html页面,填入文章表,是否已爬取,防止崩溃,作记录

3

把爬取到的HTML页面的字符串存到mongodb中,mongodb是no sql db,存取字符文本等。

4

beautiful soup解析mongodb中的html,把解析到的信息填入作者表,文章表以及引用表存于MYSQL,便于统计

beautifulSoup 参考网站 https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/

NCBI

1爬取原文(大概5万)

2爬取论文信息页(大概8万)

NCBI直接搜索翻页无法实现,在服务器上有部分数据,根据搜索历史翻页。

Author表:

1)Id

2)全名

3)简称

4)NCBIUID (NCBI给每个作者分配的独一无二的id

文章表:

1)Id

2)文章题目

3)文章链接

4)作者:存idNCBIUID

5)发表时间

6)Abstract

7)Keywords

8)标志位1:是否有原文

9)标志位2:是否已爬取

10)PMIDNCBI给文章分配的专门的ID

引用表:

1)Id

2)原文:存文章IDPMID

3)引用文

原文地址:https://www.cnblogs.com/lovely7/p/6088638.html