PubMed文献数据挖掘

这里集合了人类目前几乎所有的生物医学的智慧,可以做的东西太多了,就怕你没想象力。

第一步:下载数据

# go to pubmed ftp and get files
cat file.list.raw | grep pubmed22 | grep -v md5 | cut -f1 -d' ' > file.names
cat file.names | wc -l
# https://ftp.ncbi.nlm.nih.gov/pubmed/baseline/
cat file.names | awk '{print "https://ftp.ncbi.nlm.nih.gov/pubmed/baseline/"$0}' > file.list
wget -bi file.list

  

第二步:提取数据

靠NPL提取文献摘要的信息。

第三步:分析数据

待续~

原文地址:https://www.cnblogs.com/leezx/p/15744456.html