1,爬虫概览

1,爬虫知识来源

Python爬虫参考文档

可以爬取的数据

网页文本:如HTML文档,Json格式化文本等
图片:获取到的是二进制文件,保存为图片格式
视频:同样是二进制文件
其他:只要请求到的,都可以获取

解析数据使用的方法

  1. 直接处理
  2. Json解析
  3. 正则表达式处理
  4. BeautifulSoup解析处理
  5. PyQuery解析处理
  6. XPath解析处理

抓取的页面数据和浏览器里看到的不一样的问题

网站中的数据都是通过js,ajax动态加载的,所以直接通过get请求获取的页面和浏览器显示的不同

如何解决js渲染的问题?
分析ajax
Selenium/webdriver
Splash
PyV8,Ghost.py

保存数据

文本:纯文本,Json,Xml等
关系型数据库:如mysql,oracle,sql server等结构化数据库
非关系型数据库:MongoDB,Redis等key-value形式存储

原文地址:https://www.cnblogs.com/g2thend/p/12452154.html