1，爬虫概览

1,爬虫知识来源

网页文本：如HTML文档，Json格式化文本等
图片：获取到的是二进制文件，保存为图片格式
视频:同样是二进制文件
其他：只要请求到的，都可以获取

网站中的数据都是通过js，ajax动态加载的，所以直接通过get请求获取的页面和浏览器显示的不同

如何解决js渲染的问题？
分析ajax
Selenium/webdriver
Splash
PyV8,Ghost.py

文本：纯文本，Json,Xml等
关系型数据库：如mysql,oracle,sql server等结构化数据库
非关系型数据库：MongoDB,Redis等key-value形式存储