爬虫和数据

一为什么要做爬虫？

首先请问：都说现在是"大数据时代"，那数据从何而来？

企业产生的用户数据:

百度指数：http://index.baidu.com/
阿里指数：https://alizs.taobao.com/
TBI腾讯浏览指数：http://tbi.tencent.com/
新浪微博指数：http://data.weibo.com/index
数据平台购买数据：

数据堂：http://www.datatang.com/about/about-us.html
国云数据市场：http://www.moojnn.com/data-market/
贵阳大数据交易所：http://trade.gbdex.com/trade.web/index.jsp
政府/机构公开的数据：

中华人民共和国国家统计局数据：http://data.stats.gov.cn/index.htm
世界银行公开数据：http://data.worldbank.org.cn/
联合国数据：http://data.un.org/
纳斯达克：http://www.nasdaq.com/zh
数据管理咨询公司：

麦肯锡：http://www.mckinsey.com.cn/
埃森哲：https://www.accenture.com/cn-zh/
艾瑞咨询：http://www.iresearch.com.cn/

二关于Python爬虫，我们需要学习的有

1. Python基础语法学习（基础知识）
2. HTML页面的内容抓取（数据抓取）
3. HTML页面的数据提取（数据清洗）
4. 指定要求格式的数据存储（主要是mysql，redis，mongodb数据库的存储）
5. Scrapy框架以及scrapy-redis分布式策略（第三方框架）

三 HTTP和HTTPS

HTTP协议（HyperText Transfer Protocol，超文本传输协议）：是一种发布和接收 HTML页面的方法。是规范。买卖东西一样。

HTTPS（Hypertext Transfer Protocol over Secure Socket Layer）简单讲是HTTP的安全版，在HTTP下加入SSL层。

SSL（Secure Sockets Layer 安全套接层）主要用于Web的安全传输协议，在传输层对网络连接进行加密，保障在Internet上数据传输的安全。

HTTP的端口号为80，

HTTPS的端口号为443