爬虫初入

什么是爬虫？

爬虫就是通过编写程序模拟浏览器上网，然后让其去互联网上抓取数据的过程。

　　通用爬虫是搜索引擎“抓取系统”的重要组成部分，主要目的是将互联网上的内容下载到本地，形成一个互联网内容的镜像备份。简单来讲就是尽可能将网页下载到本地服务器进行备份，再对这些内容进行处理，最后提供一个用户检索接口。

　　根据指定需求抓取互联网上指定的数据。

　　门户网站通过一定的策略和技术手段，防止爬虫程序进行网站数据的爬取。

　　爬虫程序通过相应的技术和手段，破解门户网站的饭爬虫手段，从而爬取到相应的数据。

Jupyter Notebook是以网页的形式打开，可以在网页页面中直接编写代码和运行代码，代码的运行结果也会直接在代码块下显示。如在编程过程中需要编写说明文档，可在同一个页面中直接编写，便于作及时的说明和解释。

Jupyter Notebook的主要特点

安装Jupyter Notebook的前提是需要安装了Python（3.3版本及以上，或2.7版本）。

建议大家通过安装Anaconda来解决Jupyter Notebook的安装问题，因为Anaconda已经自动为你安装了Jupter Notebook及其他工具，还有python中超过180个科学包及其依赖项。

你可以通过进入Anaconda的 https://www.anaconda.com/download 自行选择下载；

启动doc运行窗口，输入jupyter notebook就会启动浏览器以网页形式打开。之后的操作自己稍加琢磨就会了。

快捷键：

b:向下插入一个cell

a:向上插入一个cell

m:将cell的类型切换成markdown类型

y:将cell的类型切换成code类型

shift+enter:执行cell

shift+tab：查看模块的帮助文档

tab：自动补全