python爬虫入门笔记--爬虫简介

、爬虫：写程序，然后去互联网上抓取数据的过程
互联网：网，有好多a连接组成，王的节点就是每一个a链接，url（统一资源定位符）
通用爬虫，聚焦爬虫
        通用爬虫：百度 360 搜狐 bing 。。。
        原理：
                （1）抓取网页
                  (2) 采集数据
                （3）数据处理
                （4）提供检索服务
        爬虫：baiduspider
通用爬虫如何抓取新网站?
         （1）主动提交url
           (2)设置友情链接
         （3）百度会和dns服务商合作，抓取新网站
检索排名：竞价排名，根据pagerank值、访问量，点击量（seo）
robots.txt
            如果不想让爬虫爬取，可以编写robots.txt，这个协议只是口头上的协议。自己写的爬虫程序不需要遵从。
          聚焦爬虫：
                根据特定的需求，抓取指定的数据
                思路？
                        代替浏览器上网！
            网页的特点：
                    （1）网页都有自己的唯一的url
               （2）网页内容都是html结构
              （3）使用的都是http，https协议
           爬取步骤：
           （1）给一个url
           （2）写程序，模拟访问浏览器url
           （3）解析内容，提取数据
环境：windows，linux
       python3.6 64位
       Sublime pycharm等
   课程内容：
           （1）使用到的库：urllib、requests、bs4.。。
           （2）解析网页内容的知识
               正则表达式，bs4，xpath，jsonpath
           （3）涉及到动态html
               selenium+phantomjs，chromeheadless
           （4）scrapy框架
               高性能框架使用
           （5）scrapy-redis组件
               redis，分布式爬虫
           （6）涉及到的爬虫-反爬虫--反反爬虫的一些内容
               Ua ，代理，验证码，动态页面等