Python爬虫

爬虫又称网络蜘蛛,是代码获取资料的一种方式。

常用库:requests,bs4,lxml,fake_useragent。

通常运行模式:

  1、发起请求

    通常可用requests发起各类的网络请求。

  2、获取数据

    通常可用requests的get函数获取大部分网页。

  3、解析数据

    解析方式:

      正则表达式

      beautifulsoup

      xpath

      css选择器

  4、保存数据。

    通常可保存为csv,txt或者存入数据库。

本人学习的网站:B站(问就是一个很好的学习网站),木下瞳爬虫(入门实战,强推!)。

从零入门:五天速成教程

_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _(手动分割线)

博客小白,个人记录,很多待补充,想到再慢慢修改,欢迎批评指正。

摘自:网络上很多的大神。侵删。。

转载请附原文链接以及作者,谢谢。

一个啥都想整小白白白。。。
一个啥都想整小白白白。。。
原文地址:https://www.cnblogs.com/sky-sugar/p/14360000.html