爬虫工程师就业技能及大纲

前言

  去年我在北风网花了两万大洋报的人工智能培训班(6个月),老师讲的没毛病,怪只怪自己最后一个月没好好学,加上疫情影响,学历比较低,就业比较难。我彻底放弃了人工智能。回首看来,准备入手爬虫这个对学历没什么要求的工作,此篇随便为大纲及概述,后续会更新详细内容及案例内容。

  大纲以及后续更新的内容来自本人从B站博主 路飞学城  发布的课程学来的知识加以自己的理解,案例内容为自己提的各方面需求。

职业规划  

  以稳固的web端爬虫入手,逐步渗透app端爬虫,当全部成熟后,攻坚数据可视化和数据分析。完成一套技术流程,提升自身价值。

大纲 

  python基础语法

   requests模块,session请求(请求时携带动态变化的cookie)

   xpath解析(推荐),bs4解析,正则表达式

  selenium模块、动作链、iframe标签的注意

  selenium操控的无头浏览器及规避对selenium的检测

   验证码的处理:云打码平台(普通验证码,数字字母之类)

          超级鹰(更难得验证码,比如给出文字“老虎”,验证码要求点击图中所有老虎)

          OCR技术(使用tesserocr库,可以识别难度低的,比如下图,一般使用此方法时需要处理处理图片,比如灰度化,二值化)

          

          机器学习训练模型分析出验证码

          卷积神经网络训练模型分析出验证码(比机器学习准确度更高)

          selenium解决滑动式验证码,具体方法是比较验证码图片缺失位置像素差值,然后获取位置啊大小啊之类,截图,加速,减速等行为。

          暴力枚举解决宫格式验证码(比如各个手机银行进入时的宫格手势密码)

  代理ip池的维护

  多线程/多进程 异步爬虫

  协程爬虫

  scrapy框架

  分布式爬虫(基于scrapy-redis)

  增量式爬虫(利用redis数据库的set去重)

  数据库:

      Mysql

      Mongodb

      Redis

  JS逆向破解参数加密

  JS混淆

  app端的爬虫(尚未学习)

案例

  全本小说网玄幻魔法人气排行下载

  百度图片的李连杰图片前10页

  qq音乐热门歌曲前两页下载

  美团的浦东商家详情页信息

  58同城的简历自动投递

  安居客房源信息的采集

  淘宝iphone11手机价格的采集及实时更新

  boss直聘中上海互联网行业各职位薪资待遇和职位要求

  雪球网沪深股市沪深一览增量式爬取(内容在变化)

  神州租车价格和数量 增量式爬取

  信托类网站项目类型和规模的爬取

  格力空调官网 格力发布 新闻的爬取

  中国空气质量在线监测平台的爬取(涉及JS加密)https://www.aqistudy.cn

  衡水市人民政府公示公告的爬取

    

原文地址:https://www.cnblogs.com/qianchaomoon/p/13782936.html