零基础爬虫课,不会编程也能做爬虫

为什么要学这门课?应用场景有哪些?

1、上班族与自媒体人:采集各类数据用于工作/运营实战;
2、电商老板:采集竞品数据,帮助分析决策;
3、找个副业:学会数据采集技能,网上接单赚钱;

常见数据采集方式

1、人工采集:复制粘贴,费时费力,出错率高,效率低下;
2、写爬虫采集:需要会编程会写爬虫,技术门槛高;

这门课程可以解决上面的难题,学完这门课程,一天的工作量1个小时就做完了。

它能采集什么样的数据?

只要是电脑浏览器能打开的网站,它都可以采集。

它不能采集什么样数据?

只有手机App没有网站,这样的数据不能采集。

 

安装软件

1、安装谷歌浏览器;

下载谷歌浏览器,https://www.google.cn/chrome/

  

2、安装爬虫插件;

下载插件: https://pan.baidu.com/s/15StxxtZOihb2zlsDnIS2Vw  提取码:86tn

安装插件: https://www.bilibili.com/video/BV1W54y1r7nt/ 

零基础爬虫课目录

数据采集思路:

从整体到局部,从大到小

先找【数据框】,再找【数据框】里面的每一项数据。

视频演示: https://www.bilibili.com/video/BV1rT4y1F7cQ/

常用类型的介绍

【数据框】类型:Element 普通数据框 、Element scroll down 鼠标滚动数据框 、 Element click 加载更多数据框

【数据】类型:text 普通文本、image 图片、Element attribute 隐藏数据

特殊类型:Link 链接,可同时用作【数据框】和【数据】类型

基础:

1、采集简单的【列表页】数据,示例博客园新闻,https://news.cnblogs.com/ ,视频讲解 https://m.weibo.cn/status/4575058481643763?

2、采集简单【翻页】数据,示例博客园新闻,https://news.cnblogs.com/,视频讲解 https://m.weibo.cn/status/4575521469894849?

进阶:

3、采集复杂【翻页】数据,示例博客园首页,https://cnblogs.com/

4、采集【加载更多】数据,示例 少数派网站,https://sspai.com/topics,视频讲解 https://m.weibo.cn/status/4562968928324541?

5、采集【鼠标滚动】加载数据,示例微博,https://weibo.com/,视频讲解 https://m.weibo.cn/status/4575536645150828?

高级:

6、同时采集【列表页】和【详情页】数据,示例博客园新闻,https://news.cnblogs.com/,视频讲解 https://m.weibo.cn/status/4575547349539550?

7、采集【鼠标滚动】 + 【翻页】,示例微博,https://weibo.com/

8、采集【鼠标滚动】+ 【加载更多】 + 【翻页】,示例微博 ,https://weibo.com/

补充:

1、导入导出爬虫模板;

2、常用类型介绍:

------------- 如下  1、2、3 类型,常用于数据框   --------------------

1、Element, 普通类型

2、Element scroll down,鼠标滚动类型,模拟鼠标滚动

3、Element click,鼠标点击类型,模拟【加载更多】按钮

-------------   4、5、6、7 常用于数据   --------------------

4、Text,普通文本,采集普通文本信息

5、Image,图片,采集图片地址

6、Element attribute,采集隐藏的信息

7、Link,链接类型

-------------    特殊类型 Link    --------------------

Link类型特殊在哪里?

Link既可以用作【数据框】类型也可以用作【数据】类型

1、Link类型,它可以采集 【链接文本】 和 【链接地址】,如下图

2、可以点入Link类型,在里面新建一个数据框(比如Element 类型),这样就可以采集到【二级页面】的内容,如下图:

原文地址:https://www.cnblogs.com/gezifeiyang/p/13970366.html