scrapy框架简介和基础应用
今日概要
- scrapy框架介绍
- 环境安装
- 基础使用
今日详情
一.什么是Scrapy?
Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍。所谓的框架就是一个已经被集成了各种功能(高性能异步下载,队列,分布式,解析,持久化等)的具有很强通用性的项目模板。对于框架的学习,重点是要学习其框架的特性、各个功能的用法即可。
二.安装
Linux:
pip3 install scrapy
Windows:
a. pip3 install wheel
b. 下载twisted http:
/
/
www.lfd.uci.edu
/
~gohlke
/
pythonlibs
/
#twisted
c. 进入下载目录,执行 pip3 install Twisted‑
17.1
.
0
‑cp35‑cp35m‑win_amd64.whl
d. pip3 install pywin32
e.
pip3 install scrapy
三.基础使用
1.创建项目:scrapy startproject 项目名称
项目结构:
2.创建爬虫应用程序:
cd project_name(进入项目目录)
scrapy genspider 应用名称 爬取网页的起始url (例如:scrapy genspider qiubai www.qiushibaike.com)
3.编写爬虫文件:在步骤2执行完毕后,会在项目的spiders中生成一个应用名的py爬虫文件,文件源码如下:
4.设置修改settings.py配置文件相关配置:
5.执行爬虫程序:scrapy crawl 应用名称
四.小试牛刀:将糗百首页中段子的内容和标题进行爬取
执行爬虫程序:
【推广】
免费学中医,健康全家人
原文地址:https://www.cnblogs.com/duhong0520/p/11741818.html
- 推荐文章
- C#多线程学习(一) 多线程的相关概念
- C# 根据绝对路径获取 带后缀文件名、后缀名、文件名、不带文件名的文件路径
- 技术名称(随学随更新)
- 缩略词(随学随更新)
- 集合去重
- validform验证之后,使用ajax提交表单
- 快速增加sql数据
- 什么是Unicode letter
- 关于Linq中的Lambda表达式中OrderBy的深入理解
- 利用反射+AOP,封装Basehandler
- (转)那些年搞不懂的高深术语——依赖倒置•控制反转•依赖注入•面向接口编程
- (转)漫谈SOA(面向服务架构)
- Http状态码(转)
- 算法题
- Perl的open函数
- Perl中的小知识点
- Perl中的默认变量$_ 和 @_
- Perl中if [-e $file] 判断 (转载)
- 数据库的范式
- MySQL中IN和EXISTS的用法
- HAVING 和 WHERE 的使用
- Input and Output
- python数据分析知识点
- 正则化
- ol 接入百度地图
- 高德室内地图解析
- mapbox 接入高德矢量地图实战
- 4、微信小程序和weui
- 3、YishaAdmin开源框架搭建
- 2、微信小程序开发注册、配置介绍说明