10.scrapy框架简介和基础应用
今日概要
- scrapy框架介绍
- 环境安装
- 基础使用
今日详情
一.什么是Scrapy?
Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍。所谓的框架就是一个已经被集成了各种功能(高性能异步下载,队列,分布式,解析,持久化等)的具有很强通用性的项目模板。对于框架的学习,重点是要学习其框架的特性、各个功能的用法即可。
二.安装
Linux:
pip3 install scrapy
Windows:
a. pip3 install wheel
b. 下载twisted http:
/
/
www.lfd.uci.edu
/
~gohlke
/
pythonlibs
/
#twisted
c. 进入下载目录,执行 pip3 install Twisted‑
17.1
.
0
‑cp35‑cp35m‑win_amd64.whl
d. pip3 install pywin32
e.
pip3 install scrapy
三.基础使用
1.创建项目:scrapy startproject 项目名称
项目结构:
2.创建爬虫应用程序:
cd project_name(进入项目目录)
scrapy genspider 应用名称 爬取网页的起始url (例如:scrapy genspider qiubai www.qiushibaike.com)
3.编写爬虫文件:在步骤2执行完毕后,会在项目的spiders中生成一个应用名的py爬虫文件,文件源码如下:
4.设置修改settings.py配置文件相关配置:
5.执行爬虫程序:scrapy crawl 应用名称
四.小试牛刀:将糗百首页中段子的内容和标题进行爬取
执行爬虫程序:
- 推荐文章
- Python爬虫(一)—爬虫的预备知识(爬虫概念、HTTP与HTTPS、请求与响应)
- Python基础(十五)—模块和命名空间、virtualenv与pip
- 微信公众号上的一次爬虫
- 爬取分析—去哪儿景点热度
- VSCode中 Python3环境的设置
- 基于物联网卡实现的GPS定位
- Python-OpenCV图像识别学习
- 利用Nginx二级域名解决HTTPS引入HTTP致命错误
- CentOS VNC
- 利用JAVA操作Redis
- centos node.js
- SVN(linux)
- 限制输入框只能输入数字
- Eclipse中文乱码
- myeclipse 使用
- centos apache 安装
- mysql
- java
- Ubuntu 14.04+Apache2.4 配置多个网站
- Ubuntu14.04切换内核以安装锐速
- 百度云真实地址解析
- Ubuntu16.04~16.10(php7.0)网站环境一键搭建脚本
- Ubuntu修改WEB数据库MySQL的密码方法和windows下修改MySQL密码
- android属性动画
- android资源文件
- 《2048》开发2——自定义布局
- 《2048》开发1——游戏介绍和布局
- Android Studio--快捷键
- 浅谈Android移动开发程序员的职业发展之路
- Android中SQLite应用详解