Python 爬虫

初识python爬虫

什么是爬虫?

  • 爬取网络数据的虫子(Python程序)

爬虫实质是什么呢?

  • 模拟浏览器的工作原理,向服务器请求相应的数据

浏览器的工作原理

  • 浏览器在这个过程中还起到了翻译数据的作用哦

爬虫的工作原理如下图:

  

梳理代码流程:

(1)引入Python工具包requests

(2)使用工具包中的get方法,向服务器发起请求

(3)打印输出请求回来的数据并解析(print语法)

import requests;
import json;
ajaxGet = requests.get('http://news.baidu.com/widget?id=LocalNews&ajax=json&channel=guonei&picn1=2&t=1622020128186');
list = json.loads(ajaxGet.text);
print(list['data']['LocalNews']['localNews']['rows']['pic']);
for itme in list['data']['LocalNews']['localNews']['rows']['pic']:
print(itme['url']);

 (4)学会引入openpyxl工具包存储数据

  (a)创建一个Excel表格

  (b)创建一个sheet

  (c)在sheet里面保存数据

  (d)把表格保存在一个磁盘里

import openpyxl;
import requests;
import json;
wk = openpyxl.Workbook();
sheet = wk.create_sheet();
url = 'http://news.baidu.com/widget?id=LocalNews&ajax=json&channel=guonei&picn1=2&t=1622020128186'
resp = requests.get(url);
json_data = json.loads(resp.text);
data = json_data['data']['LocalNews']['localNews']['rows']['pic'];
for item in data: 
  imgUrl = item['imgUrl'];
  title = item['title'];
  sheet.append([ imgUrl, title ]);
  wk.save('data/李大山-2223222132131.xlsx')
原文地址:https://www.cnblogs.com/dekui/p/14993842.html