Python 爬虫

初识python爬虫

什么是爬虫？

爬取网络数据的虫子（Python程序）

爬虫实质是什么呢？

模拟浏览器的工作原理，向服务器请求相应的数据

浏览器的工作原理

浏览器在这个过程中还起到了翻译数据的作用哦

爬虫的工作原理如下图：

梳理代码流程：

（1）引入Python工具包requests

（2）使用工具包中的get方法，向服务器发起请求

（3）打印输出请求回来的数据并解析（print语法）

import requests;
import json;
ajaxGet = requests.get('http://news.baidu.com/widget?id=LocalNews&ajax=json&channel=guonei&picn1=2&t=1622020128186');
list = json.loads(ajaxGet.text);
print(list['data']['LocalNews']['localNews']['rows']['pic']);
for itme in list['data']['LocalNews']['localNews']['rows']['pic']:
  print(itme['url']);

（4）学会引入openpyxl工具包存储数据

　　（a）创建一个Excel表格

　　（b）创建一个sheet

　　（c）在sheet里面保存数据

　　（d）把表格保存在一个磁盘里

import openpyxl;
import requests;
import json;
wk = openpyxl.Workbook();
sheet = wk.create_sheet();
url = 'http://news.baidu.com/widget?id=LocalNews&ajax=json&channel=guonei&picn1=2&t=1622020128186'
resp = requests.get(url);
json_data = json.loads(resp.text);
data = json_data['data']['LocalNews']['localNews']['rows']['pic'];
for item in data: 
  imgUrl = item['imgUrl'];
  title = item['title'];
  sheet.append([ imgUrl, title ]);
  wk.save('data/李大山-2223222132131.xlsx')