我的第一个爬虫

“‘

刚刚开始接触爬虫,写下我的第一个小程序,主要是爬我以前公司的几张小图片,仅做学习之用

作者:琦琦爸爸

’”


#-*-coding:utf-8-*-
from bs4 import BeautifulSoup
import requests

#这个是定义一个自己需要爬虫的网络地址

url='http://www.sovell.com.cn/dish/index.php‘’

#利用requests中的get方法,用web_data接受爬回的数据

wb_data=requests.get(url)

#利用 lxml解析网页

soup=BeautifulSoup(wb_data.text,'lxml')

#利用css样式的方式获取相关信息,具体可以右击获得,爬虫一般分2中方式,一种是按样式来,一种是按路径来爬取

imgs=soup.select('#whyGeely > div > div > div.container > div > ul > li > div.topnav_pic > img ')
content=soup.select('#whyGeely > div > div > div.container > div > ul > li > div.topnav_txt')

#利用zip功能,分别将多个列表遍历,将相关信息存放于字典中,便于后期分析

for imgs,content in zip(imgs,content):
  data={
    'img':imgs.get('src'),
    'content':content.get_text()
  }
print(data)

原文地址:https://www.cnblogs.com/czb529514/p/6895692.html