bs4 beautifullsoup网页内容选择器

# -*- encoding:utf-8 -*-
import requests
from bs4 import BeautifulSoup
r=requests.get('http://cnblogs.com/xupanfeng')
r.encoding='utf-8'
import io
import sys
import urllib.request
sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='utf8')
html_doc=r.text

soup=BeautifulSoup(html_doc)
print(soup.title);print(soup.title.text)#取标题,取标题文本
print(soup.p)#取B标签
print(soup.p.has_attr('class'))#判断有没有这个属性
print(soup.p.children)#,这个列表有一个CHILDREN方法,得到一个迭代器
print(type(soup.p))#<class 'bs4.element.Tag'>是一个TAG对象,有一个children方法
print('pbiaoqian')
a=0
for i in soup.find_all('a'):
    aii=i.attrs
    print(aii.get('href'))
    a+=1
    print(a)
#取出所有的A标签
print('-------')
print(soup.find(id='link3'))#找到ID=link3的标签
a=soup.get_text()#得到文本内容
print(a)
#支持CSS选择器
soup.select('.story')#查找类名是STORY的节点
soup.select('#link1')#查找ID是LINK1的标签
原文地址:https://www.cnblogs.com/xupanfeng/p/11690473.html