py网络爬虫基础练习

1. 取出h1标签的文本

soup.h1.text

2. 取出a标签的链接

soup.a.attrs['href']

3. 取出所有li标签的所有内容

for i in soup.select('li'):
    print(i.contents)

4. 取出第2个li标签的a标签的第3个div标签的属性

soup.select('li')[1].a.select('div')[2].attrs

5. 取出一条新闻的标题、链接、发布时间、来源

soup.select('.news-list-title')[0].text

soup.select('li')[2].a.attrs['href']

soup.select('.news-list-info')[0].contents[0].text

soup.select('.news-list-info')[0].contents[1].text