爬取新浪网的标题和网址

import requests
from bs4 import BeautifulSoup

url = 'https://news.sina.com.cn/china' #爬取的新闻网址
res = requests.get(url)
res.encoding="UTF-8"
# 使用剖析器为html.parser
soup = BeautifulSoup(res.text, 'html.parser')

print ('开始爬取')
#print(len(soup.select("li")))

for news in soup.select("a"):
    if len(news.text) > 5:
        title =news.text
        href = news['href']
        print (title,href)

【推广】免费学中医，健康全家人

原文地址：https://www.cnblogs.com/1gaoyu/p/12522084.html

推荐文章
rabbitmq学习——交换机
rabbitmq学习——队列
rabbitmq学习——helloworld
rabbitmq学习——安装测试
activiti用dubbo分布服务
【喜大普奔！】自己的博客网站(https://fredericniu.cn)，欢迎大家随时骚扰~
2021年homebrew下载太慢的方法！！！！
【大数据】什么是数仓
【大数据】科普一下大数据的那些事儿
【大数据】hbase的高可用安装与需要注意的坑
【大数据】Hive的安装与配置
【大数据】深入源码解析Map Reduce的架构
【运维】Vmware虚拟机静态IP的设置
【大数据】MapReduce开发小实战
【大数据】Hadoop的HDFS的API开发小实战
升级tomcat版本方式
java修改class文件
SpringBoot开发
（转）Java 8 中的 Streams API 详解
（转）User-Agent的由来（原来这么有意思）
Ajax探讨
什么叫套接字
hibernate中的dialect解释
SpringMvc整合hibernate
单点登录原理
微信小程序开发视频教程学习（第6天）2017年6月29日：上午前端下午PHP
微信小程序开发视频教程学习（第3天）2：PHP测验错误题分析
微信小程序开发视频教程学习（第3天）：上午前端下午PHP
微信小程序开发视频教程学习（第2天）：上午前端下午PHP
flex开发的企业管理系统ui