爬取校园新闻首页的新闻

1. 用requests库和BeautifulSoup库,爬取校园新闻首页新闻的标题、链接、正文。

import requests
from bs4 import BeautifulSoup
url='http://news.gzcc.cn/html/xiaoyuanxinwen/'
res = requests.get(url)
res.encoding = 'utf-8'
soup = BeautifulSoup(res.text, 'html.parser')
for news in soup.select('li'):
if len(news.select('.news-list-title'))>0:
title = news.select('.news-list-title')[0].text
source = news.select('.news-list-description')[0].text
a = news.select('a')[0].attrs['href']
print(title, source, a)
break

我校2018年新增学士学位授予专业评审工作顺利完成 3月29日,我校2018年新增学士学位授予专业评审会议在第二行政楼208会议室举行。 http://news.gzcc.cn/html/2018/xiaoyuanxinwen_0330/9155.html
国际学院召开澳洲阿德莱德海外语言实践项目总结会 学院对项目学生出国前与回国后的语言能力进行测试,发现同学们的语言能力取得了明显进步。 http://news.gzcc.cn/html/2018/xiaoyuanxinwen_0330/9140.html
加强校企合作,打造高素质人才培养平台 为了进一步完善学生人才培养和实践能力培育体系,深化产教融合、校企合作,旅游学院积极主动探索酒店管理专业校企合作多元化模式。 http://news.gzcc.cn/html/2018/xiaoyuanxinwen_0329/9129.html
广东财经大学华商学院副院长郭银华一行来我校交流 3月29日,广东财经大学华商学院副院长郭银华一行4人来我校交流。 http://news.gzcc.cn/html/2018/xiaoyuanxinwen_0329/9125.html
学校党委书记吕泉荣讲授新学期“思政第一课” 3月28日,我校党委书记吕泉荣讲授以“坚定信仰,执着追求”为主题的新学期“思政第一课”。 http://news.gzcc.cn/html/2018/xiaoyuanxinwen_0329/9122.html
我校校长杨文轩教授讲授新学期“思政第一课” 3月27日下午,我校校长杨文轩教授在第四教学楼310室为学生讲授了新学期“思政第一课”。 http://news.gzcc.cn/html/2018/xiaoyuanxinwen_0328/9113.html
新西兰梅西大学代表团来我校访问 3月27日,新西兰梅西大学商务发展与运营经理Rebecca Argyle一行来我校访问交流。 http://news.gzcc.cn/html/2018/xiaoyuanxinwen_0327/9106.html
展大国风范,燃民族豪情——我校党委组织党员集体观影《厉害了,我的国》 本学期第三至四周,学校党委统筹,各支部组织教工党员集体观看电影《厉害了,我的国》。 http://news.gzcc.cn/html/2018/xibusudi_0327/9101.html
我校学子在“外研社杯”华南大学生英语辩论赛中获佳绩 3月25日,我校学生在第二十一届“外研社杯”全国大学生英语辩论赛华南总决赛中荣获三等奖。 http://news.gzcc.cn/html/2018/xiaoyuanxinwen_0327/9100.html
弘扬太极文化 提升身体素质——我校举行政工干部太极训练启动仪式 3月23日下午,学校在体育馆3楼举行政工干部太极训练启动仪式。 http://news.gzcc.cn/html/2018/xiaoyuanxinwen_0323/9089.html

爬取正文:

for news in soup.select('li'):
if len(news.select('.news-list-title'))>0:
a = news.select('a')[0].attrs['href']
print(a)
resd = requests.get(a)
resd.encoding ='utf-8'
soupd = BeautifulSoup(resd.text,'html.parser')
print(soupd.select('#content')[0].text)
break

3月29日下午,我校2018年新增学士学位授予专业评审会议在第二行政楼208会议室举行。根据《广东省学位委员会关于做好2017年新增学士学位授予专业备案工作的通知》精神和广东省学位办要求,我校商务英语专业参加了本年度审核。

  评审专家组由湖南大学莫再树教授、华南师范大学教务处处长熊建文教授、暨南大学黄若妤教授、华南农业大学何高大教授、广东外语外贸大学朱文忠教授、广东第二师范学院吴慧坚教授、广州商学院袁泽沛教授组成,熊建文教授任组长。我校副校长刘根正、欧洁梅,相关职能部门负责人和工作人员参加了评审会议。会议由我校评建与督导办主任邬家炜教授主持。刘根正代表学校向专家组莅临我校指导工作表示感谢。他简要回顾了学校历年来学士学位授予专业的总体情况,并就商务英语专业的整体情况向专家组进行了介绍。

  答辩点评由熊建文教授主持。根据审核工作安排,专家组在评审会议之前已对申报专业开展了通讯评议。专家组审阅了相关材料,听取了商务英语专业负责人曾利沙教授的汇报,并进行了现场答辩。专家组一致认为,我校商务英语专业办学定位准确,建设思路清晰,教学管理规范,教学条件满足人才培养需要。商务英语专业已达到文学学士学位授予条件。曾利沙表示,商务英语专业将加大建设力度,加强师资队伍建设,充分发挥自身优势,培养高素质应用型人才。


副校长刘根正讲话


专家组组长熊建文点评


会议现场

2. 分析字符串,获取每篇新闻的发布时间,作者,来源,摄影等信息。


for news in soup.select('li'):
if len(news.select('.news-list-title'))>0:
title = news.select('.news-list-title')[0].text
a = news.select('a')[0].attrs['href']

resd = requests.get(a)
resd.encoding = 'utf-8'
soupd = BeautifulSoup(resd.text, 'html.parser')
d = soupd.select('#content')[0].text
info = soupd.select('.show.info')[0].text
print(info)
dt = info.lstrip('发布时间:')[:19]#发布时间
dt2 = datetime.strptime(dt, '%Y-%m-%d %H:%M:%S')
print(dt2)
i = info.find('来源:')
if i>0:
s = info[info.find('来源:'):].split()[0].lstrip('来源:')#来源
print(s)
a = info.find('作者:')
if a > 0:
l = info[info.find('作者:'):].split()[0].replace('作者:')#作者
print(l)
y = info.find('摄影:')
if y > 0:
u = info[info.find('摄影:'):].split()[0].replace('摄影:')#摄影
print(u)

3. 将其中的发布时间由str转换成datetime类型。

from _datetime import datetime
str = '2018-03-30 17:10:12'
dt =datetime.strptime(str,'%Y-%m-%d %H:%M:%S')
now = datetime.now()
type(now)
now.strftime("%Y-%m-%d %H:%M:%S")
原文地址:https://www.cnblogs.com/a305810827/p/8692522.html