获取全部校园网信息

1.取出一个新闻列表页的全部新闻包装成函数。

2.获取总的新闻篇数，算出新闻总页数。

3.获取全部新闻列表页的全部新闻详情。

爬取南科大校园网的新闻

import requests
from bs4 import BeautifulSoup
from datetime import datetime
import re


# 获取新闻列表页的简略信息
def crawlOnePage(url):
    res=requests.get(url)
    res.encoding = 'UTF-8'
    soup = BeautifulSoup(res.text, 'html.parser')
    cont=soup.select('.block')
    for i in cont:
        print('——'*10 + '纯洁的分割线' + '——'*10)
        print()
        print('新闻网址： ' + 'www.sustc.edu.cn' + i.select('a')[0]['href'])
        print('新闻标题： ' + i.select('a')[0]['title'])
        a='http://www.sustc.edu.cn' + i.select('a')[0].attrs['href']
        print(a)
        getDetail(a)


        print()

# #获取新闻具体信息
def getDetail(url):
    res = requests.get(url)
    res.encoding = 'UTF-8'
    soup = BeautifulSoup(res.text, 'html.parser')
    cont=soup.select('.d')[0].text
    #将时间字符串转换成datetime格式
    release_time=datetime.strptime(cont,'%Y-%m-%d ')
    print(release_time)
    print('新闻类型： ' + soup.select('.tag')[0].text)
    content=soup.select('.txt')[1].select('p')
    print(content[-1].text)
    for i in content[:-2]:
        print(i.text)

#取得所有页面的新闻
def getTotalPage(url):
    res = requests.get(url)
    res.encoding = 'UTF-8'
    soup = BeautifulSoup(res.text, 'html.parser')
    # print(res.text)
    d = int(soup.select('.page_span')[0].text[:soup.select('.page_span')[0].text.index('页')].lstrip('共'))
    for i in range(1,d):
        page=str(i)
        geturl='http://www.sustc.edu.cn/news_events_/p/'+page
        crawlOnePage(geturl)



getTotalPage('http://www.sustc.edu.cn/news_events_/p/1')

　　运行代码结果

————————————————————纯洁的分割线————————————————————

新闻网址： www.sustc.edu.cn/news_events_/4725
新闻标题：我校物理系毕业生在《物理评论快报》发表本科期间科研成果
http://www.sustc.edu.cn/news_events_/4725
2018-04-11 00:00:00
新闻类型：科研新闻
供稿：物理系
近日，物理学顶级期刊《物理评论快报》(Physical Review Letters, PRL)在线发表了以南方科技大学物理系2013级本科生李策群（目前在美国宾夕法尼亚州立大学攻读博士学位）为第一作者的论文。

拓扑节线半金属中费米面结构示意图
论文题目为“量子振荡的相位在拓扑节线半金属中的定则”（Rules for Phase Shifts of Quantum Oscillations in Topological Nodal-Line Semimetals）。我校物理系研究助理教授王春明为共同第一作者，副教授卢海舟为通讯作者。南科大是论文第一单位，该论文由南科大、南京大学和北京大学的合作者共同完成。

李策群在2018美国物理学会会议上做学术报告
李策群是我校物理系2013级本科生，2017年夏季毕业后赴美国宾夕法尼亚州立大学攻读博士学位。李策群从大三开始就进入卢海舟课题组进行研究，在王春明和卢海舟的指导下，于大四期间完成了论文中大部分理论计算。
这是李策群第三次在国际学术期刊上发表自己本科期间的科研成果。此前他在物理系副教授徐虎的指导下，以第一作者在美国物理联合会（AIP）旗下国际学术期刊《化学物理》（The Journal of Chemical Physics）发表了关于提高金属氧化物表面活性的研究成果，后受邀至意大利 University of Milano Bicocca 访问并与该校的课题组合作完成了题为“CO adsorption on graphite-like ZnO bilayers supported on Cu(111), Ag(111), and Au(111) surfaces”的论文，该论文已在美国化学学会（ACS）旗下期刊《物理化学C》（The Journal of Physical Chemistry C）上发表。今年三月，李策群在洛杉矶参加了美国物理学会举办的三月会议(APS March Meeting 2018),并在学术报告中向参会人员介绍自己的研究工作。

论文链接：
https://journals.aps.org/prl/abstract/10.1103/PhysRevLett.120.146602

————————————————————纯洁的分割线————————————————————

新闻网址： www.sustc.edu.cn/news_events_/4722
新闻标题：南科大化学系李闯创课题组在《美国化学会志》发表封面文章在国际上首次完成Cyclocitrinol全合成
http://www.sustc.edu.cn/news_events_/4722
2018-04-09 00:00:00
新闻类型：综合新闻
供稿：化学系

分析文章《活在叔本华的世界里》

import jieba
import re
f = open("C:/Users/ZD/PycharmProjects/test/test.txt", 'r', encoding='utf8')
str = f.read()
f.close()


wordList = jieba.cut(str)
wordList = list(jieba.cut(str))

wordDic = {}
for i in set(wordList):
    wordDic[i] = wordList.count(i)

sort_word = sorted(wordDic.items(), key=lambda d: d[1], reverse=True)
for i in range(20):
    print(sort_word[i])