获取全部校园网信息

1.取出一个新闻列表页的全部新闻 包装成函数。

2.获取总的新闻篇数,算出新闻总页数。

3.获取全部新闻列表页的全部新闻详情。

爬取南科大校园网的新闻

import requests
from bs4 import BeautifulSoup
from datetime import datetime
import re


# 获取新闻列表页的简略信息
def crawlOnePage(url):
    res=requests.get(url)
    res.encoding = 'UTF-8'
    soup = BeautifulSoup(res.text, 'html.parser')
    cont=soup.select('.block')
    for i in cont:
        print('——'*10 + '纯洁的分割线' + '——'*10)
        print()
        print('新闻网址: ' + 'www.sustc.edu.cn' + i.select('a')[0]['href'])
        print('新闻标题: ' + i.select('a')[0]['title'])
        a='http://www.sustc.edu.cn' + i.select('a')[0].attrs['href']
        print(a)
        getDetail(a)


        print()

# #获取新闻具体信息
def getDetail(url):
    res = requests.get(url)
    res.encoding = 'UTF-8'
    soup = BeautifulSoup(res.text, 'html.parser')
    cont=soup.select('.d')[0].text
    #将时间字符串转换成datetime格式
    release_time=datetime.strptime(cont,'%Y-%m-%d ')
    print(release_time)
    print('新闻类型: ' + soup.select('.tag')[0].text)
    content=soup.select('.txt')[1].select('p')
    print(content[-1].text)
    for i in content[:-2]:
        print(i.text)

#取得所有页面的新闻
def getTotalPage(url):
    res = requests.get(url)
    res.encoding = 'UTF-8'
    soup = BeautifulSoup(res.text, 'html.parser')
    # print(res.text)
    d = int(soup.select('.page_span')[0].text[:soup.select('.page_span')[0].text.index('页')].lstrip('共'))
    for i in range(1,d):
        page=str(i)
        geturl='http://www.sustc.edu.cn/news_events_/p/'+page
        crawlOnePage(geturl)



getTotalPage('http://www.sustc.edu.cn/news_events_/p/1')

  运行代码结果

————————————————————纯洁的分割线————————————————————

新闻网址: www.sustc.edu.cn/news_events_/4725
新闻标题: 我校物理系毕业生在《物理评论快报》发表本科期间科研成果
http://www.sustc.edu.cn/news_events_/4725
2018-04-11 00:00:00
新闻类型: 科研新闻
供稿:物理系
       近日,物理学顶级期刊《物理评论快报》(Physical Review Letters, PRL)在线发表了以南方科技大学物理系2013级本科生李策群(目前在美国宾夕法尼亚州立大学攻读博士学位)为第一作者的论文。
 
拓扑节线半金属中费米面结构示意图
       论文题目为“量子振荡的相位在拓扑节线半金属中的定则”(Rules for Phase Shifts of Quantum Oscillations in Topological Nodal-Line Semimetals)。我校物理系研究助理教授王春明为共同第一作者,副教授卢海舟为通讯作者。南科大是论文第一单位,该论文由南科大、南京大学和北京大学的合作者共同完成。

​李策群在2018美国物理学会会议上做学术报告 
       李策群是我校物理系2013级本科生,2017年夏季毕业后赴美国宾夕法尼亚州立大学攻读博士学位。李策群从大三开始就进入卢海舟课题组进行研究,在王春明和卢海舟的指导下,于大四期间完成了论文中大部分理论计算。
       这是李策群第三次在国际学术期刊上发表自己本科期间的科研成果。此前他在物理系副教授徐虎的指导下,以第一作者在美国物理联合会(AIP)旗下国际学术期刊《化学物理》(The Journal of Chemical Physics)发表了关于提高金属氧化物表面活性的研究成果,后受邀至意大利 University of Milano Bicocca 访问并与该校的课题组合作完成了题为“CO adsorption on graphite-like ZnO bilayers supported on Cu(111), Ag(111), and Au(111) surfaces”的论文,该论文已在美国化学学会(ACS)旗下期刊《物理化学C》(The Journal of Physical Chemistry C)上发表。今年三月,李策群在洛杉矶参加了美国物理学会举办的三月会议(APS March Meeting 2018),并在学术报告中向参会人员介绍自己的研究工作。

       论文链接:
       https://journals.aps.org/prl/abstract/10.1103/PhysRevLett.120.146602 

————————————————————纯洁的分割线————————————————————

新闻网址: www.sustc.edu.cn/news_events_/4722
新闻标题: 南科大化学系李闯创课题组在《美国化学会志》发表封面文章  在国际上首次完成Cyclocitrinol全合成
http://www.sustc.edu.cn/news_events_/4722
2018-04-09 00:00:00
新闻类型: 综合新闻
供稿:化学系

 分析文章《活在叔本华的世界里》

import jieba
import re
f = open("C:/Users/ZD/PycharmProjects/test/test.txt", 'r', encoding='utf8')
str = f.read()
f.close()


wordList = jieba.cut(str)
wordList = list(jieba.cut(str))

wordDic = {}
for i in set(wordList):
    wordDic[i] = wordList.count(i)

sort_word = sorted(wordDic.items(), key=lambda d: d[1], reverse=True)
for i in range(20):
    print(sort_word[i])

  

原文地址:https://www.cnblogs.com/zd983886992/p/8795915.html