day 05

day005

1.文本处理+词云

01.什么是文件；文件是操作系统提供的一个虚拟概念，用来储存信息

02.文本文件；.txt/.word/.md/.py/.xml/.ini 储存的是文字

03.通过文本编辑器去控制txt文件

1.找到文件路径 # file_path='/Users/luocongyu/Downloads/百度网盘/上课数据/day 05/huijiadeyouhuo.txt' 2.打开文件 # f=open(file_path)(只是把文件读入内存没有将文件可视化) 打开文件的3种方式 3.读取/修改操作 # data=f.read() # 读取文件让文件可视化 4.保存 # f.flush() # 保存文件 5.关闭文件 # f.close() # 关闭文件

import jieba
import imageio
import wordcloud

# 1. 读取文件内容
with open(r'/Users/luocongyu/Downloads/百度网盘/上课数据/day 05/huijiadeyouhuo.txt','r+',encoding='utf8') as fr:
  # for i in range(1000):
  #     fr.write('回家的诱惑，')
  #     fr.flush() # 相当于保存

  data = fr.read()


# 2. 使用结巴模块对文件内容切割
jieba.add_word('回家的诱惑') # 让"回家的诱惑"成为一个单词
jieba.del_word('女士')
jieba.del_word('先生')
jieba.del_word('小马')
data_list = jieba.lcut(data)
data = ' '.join(data_list)

# 3. 找到一张洪世贤的图片
img = imageio.imread(r'hongshixian.jpg')

# 4. 使用词云模块生成词云
w = wordcloud.WordCloud(background_color='white',mask=img,font_path=r'C:WindowsFontssimsun.ttc',max_words=150)
w.generate(data)
w.to_file('nihaosaoa.png')

2.爬取图片

import requests
response = requests.get(
  url='http://gss0.baidu.com/-4o3dSag_xI4khGko9WTAnF6hhy/zhidao/pic/item/5243fbf2b21193136cdd4aab6c380cd791238d0b.jpg'
)

with open('蕾姆.jpg','wb') as f:
  f.write(response.content)
  print('图片下载成功')

3.爬取视频

import requests
response = requests.get(url='https://video.pearvideo.com/mp4/third/20190827/cont-1595605-10024340-172750-hd.mp4')
with open('肉沫虹豆。mp4','wb') as f:
  f.write(response.content)
  print('视频下载成功')

4.爬取文本

import requests
import re
response=requests.get(url='https://movie.douban.com/chart')
response.encoding = 'utf-8'
print(response.text)
Weekly=re.findall('<td width="100" valign="top">.*?<a class="nbg" href="(.*?)".*?title="(.*?)">', response.text, re.S)
num = 1
with open('renren11.txt', 'w', encoding='utf-8')as f:
  for line in Weekly:
      movie_url = line[0]
      movie_name = line[1]
      f.write(movie_url + '---' + movie_name + '
')
print('写入数据成功，程序结束')