Python学习第7天爬虫-1 构思

语法大概熟悉后，开始尝试下爬虫，这也是python比较热门的一种应用，只有在实际应用中摸索才能掌握，光看教程不够。

刚好有下载电影的需求，思路如下：

1、整理一个待下载的电影名称列表的文本，每行一个电影名字

2、到一个bt搜索网站上按行循环搜索

3、搜索名字后会出现一堆结果，主要判断两个地方。

一个是大小，找出第1页10G以内从大到小排列前三的，因为超过10G可能就不是所要找的内容了，而是一些什么合集

另一个是人气，大小第一如果人气太低也下载不了，所以要在下载大小和人气之间选择容易尽量大、人气尽量多的。先按大小也行，看下下载情况，或者取个临界值，小于多少人气的就顺位取后面一个。

4、找到这个链接后，点击进去（即python抓取网页），里面有个magent地址，这个就是要找的，记录在文本，并把原先文本里的电影名称删除，避免重复抓取。

文本可能不方便，估计弄个数据库打上已处理标记更好。

其实要处理文本也可以，读取文本，找到记录，在前面加上【已抓取】几个字，下次取的时候写死判断前面带这几个字的就跳过

上午要加班，回来再试下

============================

中午下雨，就没回家吃了直接在公司趴了一会下午继续，做到四点部门去看电影，刺客信条，没看懂。看完聚餐，九点前能78元抵100元，结果不知道，21:02出来结账。。。最后只好打九五折并送五张50元券，还好可以报销。

具体就没法试了，晚上先找些资料看下怎么爬取网页吧

============================

#encoding=utf8
import urllib
res = urllib.urlopen("http://www.baidu.com")

file_object = open('thefile.txt', 'w')
file_object.write(res.read())
file_object.close()

总算有个起步了

import的这个urllib，是通用爬取网页的包，用urlopen可以打开网页，再.read()可以获取网页内容

要写到文件里，要先open('xx','w')，再write，并记得close()

Python学习 第7天 爬虫-1 构思

Python学习第7天爬虫-1 构思