预习任务:python 网络爬虫

网络爬虫 web scraping :)

还得复习一下面向对象开发。python的。

视频地址:youtube的

http://www.youtube.com/watch?v=Ap_DlSrT-iE

还有有用的资料

http://www.lovelucy.info/python-crawl-pages.html

貌似需要了解的东西有

urllib, urllib2, urlparse, BeautifulSoup, mechanize, cookielib 等等啦
这些库的掌握并不难,网络爬虫难的是你要自己设计压力控制算法,还有你的解析算法,还有图的遍历算法等。

还有一些比较有意思的东西:

Downloading Oil Prices from the Web in Python

http://www.youtube.com/watch?v=B5CCG89zWzw

还有这个

ParsingAndWritingTheSoup

http://www.youtube.com/watch?v=SVeyVuGBzsI




原文地址:https://www.cnblogs.com/spaceship9/p/2985859.html