网络爬虫 web scraping :)

还得复习一下面向对象开发。python的。

视频地址：youtube的

还有有用的资料

貌似需要了解的东西有

urllib, urllib2, urlparse, BeautifulSoup, mechanize, cookielib 等等啦
这些库的掌握并不难，网络爬虫难的是你要自己设计压力控制算法，还有你的解析算法，还有图的遍历算法等。

还有一些比较有意思的东西：

Downloading Oil Prices from the Web in Python

还有这个

ParsingAndWritingTheSoup