简单爬虫的编写

相关api:

  Urllib 模块提供了读取web页面数据的接口,我们可以像读取本地文件一样读取www和ftp上的数据。

  page = urllib.urlopen(url)    //urllib.urlopen()方法用于打开一个url地址,urlopen(url,value),通过post方法访问并传递数据

  html = page.read()     //read()方法读取url的数据,

  正则表达式的使用:

  re模块的compile()方法把正则表达式编译成一个对象,re.findcall()方法读取html中包含正则表达式的数据。

  urllib.urlretrieve(url,"filename");         //直接将远程数据下载到本地,默认的保存目录和.py文件在同一目录

   urllib.urlencode(data)   //可以将Json数据转换成可以post或者get传递的数据

BeautifulSoup库

  BeautifulSoup(html).findAll('img',attr={})

原文地址:https://www.cnblogs.com/jiang--nan/p/7985717.html