Python网络爬虫学习总结

1、检查robots.txt

让爬虫了解爬取该网站时存在哪些限制。

最小化爬虫被封禁的可能，而且还能发现和网站结构相关的线索。

2、检查网站地图（robots.txt文件中发现的Sitemap文件）

帮助爬虫定位网站最新的内容，而无须爬取每一个网页。

网站地图提供了所有网页的链接，我们仍需对其谨慎处理，因为该文件经常存在缺失、过期或者不完整的问题。

3、估算网站大小

爬取效率（使用分布式）

方法：检查Google爬虫的结果（Google中搜索site:www.xxxxx.com/xxxxxx）

4、识别网站所用技术

builtwith模块

builtwith.parse(‘http://www.xxxxx.com’)

Web2py框架、通用JavaScript：内容嵌入在HTML中，容易抓取
AngularJS：动态加载
ASP.NET：会话管理和表单提交

5、寻找网站所有者

WHOIS协议查询域名的注册者

python-whois包

6、下载网页

urllib2模块（urllib模块）

urllib2.urlopen(url).read()

7、重试下载

4xx错误发生在请求存在问题时，5xx错误发生在服务端存在问题时。

5xx错误时重试下载。

num_retries 设定重试下载的次数

urllib2.URLError as e
e.reason
hasattr(e, ‘code’) and 500 <= e.code <600

8、设置用户代理

因为曾经历过质量不佳的Python网络爬虫造成的服务器过载，一些网站还会封禁这个默认的用户代理（Python-urllib/2.7）

user_agent = ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36’
headers = {‘User-agent’: user_agent}
urllib2.Request(url, headers=headers)

9、解析robots.txt

robotparser模块

rp = rebotparser.RobotFileParser()
rp.set_url(url)
rp.read()
rp.can_fetch(user_agent, url)

10、支持代理（FQ）

proxy = ’121.193.143.249:80’
opener = urllib2.build_opener()
proxy_params = {urlparse.urlparse(url).scheme: proxy}
opener.add_handler(urllib2.ProxyHandler(proxy_params))
response = opener.open(request)

11、下载限速

self.delay：延时限速

domain = urlparse.urlparse(url).netloc # 获取domain
last_accessed = self.domains.get(domain)
if self.delay > 0 and last_accessed is not None:
    sleep_secs = self.delay - (datetime.now() - last_accessed).seconds
    if sleep_secs > 0:
        time.sleep(sleep_secs)
self.domains[domain] = datetime.now()

12、避免爬虫陷阱

深度 depth

最大深度 max_depth

max_depth = 2
seen = {}
depth = seen[url]
if depth != max_depth:
    for link in links:
        if link not in seen:
            seen[link] = depth + 1
            crawl_queue.append(link)

13、链接转换为绝对链接

urlparse模块

urlparse.urljoin(seed_url, link)

14、三种网页抓取方法

正则表达式：re.findall()

Beautiful Soup：

beautifulsoup4模块

soup = BeautifulSoup(html, ‘html.parser’)
soup.find()

Lxml：

lxml.html模块

tree = lxml.html.fromstring(html)
tree.cssselect()

15、磁盘缓存

pickle（输入转化为字符串）
zlib（压缩序列化字符串）
shutil（高层次的文件操作工具）
datetime（过期）
urlparse（文件名urlparse.urlsplit分割URL）

16、NoSQL

列数据存储（HBase）
键值对存储（Redis）
面向文档的数据库（MongoDB）
图形数据库（Neo4j）

17、数据库缓存

self.client = MongoClient('localhost', 27017) if client is None else client
self.db = self.client.cache
expires=timedelta(days=30)
self.db.webpage.create_index('timestamp', expireAfterSeconds=expires.total_seconds())

set方法：

from bson.binary import Binary # 二进制形式存储
record = {'result': Binary(zlib.compress(pickle.dumps(result))), 'timestamp': datetime.utcnow()}
self.db.webpage.update({'_id': url}, {'$set': record}, upsert=True)

get方法：

record = self.db.webpage.find_one({'_id': url})
pickle.loads(zlib.decompress(record['result']))

18、多线程爬虫

threads = []
while threads or crawl_queue:
    for thread in threads:
        if not thread.is_alive():
            threads.remove(thread)
    while len(threads) < max_threads and crawl_queue:
        thread = threading.Thread(target=process_queue)
        thread.setDaemon(True) # set daemon so main thread can exit when receives ctrl-c
        thread.start()
        threads.append(thread)
　　time.sleep(SLEEP_TIME)

19、多进程爬虫

def process_crawler(args, **kwargs):
    num_cpus = multiprocessing.cpu_count()
    #pool = multiprocessing.Pool(processes=num_cpus)
    print 'Starting {} processes'.format(num_cpus)
    processes = []
    for i in range(num_cpus):
        p = multiprocessing.Process(target=threaded_crawler, args=[args], kwargs=kwargs)
        #parsed = pool.apply_async(threaded_link_crawler, args, kwargs)
        p.start()
        processes.append(p)
    # wait for processes to complete
    for p in processes:
        p.join()

20、动态网页进行逆向工程

ajax请求数据（数据接口API）

json解析成一个字典

21、渲染动态网页

WebKit渲染引擎（通过Qt框架可以获得该引擎的一个便捷Python接口）
Selenium（一个用于Web应用程序测试的工具）
PhantomJS（提供一个浏览器环境的命令行接口，你可以把它看作一个“虚拟浏览器”，除了不能浏览，其他与正常浏览器一样）

难点：需要等待AJAX请求完成之后才能加载结果，定义wait

22、表单交互

发送POST请求提交表单（重要部分cookie，cookie是网站在HTTP响应头中传输的少量数据）

def parse_form(html):
    tree = lxml.html.fromstring(html)
    data = {}
    for e in tree.cssselect('form input'):
        if e.get('name'):
            data[e.get('name')] = e.get('value')
　　return data
data = parse_form(html)
data['email'] = LOGIN_EMAIL
data['password'] = LOGIN_PASSWORD
encoded_data = urllib.urlencode(data)
request = urllib2.Request(LOGIN_URL, encoded_data)
response = opener.open(request)

23、使用cookie登录网站

cookie是网站在HTTP响应头中传输的少量数据，形如：Set-Cookie: session_id=example;。

浏览器将会存储这些数据，并在后续对该网站的请求头中包含它们。这样就可以让网站识别和跟踪用户。

import cookielib
cj = cookielib.CookieJar()
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
html = opener.open(LOGIN_URL).read()

24、从浏览器加载cookie（pprint美观打印数据结构）

import glob
import os

# 返回session文件路径的辅助函数
def find_ff_sessions():
    paths = [
        '~/.mozilla/firefox/*.default',        # Linux系统
        '~/Library/Application Support/Firefox/Profiles/*.default',      # OS X
        '%APPDATA%/Roaming/Mozilla/Firefox/Profiles/*.default'       # Windows Vista及以上版本
    ]
    for path in paths:
        filename = os.path.join(path, 'sessionstore.js')
        matches = glob.glob(os.path.expanduser(filename))
        if matches:
            return matches[0]

glob模块会返回指定路径中所有匹配的文件。

# 把session解析到CookieJar对象的函数
def load_ff_sessions(session_filename):
    cj = cookielib.CookieJar()
    if os.path.exists(session_filename): 
        try:
            json_data = json.loads(open(session_filename, 'rb').read())
        except ValueError as e:
            print 'Error parsing session JSON:', str(e)
        else:
            for window in json_data.get('windows', []):
                for cookie in window.get('cookies', []):
                    import pprint; pprint.pprint(cookie)
                    c = cookielib.Cookie(0, cookie.get('name', ''), cookie.get('value', ''),
                        None, False,
                        cookie.get('host', ''), cookie.get('host', '').startswith('.'), cookie.get('host', '').startswith('.'),
                        cookie.get('path', ''), False,
                        False, str(int(time.time()) + 3600 * 24 * 7), False,
                        None, None, {})
                    cj.set_cookie(c)
    else:
        print 'Session filename does not exist:', session_filename
    return cj

最后我们只需要使用浏览器cookie登录：

session_filename = find_ff_sessions()
cj = load_ff_sessions(session_filename)
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
html = opener.open(URL).read()

25、自动化表单处理（Mechanize--mechanize only works on python 2.x）

简化表单提交的高级模块Mechanize

不再需要管理cookie，而且访问表单输入框也更加容易。

import mechanize
br = mechanize.Browser()
br.open(login.LOGIN_URL)
br.select_form(nr=0)
br['email'] = login.LOGIN_EMAIL
br['password'] = login.LOGIN_PASSWORD
response = br.submit()

26、验证码处理（光学字符识别（COR）运用在验证码像素基本一致、字体标准、限制在字典中的单词）

from io import BytesIO
import lxml.html
from PIL import Image

# 返回包含验证码图像的Image对象
def extract_image(html):
    tree = lxml.html.fromstring(html)
    img_data = tree.cssselect('div#recaptcha img')[0].get('src')
    # remove data:image/png;base64, header
    img_data = img_data.partition(',')[-1]
    #open('test_.png', 'wb').write(data.decode('base64'))
    binary_img_data = img_data.decode('base64')
    file_like = BytesIO(binary_img_data)
    img = Image.open(file_like)
    #img.save('test.png')
    return img

import pytesseract

# 阈值化，抽取验证码中的文本
def ocr(img):
    gray = img.convert('L')
    bw = gray.point(lambda x: 0 if x < 1 else 255, '1')
    word = pytesseract.image_to_string(bw)
    ascii_word = ''.join(c for c in word if c in string.letters).lower()
    return ascii_word

27、处理复杂验证码（验证码处理API）

2captcha.com
deathbycaptcha.com
9kw.eu（可以不需要花钱）

28、Scrapy（一个流行的网络爬虫框架，可保存结果、中断恢复爬虫）

Scrapy拥有很多简化网站抓取的高级函数

scrapy -h 查看命令的详细信息

startproject：创建一个新项目
genspider：根据模板生成一个新爬虫
crawl：执行爬虫
shell：启动交互式抓取控制台

29、Portia（一款基于Scrapy开发的开源工具）

该工具可以通过点击要抓取的网站部分来创建爬虫，这样就比手工创建CSS选择器的方式更加方便。

30、Scrapely库

使用训练数据建立从网页中抓取哪些内容的模型，并在以后抓取相同结构的其他网页时应用该模型。

from scrapely import Scraper

s = Scraper()
train_url = ‘http://www.xxxxx.com/xxxxxx’
s.train(train_url, {‘name’: ‘xxx’, ‘population’: ‘xxxx’})
test_url = ‘xxxxxxx’
s.scrape(test_url)

网页内容是静态的，在布局发生改变时，这种方法就会非常有用。

31、反爬虫

为什么？

爬虫占总PV比例较高，这样浪费钱（尤其是三月份爬虫）。
公司可免费查询的资源被批量抓走，丧失竞争力，这样少赚钱。
爬虫是否涉嫌违法？如果是的话，是否可以起诉要求赔偿？这样可以赚钱。

怎么做？

后台对访问进行统计，如果单个IP或userAgent访问超过阈值，予以封锁。
验证码、Ajax异步加载、Noscript标签的使用、Cookie限制