Node 爬虫心得

简介

使用 Node 爬取信息和其他语言几乎步骤相同,都同样是以下几点

  • 发起请求
  • 解析内容
  • 避免反爬虫
  • 爬虫策略更新

注意:爬正规网站可能会有法律风险,但是那些小站,甚至自身就有问题的那种,总不怕啥问题。

发起请求

举个例子,笔者随手找了一个种子搜索站。发送下图请求,返回的是一个html页面

接着我们分析页面html代码找到列表第一项的资源的超链接为 '/0AA61E5C1B7B665BC02BCCAF55F3EF7837AFA4F0.html',加上此站域名从而发送下图请求

具体解析页面html代码抓取到想要的文本的方法,可以很粗暴的选择正则表达式。当抓取完毕资源,应该存储到本地,并且开始重新发送请求再来一遍。

Demo 代码如下:

var http = require('http');
// http.request(options, callback);
http.get('http://bt2.bt87.cc/search/SMD31_ctime_1.html', function(res) {
    var data = '';
    res.setEncoding("utf8"); 

    res.on('data', function(chunk) {
        data += chunk;
    }).on('end', function() {

        console.log(data)
    });
});

这里的data就是我们抓去到的html片段大概长这样

第二幅图里的 magnet:xxxxxxxx,这种格式就是我们要的资源链接,迅雷可用。

调整代码如下:

var http = require('http');
var count = 31;
var start =  function (id) {
    http.get('http://bt2.bt87.cc/search/SMD'+ id + '_ctime_1.html', function(res) {
        var data = '';
        res.setEncoding("utf8"); 

        res.on('data', function(chunk) {
            data += chunk;
        }).on('end', function() {
            //var href = 第一个ul里的第一个第一个a标签的href属性
            http.get('http://bt2.bt87.cc' + href, function(res1) {
                var data1 = '';
                res1.setEncoding("utf8"); 

                res1.on('data', function(chunk) {
                    data1 += chunk;
                }).on('end', function() {
                    //var magnet = 正则匹配带有magnet关键字的信息
                    /* fs.appendFile(path, content, function (err){}) */

                    //重新开始请求
                    start(id + 1);
                });
            });
        });
    });
};
start(count);

代码优化

上面的代码陷入了回调地狱里,十分难看,并且也不健壮。任何一个环节出差错都会导致后面代码不执行而停止循环请求。

解决办法是,我们可以使用 ES6 的 Promise 语法,毕竟 Node 自 8 后,完全支持 Promise。改造我们的请求函数和文件操作函数。

得到了爬取内容后,就得解析,解析 HTML 可以用 cheerio,类 JQuery 语法。但简单点直接正则吧,代码如下:

//第一个请求,请求资源列表
var getResourceUrl = function (url) {
    return new Promise(function (resolve, reject) {
        http.get(url, function(response) {
            var html = '';
            response.on('data', function(data) {
                html += data;
            });
            response.on('end', function() {
                var ul = html.match(/<ul class="media-list media-list-set">[sS]*</ul>/);
                if (ul) {
                    resolve(ul[0]);
                } else {
                    reject('can not match ul dom');
                }
                
            });
        }).on('error', function() {
            reject('getResourceUrl failed');
        });
    });
};
//第二个请求,请求具体的某个资源
var getMagnet = function (url) {
    return new Promise(function (resolve, reject) {
        http.get(url, function(response) {
            var html = '';
            response.on('data', function(data) {
                html += data;
            });
            response.on('end', function() {
                var magnet = html.match(/magnet:??[^"|<]+/);
                if (magnet) {
                    resolve(html);
                } else {
                    reject('can not match magnetReg');
                }
                
            });
        }).on('error', function (res) {
            reject(res);
        });
    });
};
//追加文件
var appendFile = function (path, content) {
    return new Promise(function (resolve, reject) {
        fs.appendFile(path, content, {flag:'a'}, function (err) {
            if (err) {
                reject('append ' + path + ' failed');
            } else {
                resolve('append ' + path + ' success');
            }
        });
    });
};

然后我们的调用的代码就成了这样

//开始函数
var start = function () {

    getResourceUrl(url);
    .then(function (html) {
        //var href = 第一个ul里的第一个第一个a标签的href属性
        return getMagnet('http://bt2.bt87.cc' + href);
    }, function (res) {
        return Promise.reject(res);
    })
    .then(function (resArr) {
        //var magnet = 正则匹配带有magnet关键字的信息
        return appendFile('./SMD.txt', magnet);
    }, function (res) {
        console.log(res);
        return Promise.reject(res);
    })
    .then(function (resArr) {
        console.log('writeFile success!');
        start();
    }, function (res) {
        console.log(res);
        start();
    });
};

简单又粗暴,而且某个环节掉了链子,比方说第一次请求匹配不到我们要的链接,也能把错误传递到最后的then里而重新 start() 一个请求,不会中断。

内容解析

具体怎么匹配到我们想要的资源,正则是一个王道的办法,比如下面代码

//匹配magnet磁力链接
var magnetReg = /magnet:??[^"|<]+/;
//匹配ul标签
var ulReg = /<ul class="media-list media-list-set">[sS]*</ul>/
//匹配a标签
var aReg = /<a class="title".* href="/w+.html")/g;

但是这里可以有更简便的办法,就是利用cheerio库来DOM结构的html文本。

var cheerio = require('cheerio');

...

getResourceUrl(url);
.then(function (html) {
    //var href = 第一个ul里的第一个第一个a标签的href属性
    var $ = cheerio.load(html);
    var $body = $('.media-body');
    var href = $body.eq(0).find('.title').attr('href');
    return getMagnet(href);
}, function (res) {
    return Promise.reject(res);
});

就是这么容易,第二个请求也是如法炮制,最后输出到 SMD.txt 文件里的就是这种格式

避免反爬虫

笔者曾经在爬取妹子图网站上的图片的时候曾经遇到过,爬虫返回 403,这表示网站采用了防爬技术,反爬虫一般会采用比较简单即会检查用户代理(User Agent)信息。再请求头部构造一个User Agent就行了。也可能会检测Referer请求头,还有cookie等。高级的反爬虫会统计一个 ip 在一小时内请求量是否超过限制,达到则封锁 ip,这样的方案就需要加上代理,下面代码演示了一个伪造 User Agent 头并且连代理的最基本例子

var http = require('http');

var opt = {
    //代理服务器的ip或者域名,默认localhost
    host: '122.228.179.178',
    //代理服务器的端口号,默认80
    port: 80,
    //path是访问的路径
    path: 'http://www.163.com',
    //希望发送出去的请求头
    headers: {
        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.86 Safari/537.36',

    }
};

http.get(opt, function(res) {
    var data = '';
    res.setEncoding("utf8"); 

    res.on('data', function(chunk) {
        data += chunk;
    }).on('end', function() {

        console.log(data)
    });
});

如果目标网站封锁了我方的IP地址的话,我们只要改变options参数里的host就能解决,这个代理ip只要在搜索引擎上输入“免费代理ip”就有了,比方说这个网站。不过不是每个免费代理ip都能用,难免有些失效了,所以狡猾的程序员会事先抓取网站提供的免费代理ip用它发送请求,如果能发送的了则证明ip可用。可用的一堆ip当作ip池,在爬虫的时候不停轮换使用。诚可谓道高一尺魔高一丈。

爬虫策略

加了 IP 能突破多数的反爬设置,但 IP 并非无限的,若短时间发的太多,还是可能被数据投毒,或者直接封禁。故而需要一些策略。

举个简单的例子是爬取一阵,休息一两分钟再继续,并且控制爬取速度。

思考题

源自本人的一次面试,面试官问:如何写一个多线程的爬虫。

提示:Node 里多线程是没办法,但是可以用多进程模式,关注一下 Node cluster 模块

结尾

献上我的源码一份,望不吝点赞。

原文地址:https://www.cnblogs.com/everlose/p/12835533.html