nodejs爬虫

nodejs爬虫

所谓爬虫就是，获取html文档，然后从中爬取出需要的数据信息。

1.如何用node获取html文档

var http = require('http')

var url = 'http://www.ziroom.com/';

http.get(url, function (res) {

var html = '';

res.on('data', function (data) {

html += data;

})

res.on('end', function () {

console.log(html);//这里已经完全获取到了html

});

}).on('error', function () {

console.log('获取数据出错!');

});

2.如何操作这个html文档并进行爬虫

要使用cheerio这个包

https://www.npmjs.com/package/cheerio

这个玩意可以通过cheerio.load() 来加载一段html字符串

然后通过jquery操作来获取想要的东西。

3.最后可以console.log或者用fs给写出来。

【推广】免费学中医，健康全家人

原文地址：https://www.cnblogs.com/eret9616/p/9085523.html