nodejs爬虫

所谓爬虫就是,获取html文档,然后从中爬取出需要的数据信息。

1.如何用node获取html文档

var http = require('http')

var url = 'http://www.ziroom.com/';
 

http.get(url, function (res) {
var html = '';
 
res.on('data', function (data) {
html += data;
})

res.on('end', function () {
   
 console.log(html);//这里已经完全获取到了html
});

}).on('error', function () {
console.log('获取数据出错!');
});
 
 
2.如何操作这个html文档并进行爬虫
 
要使用cheerio这个包
https://www.npmjs.com/package/cheerio
 
这个玩意可以通过cheerio.load() 来加载一段html字符串
 
然后通过jquery操作来获取 想要的东西。
 
 
 
3.最后可以console.log或者用fs给写出来。
原文地址:https://www.cnblogs.com/eret9616/p/9085523.html