nodejs的简单爬虫

闲聊

好久没写博客了，前几天小颖在朋友的博客里看到了用nodejs的简单爬虫。所以小颖就自己试着做了个爬博客园数据的demo。嘻嘻......

小颖最近养了条泰日天，自从养了我家仔仔后，我觉得我走上一条不归路，每天不到七点半就起床烧热水，然后给我家仔仔烫狗粮，给仔仔烫好狗粮后，我开始收拾自己，出门前给他再把热水瓶里的热水换了，每天跟伺候小孩一样伺候着我家小不点仔仔，然而在上周天他还是生病了，拉稀.......带宠物医院好不容易看好，医生说是低血糖，我就懵逼了，低血糖就不能让他饿着，可是他压根就不好好吃饭，我有什么办法，哎......操碎了心，祈祷吧希望我家小仔仔能健健康康快快乐乐的长大嘻嘻。

看代码啦：

1.首先先安装node。

2.新建package.json:

在自己创建的一个工程目录下打开cmd ,在里面输入命令npm init

3.新建data和img文件夹

4.新建app.js

"use strict";

// 引入模块
var http = require('http');
var fs = require('fs');
var path = require('path');
var cheerio = require('cheerio');

// 爬虫的UR L信息
var opt = {
  hostname: 'www.cnblogs.com',
  path: '',
  port: 80
};

// 创建http get请求
http.get(opt, function(res) {
  var html = ''; // 保存抓取到的HTML源码
  var blogs = []; // 保存解析HTML后的数据，即我们需要的电影信息

  // 前面说过
  // res 是 Class: http.IncomingMessage 的一个实例
  // 而 http.IncomingMessage 实现了 stream.Readable 接口
  // 所以 http.IncomingMessage 也有 stream.Readable 的事件和方法
  // 比如 Event: 'data', Event: 'end', readable.setEncoding() 等

  // 设置编码
  res.setEncoding('utf-8');

  // 抓取页面内容
  res.on('data', function(chunk) {
    html += chunk;
  });

  res.on('end', function() {
    // 使用 cheerio 加载抓取到的HTML代码
    // 然后就可以使用 jQuery 的方法了
    // 比如获取某个class：$('.className')
    // 这样就能获取所有这个class包含的内容
    var $ = cheerio.load(html);

    // 解析页面
    // 每篇文章都在 item class 中
    $('#post_list .post_item .post_item_body').each(function() {
      // 获取图片链接
      var blog = {
        title: $('.post_item_body .titlelnk', this).text(), // 获取文章标题
        titleUrl: $('.post_item_body a', this).attr('href'), //文章链接地址
        peopleUrl: $('.post_item_summary a', this).attr('href'), // 博客地址
        peopleImg: $('.post_item_summary img', this).attr('src'),// 园友头像
        intro: $('.post_item_summary', this).text(), // 获取文章简介
        name: $('.post_item_foot .lightblue', this).text() // 获取文章简介
      };

      // 把所有文章放在一个数组里面
      blogs.push(blog);
      if (blog.peopleImg) {// 如果有图片则下载图片
        downloadImg('img/', 'http:' + blog.peopleImg);
      }
    });

    // 保存抓取到的文章数据
    saveData('data/data.json', blogs);
  });
}).on('error', function(err) {
  console.log(err);
});


/**
 * 保存数据到本地
 *
 * @param {string} path 保存数据的文件
 * @param {array} blogs 文章信息数组
 */
function saveData(path, blogs) {
  // 调用 fs.writeFile 方法保存数据到本地
  fs.writeFile(path, JSON.stringify(blogs, null, 4), function(err) {
    if (err) {
      return console.log(err);
    }
    console.log('Data saved');
  });
}

/**
 * 下载图片
 *
 * @param {string} imgDir 存放图片的文件夹
 * @param {string} url 图片的URL地址
 */
function downloadImg(imgDir, url) {
  http.get(url, function(res) {
    var data = '';

    res.setEncoding('binary');

    res.on('data', function(chunk) {
      data += chunk;
    });

    res.on('end', function() {
      // 调用 fs.writeFile 方法保存图片到本地
      fs.writeFile(imgDir + path.basename(url), data, 'binary',
        function(err) {
          if (err) {
            return console.log(err);
          }
          console.log('Image downloaded: ', path.basename(url));
        });
    });
  }).on('error', function(err) {
    console.log(err);
  });
}

5.打开cmd执行 node app.js

然后看data文件夹下会生成data.json文件,img文件夹下会生成许多图片。

补充

// 爬虫的UR L信息
var opt = {
  hostname: 'www.cnblogs.com',
  path: '',
  port: 80
};