簡單的爬蟲 一 ಥ_ಥ(就是一個頁面)

Crawler and nodejs

簡單的爬蟲 一 ಥ_ಥ(就是一個頁面)

  • 需要cheerio來過濾加載到內容;先安裝cheerio;
  • $('.postTitle a') 過濾該頁面的 .postTitle 類下的 a便籤;
  • 通過writeFileSync把過濾好的內容寫到文件中;(這裏不用到數據庫ಥ_ಥ 簡單 O(∩_∩)O~~)
npm install cheerio


新建一個app.js 文件;內容如下;
運行該代碼 node app.js

var http = require('http');
var cheerio = require('cheerio');
var fs = require('fs');
http.get('http://www.cnblogs.com/xieyier/default.html?page=5',function (res) {
 var size=0;
 var chunks=[];
 res.on('data', function(chunk) {
     size+=chunk.length;
     chunks.push(chunk);
 });
 res.on('end', function() {
     var data=Buffer.concat(chunks,size);
     var result='';
     $=cheerio.load(data.toString());
     topics=$('.postTitle  a');
     fs.writeFileSync('result.html', topics);
     console.log(topics);   
 });
}).on('error',function(e) {
 console.log(e.message);
});
原文地址:https://www.cnblogs.com/xieyier/p/4454230.html