Node.js編寫爬蟲的基本思路及抓取百度圖片的實(shí)例分享

字號(hào)：小 中 大

    這篇文章主要介紹了Node.js編寫爬蟲的基本思路及抓取百度圖片的實(shí)例分享,其中作者提到了需要特別注意GBK轉(zhuǎn)碼的轉(zhuǎn)碼問題,需要的朋友可以參考下
    其實(shí)寫爬蟲的思路十分簡(jiǎn)單：
    1.按照一定的規(guī)律發(fā)送 HTTP 請(qǐng)求獲得頁面 HTML 源碼（必要時(shí)需要加上一定的 HTTP 頭信息，比如 cookie 或 referer 之類）
    2.利用正則匹配或第三方模塊解析 HTML 代碼，提取有效數(shù)據(jù)
    3.將數(shù)據(jù)持久化到數(shù)據(jù)庫中
    但是真正寫起這個(gè)爬蟲來，我還是遇到了很多的問題（和自己的基礎(chǔ)不扎實(shí)也有很大的關(guān)系，node.js 并沒有怎么認(rèn)真的學(xué)過）。主要還是 node.js 的異步和回調(diào)知識(shí)沒有完全掌握，導(dǎo)致在寫代碼的過程中走了很多彎路。
    模塊化
    模塊化對(duì)于 node.js 程序是至關(guān)重要的，不能像原來寫 PHP 那樣所有的代碼都扔到一個(gè)文件里（當(dāng)然這只是我個(gè)人的惡習(xí)），所以一開始就要分析這個(gè)爬蟲需要實(shí)現(xiàn)的功能，并大致的劃分了三個(gè)模塊。
    主程序，調(diào)用爬蟲模塊和持久化模塊實(shí)現(xiàn)完整的爬蟲功能
    爬蟲模塊，根據(jù)傳來的數(shù)據(jù)發(fā)送請(qǐng)求，解析 HTML 并提取有用數(shù)據(jù)，返回一個(gè)對(duì)象
    持久化模塊，接受一個(gè)對(duì)象，將其中的內(nèi)容儲(chǔ)存到數(shù)據(jù)庫中
    模塊化也帶來了困擾了我一個(gè)下午的問題：模塊之間的異步調(diào)用導(dǎo)致數(shù)據(jù)錯(cuò)誤。其實(shí)我至今都不太明白問題到底出在哪兒，鑒于腳本語言不那么方便的調(diào)試功能，暫時(shí)還沒有深入研究。
    另外一點(diǎn)需要注意的是，模塊化時(shí)盡量慎用全局對(duì)象來儲(chǔ)存數(shù)據(jù)，因?yàn)榭赡苣氵@個(gè)模塊的一個(gè)功能還沒有結(jié)束，這個(gè)全局變量已經(jīng)被修改了。
    Control Flow
    這個(gè)東西很難翻譯，直譯叫控制流（嗎）。眾所周知，node.js 的核心思想就是異步，但是異步多了就會(huì)產(chǎn)生好幾層嵌套，代碼實(shí)在難看。這個(gè)時(shí)候，你需要借助一些 Control Flow 模塊來重新整理你的邏輯。在這里就要推薦開發(fā)社區(qū)十分活躍，用起來也很順手的 async.js（https://github.com/caolan/async/）。
    async 提供了很多實(shí)用的方法，我在寫爬蟲時(shí)主要用到了
    1.async.eachSeries(arr, fn, callback) 依次把 arr 中的每一個(gè)元素傳給 fn，若 fn 回調(diào)沒有返回錯(cuò)誤對(duì)象就繼續(xù)傳下一個(gè)，否則把錯(cuò)誤對(duì)象傳給 callback，循環(huán)結(jié)束
    2.async.parallel(fn[, fn] , callback) 當(dāng)所有的 fn 都執(zhí)行完成后執(zhí)行 callback
    這些控制流方法給爬蟲的開發(fā)工作帶來了很大的方便?？紤]這么一個(gè)應(yīng)用場(chǎng)景，你需要把若干條數(shù)據(jù)插入數(shù)據(jù)庫（屬于同一個(gè)學(xué)生），你需要在所有數(shù)據(jù)都插入完成后才能返回結(jié)果，那么如何保證所有的插入操作都結(jié)束了呢？只能是層層回調(diào)保證，如果用 async.parallel 就方便多了。
    這里再多提一句，本來保證所有的插入都完成這個(gè)操作可以在 SQL 層實(shí)現(xiàn)，即 transaction，但是 node-mysql 截止我使用的時(shí)候還是沒有很好的支持 transaction，所以只有自己手動(dòng)用代碼保證了。
    解析 HTML
    在解析過程中也遇到一些問題，這里一并記錄下來。
    最基本的發(fā)送 HTTP 請(qǐng)求獲得 HTML 代碼，使用 node 自帶的 http.request 功能即可。如果是爬簡(jiǎn)單的內(nèi)容，比如獲得某個(gè)指定 id 元素中的內(nèi)容（常見于抓去商品價(jià)格），那么正則足以完成任務(wù)。但是對(duì)于復(fù)雜的頁面，尤其是數(shù)據(jù)項(xiàng)較多的頁面，使用 DOM 會(huì)更加方便高效。
    而 node.js 最好的 DOM 實(shí)現(xiàn)非 cheerio（https://github.com/MatthewMueller/cheerio）莫屬了。其實(shí) cheerio 應(yīng)該算是 jQuery 的一個(gè)針對(duì) DOM 操作優(yōu)化和精簡(jiǎn)的子集，包含了 DOM 操作的大部分內(nèi)容，去除了其它不必要的內(nèi)容。使用 cheerio 你就可以像用普通 jQuery 選擇器那樣選擇你需要的內(nèi)容。
    下載圖片
    在爬數(shù)據(jù)時(shí)，我們可能還需要下載圖片。其實(shí)下載圖片的方式和普通的網(wǎng)頁沒有太大的區(qū)別，但是有一點(diǎn)讓我吃了苦頭。
    注意下面代碼中言辭激烈的注釋，那就是我年輕時(shí)犯下的錯(cuò)誤……
    var req = http.request(options, function(res){
      //初始化數(shù)據(jù)！?。?BR>      var binImage = '';
      res.setEncoding('binary');
      res.on('data', function(chunk){
      binImage += chunk;
      });
      res.on('end', function(){
      if (!binImage) {
      console.log('image data is null');
      return null;
      }
      fs.writeFile(imageFolder + filename, binImage, 'binary', function(err){
      if (err) {
      console.log('image writing error:' + err.message);
      return null;
      }
      else{
      console.log('image ' + filename + ' saved');
      return filename;
      }
      });
      });
      res.on('error', function(e){
      console.log('image downloading response error:' + e.message);
      return null;
      });
     });
     req.end();
    GBK 轉(zhuǎn)碼
    另外一個(gè)值得說明的問題就是 node.js 爬蟲在爬 GBK 編碼內(nèi)容時(shí)轉(zhuǎn)碼的問題，其實(shí)這個(gè)問題很好解決，但是新手可能會(huì)繞彎路。這里就把源碼全部奉上：
    var req = http.request(options, function(res) {
      res.setEncoding('binary');
      res.on('data', function (chunk) {
      html += chunk;
      });
      res.on('end', function(){
      //轉(zhuǎn)換編碼
      html = iconv.decode(html, 'gbk');
      });
     });
     req.end();
    這里我使用的轉(zhuǎn)碼庫是 iconv-lite（https://github.com/ashtuchkin/iconv-lite），完美支持 GBK 和 GB2312 等雙字節(jié)編碼。
    實(shí)例：爬蟲批量下載百度圖片
    var fs = require('fs'),
     path = require('path'),
     util = require('util'), // 以上為Nodejs自帶依賴包
     request = require('request'); // 需要npm install的包
    // main函數(shù)，使用 node main執(zhí)行即可
    patchPreImg();
    // 批量處理圖片
    function patchPreImg() {
     var tag1 = '攝影', tag2 = '國家地理',
      url = 'http://image.baidu.com/data/imgs?pn=%s&rn=60&p=channel&from=1&col=%s&tag=%s&sort=1&tag3=',
      url = util.format(url, 0, tag1, tag2),
      url = encodeURI(url),
      dir = 'D:/downloads/images/',
      dir = path.join(dir, tag1, tag2),
      dir = mkdirSync(dir);
     request(url, function(error, response, html) {
      var data = JSON.parse(html);
      if (data && Array.isArray(data.imgs)) {
      var imgs = data.imgs;
      imgs.forEach(function(img) {
      if (Object.getOwnPropertyNames(img).length > 0) {
      var desc = img.desc || ((img.owner && img.owner.userName) + img.column);
      desc += '(' + img.id + ')';
      var downloadUrl = img.downloadUrl || img.objUrl;
      downloadImg(downloadUrl, dir, desc);
      }
      });
      }
     });
    }
    // 循環(huán)創(chuàng)建目錄
    function mkdirSync(dir) {
     var parts = dir.split(path.sep);
     for (var i = 1; i <= parts.length; i++) {
      dir = path.join.apply(null, parts.slice(0, i));
      fs.existsSync(dir) || fs.mkdirSync(dir);
     }
     return dir;
    }
    var index = 1;
    // 開始下載圖片，并log統(tǒng)計(jì)日志
    function downloadImg(url, dir, desc) {
     var fileType = 'jpg';
     if (url.match(/\.(\w+)$/)) fileType = RegExp.$1;
     desc += '.' + fileType;
     var options = {
      url: url,
      headers: {
      Host: 'f.hiphotos.baidu.com',
      Cookie: 'BAIDUID=810ACF57B5C38556045DFFA02C61A9F8:FG=1;'
      }
     };
     var startTime = new Date().getTime();
     request(options)
      .on('response', function() {
      var endTime = new Date().getTime();
      console.log('Downloading...%s.. %s, 耗時(shí): %ss', index++, desc, (endTime - startTime) / 1000);
      })
      .pipe(fs.createWriteStream(path.join(dir, desc)));
    }

Node.js編寫爬蟲的基本思路及抓取百度圖片的實(shí)例分享

字號(hào)： 小 中 大

字號(hào)：小中大