Node.js編寫爬蟲的基本思路及抓取百度圖片的實例分享

字號:


    這篇文章主要介紹了Node.js編寫爬蟲的基本思路及抓取百度圖片的實例分享,其中作者提到了需要特別注意GBK轉碼的轉碼問題,需要的朋友可以參考下
    其實寫爬蟲的思路十分簡單:
    1.按照一定的規(guī)律發(fā)送 HTTP 請求獲得頁面 HTML 源碼(必要時需要加上一定的 HTTP 頭信息,比如 cookie 或 referer 之類)
    2.利用正則匹配或第三方模塊解析 HTML 代碼,提取有效數(shù)據(jù)
    3.將數(shù)據(jù)持久化到數(shù)據(jù)庫中
    但是真正寫起這個爬蟲來,我還是遇到了很多的問題(和自己的基礎不扎實也有很大的關系,node.js 并沒有怎么認真的學過)。主要還是 node.js 的異步和回調知識沒有完全掌握,導致在寫代碼的過程中走了很多彎路。
    模塊化
    模塊化對于 node.js 程序是至關重要的,不能像原來寫 PHP 那樣所有的代碼都扔到一個文件里(當然這只是我個人的惡習),所以一開始就要分析這個爬蟲需要實現(xiàn)的功能,并大致的劃分了三個模塊。
    主程序,調用爬蟲模塊和持久化模塊實現(xiàn)完整的爬蟲功能
    爬蟲模塊,根據(jù)傳來的數(shù)據(jù)發(fā)送請求,解析 HTML 并提取有用數(shù)據(jù),返回一個對象
    持久化模塊,接受一個對象,將其中的內容儲存到數(shù)據(jù)庫中
    模塊化也帶來了困擾了我一個下午的問題:模塊之間的異步調用導致數(shù)據(jù)錯誤。其實我至今都不太明白問題到底出在哪兒,鑒于腳本語言不那么方便的調試功能,暫時還沒有深入研究。
    另外一點需要注意的是,模塊化時盡量慎用全局對象來儲存數(shù)據(jù),因為可能你這個模塊的一個功能還沒有結束,這個全局變量已經(jīng)被修改了。
    Control Flow
    這個東西很難翻譯,直譯叫控制流(嗎)。眾所周知,node.js 的核心思想就是異步,但是異步多了就會產生好幾層嵌套,代碼實在難看。這個時候,你需要借助一些 Control Flow 模塊來重新整理你的邏輯。在這里就要推薦開發(fā)社區(qū)十分活躍,用起來也很順手的 async.js(https://github.com/caolan/async/)。
    async 提供了很多實用的方法,我在寫爬蟲時主要用到了
    1.async.eachSeries(arr, fn, callback)  依次把 arr 中的每一個元素傳給 fn,若 fn 回調沒有返回錯誤對象就繼續(xù)傳下一個,否則把錯誤對象傳給 callback,循環(huán)結束
    2.async.parallel(fn[, fn] , callback)  當所有的 fn 都執(zhí)行完成后執(zhí)行 callback
    這些控制流方法給爬蟲的開發(fā)工作帶來了很大的方便??紤]這么一個應用場景,你需要把若干條數(shù)據(jù)插入數(shù)據(jù)庫(屬于同一個學生),你需要在所有數(shù)據(jù)都插入完成后才能返回結果,那么如何保證所有的插入操作都結束了呢?只能是層層回調保證,如果用 async.parallel 就方便多了。
    這里再多提一句,本來保證所有的插入都完成這個操作可以在 SQL 層實現(xiàn),即 transaction,但是 node-mysql 截止我使用的時候還是沒有很好的支持 transaction,所以只有自己手動用代碼保證了。
    解析 HTML
    在解析過程中也遇到一些問題,這里一并記錄下來。
    最基本的發(fā)送 HTTP 請求獲得 HTML 代碼,使用 node 自帶的 http.request 功能即可。如果是爬簡單的內容,比如獲得某個指定 id 元素中的內容(常見于抓去商品價格),那么正則足以完成任務。但是對于復雜的頁面,尤其是數(shù)據(jù)項較多的頁面,使用 DOM 會更加方便高效。
    而 node.js 最好的 DOM 實現(xiàn)非 cheerio(https://github.com/MatthewMueller/cheerio) 莫屬了。其實 cheerio 應該算是 jQuery 的一個針對 DOM 操作優(yōu)化和精簡的子集,包含了 DOM 操作的大部分內容,去除了其它不必要的內容。使用 cheerio 你就可以像用普通 jQuery 選擇器那樣選擇你需要的內容。
    下載圖片
    在爬數(shù)據(jù)時,我們可能還需要下載圖片。其實下載圖片的方式和普通的網(wǎng)頁沒有太大的區(qū)別,但是有一點讓我吃了苦頭。
    注意下面代碼中言辭激烈的注釋,那就是我年輕時犯下的錯誤……
    var req = http.request(options, function(res){
      //初始化數(shù)據(jù)?。?!
      var binImage = '';
      res.setEncoding('binary');
      res.on('data', function(chunk){
       binImage += chunk;
      });
      res.on('end', function(){
       if (!binImage) {
        console.log('image data is null');
        return null;
       }
       fs.writeFile(imageFolder + filename, binImage, 'binary', function(err){
        if (err) {
         console.log('image writing error:' + err.message);
         return null;
        }
        else{
         console.log('image ' + filename + ' saved');
         return filename;
        }
       });
      });
      res.on('error', function(e){
       console.log('image downloading response error:' + e.message);
       return null;
      });
     });
     req.end();
    GBK 轉碼
    另外一個值得說明的問題就是 node.js 爬蟲在爬 GBK 編碼內容時轉碼的問題,其實這個問題很好解決,但是新手可能會繞彎路。這里就把源碼全部奉上:
    var req = http.request(options, function(res) {
      res.setEncoding('binary');
      res.on('data', function (chunk) {
      html += chunk;
      });
      res.on('end', function(){
      //轉換編碼
      html = iconv.decode(html, 'gbk');
      });
     });
     req.end();
    這里我使用的轉碼庫是 iconv-lite(https://github.com/ashtuchkin/iconv-lite),完美支持 GBK 和 GB2312 等雙字節(jié)編碼。
    實例:爬蟲批量下載百度圖片
    var fs = require('fs'), 
     path = require('path'), 
     util = require('util'), // 以上為Nodejs自帶依賴包 
     request = require('request'); // 需要npm install的包 
    // main函數(shù),使用 node main執(zhí)行即可 
    patchPreImg(); 
    // 批量處理圖片 
    function patchPreImg() { 
     var tag1 = '攝影', tag2 = '國家地理', 
      url = 'http://image.baidu.com/data/imgs?pn=%s&rn=60&p=channel&from=1&col=%s&tag=%s&sort=1&tag3=', 
      url = util.format(url, 0, tag1, tag2), 
      url = encodeURI(url), 
      dir = 'D:/downloads/images/', 
      dir = path.join(dir, tag1, tag2), 
      dir = mkdirSync(dir); 
     request(url, function(error, response, html) { 
      var data = JSON.parse(html); 
      if (data && Array.isArray(data.imgs)) { 
       var imgs = data.imgs; 
       imgs.forEach(function(img) { 
        if (Object.getOwnPropertyNames(img).length > 0) { 
         var desc = img.desc || ((img.owner && img.owner.userName) + img.column); 
         desc += '(' + img.id + ')'; 
         var downloadUrl = img.downloadUrl || img.objUrl; 
         downloadImg(downloadUrl, dir, desc); 
        } 
       }); 
      } 
     }); 
    } 
    // 循環(huán)創(chuàng)建目錄 
    function mkdirSync(dir) { 
     var parts = dir.split(path.sep); 
     for (var i = 1; i <= parts.length; i++) { 
      dir = path.join.apply(null, parts.slice(0, i)); 
      fs.existsSync(dir) || fs.mkdirSync(dir); 
     } 
     return dir; 
    } 
    var index = 1; 
    // 開始下載圖片,并log統(tǒng)計日志 
    function downloadImg(url, dir, desc) { 
     var fileType = 'jpg'; 
     if (url.match(/\.(\w+)$/)) fileType = RegExp.$1; 
     desc += '.' + fileType; 
     var options = { 
      url: url, 
      headers: { 
       Host: 'f.hiphotos.baidu.com', 
       Cookie: 'BAIDUID=810ACF57B5C38556045DFFA02C61A9F8:FG=1;'
      } 
     }; 
     var startTime = new Date().getTime(); 
     request(options) 
      .on('response', function() { 
       var endTime = new Date().getTime(); 
       console.log('Downloading...%s.. %s, 耗時: %ss', index++, desc, (endTime - startTime) / 1000); 
      }) 
      .pipe(fs.createWriteStream(path.join(dir, desc))); 
    }