201425Aug

Scraper.js: Screen Scraping per Node.js-Modul

Was für PHP der Simple HTML DOM Parser und für Python Beautiful Soup ist, dürfte für Node.js nun Scraper.js sein: Eine kleine Bibliothek, mit der sich die DOM-Stuktur von Websites auslesen und verarbeiten lässt. Scraper.js kommt mit einem "SimpleScraper", einem "DynamicScraper", einem Router für mehrfache Abfragen und Promises für dynamische Callbacks. Das Modul basiert auf Phantom.js und injiziert jQuery für schnelle DOM-Manipulationen.

Das Node-Modul ist schnell per npm install scraperjs installiert und ein einfaches Scraping lässt sich mit folgendem Snippet durchführen:

  • var scraperjs = require('scraperjs');
  •  
  • scraperjs.StaticScraper.create('https://news.ycombinator.com/')
  • .scrape(function($) {
  • return $(".title a").map(function() {
  • return $(this).text();
  • }).get();
  • }, function(news) {
  • console.log(news);
  • })

Mit dem eingebauten Router lassen sich auch dynamische Seiten auslesen, falls weiterführende Links geparsed werden soll. Weitere Informationen finden sich wieder bei GitHub.