Παρασκευή, Ιούλιος 21, 2017

BlogBuster

Εξαγωγή Κειμένων από Ιστολόγια

BlogBuster Product BoxΤο προϊόν BlogBuster είναι ένα εργαλείο το οποίο μπορεί να εξάγει σώματα κειμένων (corpora) από την μπλογκόσφαιρα. Βασισμένο στην πλατφόρμα ανάπτυξης διαδικτυακών εφαρμογών του ιδρύματος Mozilla, XUL (στο οποίο βασίζονται δημοφιλείς εφαρμογές όπως ο Firefox και ο Thunderbird), το προϊόν BlogBuster μπορεί να ανακτήσει σελίδες από οποιονδήποτε εξυπηρετητή, και να δημιουργήσει μια πιστή αναπαράσταση κάθε σελίδας, ταυτόσημη με την αναπαράστασή της σε οποιονδήποτε σύγχρονο περιηγητή, περιλαμβάνοντας ακόμα και περιεχόμενο που έχει δημιουργηθεί δυναμικά, μέσω javascript ή AJAX.

Χαρακτηριστικά

  • Αξιόπιστη εξαγωγή κειμένου από σελίδων ιστολογίων, μέσω επεξεργασίας της δομής DOM κάθε ιστοσελίδας.
  • Αναγνώριση τυχόν αδυναμίας εξαγωγής κειμένου από ιστοσελίδες συγκεκριμένου ιστολογίου.
  • Αξιόπιστος εντοπισμός στοιχείων όπως ο τίτλος και το κυρίως μέρος κάθε ανάρτησης ανάρτησης.
  • Εντοπισμός του πλήθους αναρτήσεων κάθε ιστοσελίδας ιστολογίου.
  • Δοκιμασμένο σε χιλιάδες ιστολόγια, γραμμένα σε διάφορες φυσικές γλώσσες.
  • Πλήρης πολυγλωσσική υποστήριξη.
  • Το προϊόν διατίθεται τόσο σαν Λογισμικό σαν Υπηρεσία (Software as a Service - SaaS) όσο και σαν ολοκληρωμένη εφαρμογή (για τα λειτουργικά συστήματα Windows Vista/7, Linux).