Λογισμικό — 22 March, 2011 22:42

OCRFeeder 0.7.4: Ψηφιοποιήστε τα έγγραφα σας

Δημοσιεύτηκε από

Το OCRFeeder είναι ένα πρόγραμμα οπτικής ανάλυσης  διάταξης εγγράφων και οπτικό σύστημα αναγνώρισης χαρακτήρων κειμένου (OCR).

Απ τις  ψηφιοποιημένες εικόνες που θα του δώσουμε, θα αναλύσει αυτόματα το περιεχόμενό τους, θα διακρίνει τι είναι γραφικά και τι κείμενο και θα εκτελέσει την οπτική αναγνώριση χαρακτήρων κειμένου (OCR). Το αποτέλεσμα που θα παράγει, μπορεί να αποθηκευτεί σε πολλές μορφές με κυριότερο το ODT.

Διαθέτει ένα πλήρες GTK γραφικό περιβάλλον χρήσης που επιτρέπει στους χρήστες να διορθώσουν τυχόν λανθασμένο κείμενο, να ορίσουν ή να διορθώσουν τα πλαίσια οριοθέτησης, να αλλάξουν στυλ παραγράφου,  να εισάγουν ​​αρχεία PDF, αποθήκευση και φόρτωση έργων και την εξαγωγή των αποτελεσμάτων σε πολλαπλές μορφές, κ.α.

Το OCRFeeder αναπτύχθηκε ως διατριβή για το Μάστερ στην Επιστήμη των Υπολογιστών του Joaquim Rocha.

Sceencast video για το OCRFeeder

 

ΕΓΚΑΤΑΣΤΑΣΗ ΣΕ UBUNTU 10.10 ΜΕ ΥΠΟΣΤΗΡΙΞΗ ΕΛΛΗΝΙΚΩΝ

Για να έχουμε ελληνικό OCR πρέπει να εγκαταστήσουμε τα εξής:

  1. την libleptonica βιβλιοθηκη
  2. το πρόγραμμα tesseract 3 και την ελληνική βιβλιοθήκη
  3. μετά πρέπει να κάνουμε μια ρύθμιση στο OCRFeeder και είμαστε έτοιμοι.

 

1. Για να εγκαταστήσουμε κάποιες απαραίτητες βιβλιοθήκες, ανοίξτε τερματικό και γράψτε την εντολή:

  • sudo apt-get install libleptonica

2.  Εγκατάσταση tesseract 3. Μπορούμε να κατεβάσουμε έτοιμα πακέτα deb από εδώ

Θέλουμε το

tesseract-ocr-3.0.0+svn550-1ppa1~maverick1

και το

tesseract-ocr-ell-3.0.0+svn550-1ppa1~maverick1

για τα ελληνικά

Αν θέλουμε και άλλες γλώσσες κατεβάζουμε τα αντίστοιχα πακέτα.

3.  Εγκαθιστούμε το OCRFeeder ανοίγοντας τερματικό και δίνοντας την εντολή

  • sudo apt-get install ocrfeeder

Μπορούμε να το εγκαταστήσουμε και απ το κέντρο λογισμικού.

Για τις υπόλοιπες διανομές μπορείτε να βρείτε deb και tarball πακέτα εδώ

ΡΥΘΜΙΣΕΙΣ ΣΤΟ OCRFeeder

Στο πρόγραμμα πάμε Tools -> OCR Engines

Πατάμε Detect και προσθέτουμε την tesseract, αν δεν υπάρχει.

Αλλάζουμε την εντολή

  • $IMAGE $FILE; cat $FILE.txt

σε

  • $IMAGE $FILE -l ell; cat $FILE.txt

και είμαστε έτοιμοι!

ΠΡΟΣΟΧΗ

Για να έχουμε καλά αποτελέσματα πρέπει τα σαρωμένα κείμενα να είναι σε 300dpi και να έχουν καλό κοντράστ.

Αν μας βγάλει κάποιο error ή δεν βγάλει καθόλου κείμενο τρέχουμε σε τερματικό

  • tesseract eikona.tif text -l ell

Αν βγάλει :
1. libtiff.so.3: cannot open shared object file: No such file or directory
Τότε τρέξτε
cd /usr/lib/
sudo ln -s libtiff.so.4 libtiff.so.3

2. tesseract: error while loading shared libraries: liblept.so.0: cannot open shared object file: No such file or directory
Τότε τρέξτε
cd /usr/lib/
sudo ln -s liblept.so.1 liblept.so.0

Αν σας βγάζει αρκετά λάθη να είστε επιεικής είναι το πρώτο βήμα OCR ελληνικών σε linux. Ακόμα στην σελίδα του project υπάρχει και ειδικό πρόγραμμα για “εκπαίδευση” του OCR για καλύτερη αναγνώριση.
http://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract3

πηγή εγκατάστασης: ubuntu-gr forum

 

3 Comments

Leave a Reply

— required *

— required *


3 + four =