Successivo

Software

Readiris 16: un buon Ocr con editor migliorabile

Redazione | 10 Febbraio 2017

Iris (Image Recognition Integrated Systems) è una società  francese con oltre trent’anni di storia alle spalle: è stata fondata infatti […]

Iris (Image Recognition Integrated Systems) è una società  francese con oltre trent’anni di storia alle spalle: è stata fondata infatti nel 1986. Produce un motore Ocr (Optical Character Recognition, riconoscimento ottico dei caratteri) che usa poi come base di potenti sistemi di gestione e automazione documentale. Canon, licenziataria del motore Ocr di Iris per le sue stampanti multifunzione da ufficio, nel 2007 ha acquisito una partecipazione di minoranza nell’azienda per poi rilevarne il 100% nel 2015. L’engine Ocr di Iris è disponibile anche pacchettizzato in un software desktop, Readiris, che viene offerto sia per Windows sia per Mac OS in due edizioni, Professional e Corporate (costano rispettivamente 99 e 199 euro). Rispetto ai concorrenti (in buona sostanza due: Abbyy FineReader e Nuance OmniPage), Readiris per lungo tempo ha sofferto di una grave lacuna. Solo con la versione 15, rilasciata all’inizio del 2015, il programma è stato dotato di un modulo per la correzione degli errori di riconoscimento.

L'interfaccia ha un aspetto chiaro ma è poco efficiente: per esempio obbliga a cambiare scheda o richiamare un modulo separato per correggere gli errori di zonatura e di riconoscimento.

L’interfaccia ha un aspetto chiaro ma è poco efficiente: per esempio obbliga a cambiare scheda o richiamare un modulo separato per correggere gli errori di zonatura e di riconoscimento.

In precedenza le correzioni dovevano essere effettuate a mano nel documento generato dal programma al termine dell’elaborazione, cosa assai complicata soprattutto quando l’output era un file Pdf. Readiris 16, presentato alcuni mesi fa, non presenta novità  altrettanto significative ma offre un’interfaccia rinnovata e alcuni utili strumenti che permettono di migliorare la qualità  delle immagini con difetti di acquisizione. Le lingue supportate sono più di 130 e comprendono l’arabo, il cinese (tradizionale e semplificato), il giapponese e il russo. L’interfaccia utente di Readiris 16 è disponibile in varie lingue, compreso l’italiano, ed è possibile passare da una lingua all’altra senza riavviare il programma. A prima vista l’interfaccia si presenta bene, con un aspetto molto chiaro. L’area principale, quella della scheda Home, mostra però solo l’elenco delle pagine e l’immagine della pagina correntemente selezionata: per verificare ed eventualmente modificare la zonatura automatica effettuata dal programma bisogna passare alla scheda Zone, i cui strumenti non si sono rivelati particolarmente comodi.

Per esempio, Readiris non permette di selezionare più zone con un trascinamento del mouse ma obbliga a procedere a colpi di clic. Il software non supporta neppure la rotellina del mouse per le operazioni di ingrandimento, riduzione e scorrimento dell’immagine, ma obbliga a ricorrere alla barra di scorrimento e alle piccole icone poste sul bordo inferiore della finestra. Quando le modifiche da apportare sono numerose, lavorare con Readiris può essere assai frustrante. Per effettuare invece le correzioni al testo bisogna tornare alla scheda Home e premere nella toolbar il pulsante Correttore testo; lo strumento si apre in una finestra separata ed è rudimentale rispetto a quelli offerti dalle attuali versioni di OmniPage e FineReader. Questi due software mettono infatti a disposizione non un semplice correttore, ma un vero e proprio modulo di editing Wysiwyg (What You See Is What You Get), che cerca di replicare fedelmente l’aspetto del documento in output e permette sia di modificare gli errori di riconoscimento del puro testo sia di intervenire su vari aspetti della formattazione: per esempio, applicare (o rimuovere) grassetto, corsivo, apici e pedici, modificare tipo e dimensione di font, cambiare l’allineamento dei paragrafi e così via. Readiris, al contrario, permette solo di correggere i refusi; non offre neppure alcun aiuto per l’inserimento di simboli speciali come il punto di una lista o un’unità  di misura come Ω (ohm). Sempre dalla toolbar della scheda Home sono richiamabili lo strumento di correzione prospettica (utile quando si tenta il riconoscimento di pagine catturate con una fotocamera digitale utilizzata a mano libera) e i tool di ritocco, tra cui segnaliamo quello per l’eliminazione dei piccoli punti che spesso affliggono i documenti acquisiti tramite scanner. Le altre schede dell’interfaccia di Readiris sono Pagina, Config Cloud, Visualizza e Guida. La prima permette di modificare l’ordine e l’orientamento delle pagine del documento; in questa scheda sono duplicati i pulsanti di accesso ai tool di ritocco e di correzione prospettica. La seconda scheda permette di configurare i numerosi servizi cloud supportati da Readiris; l’elenco comprende Dropbox, OneDrive, Google Drive, Box, SharePoint, Therefore, IRISnext (il servizio cloud di Iris stessa) e persino Ftp. La scheda Visualizzazione replica essenzialmente le funzioni di zoom presenti nella barra inferiore, mentre Guida non ha bisogno di chiarimenti.

Rispetto agli editor Wysiwyg dei concorrenti, Readiris 16 offre un correttore del tutto rudimentale che permette di intervenire sui refusi ma non sulla formattazione.

Rispetto agli editor Wysiwyg dei concorrenti, Readiris 16 offre un correttore del tutto rudimentale che permette di intervenire sui refusi ma non sulla formattazione.

In tema di interfaccia dobbiamo segnalare un aspetto che ci ha lasciato letteralmente a bocca aperta. Non solo Readiris non consente di salvare un lavoro in corso d’opera e quindi di spegnere il computer senza perdere le correzioni già  effettuate, ma non presenta alcuna richiesta di conferma quando si tenta di uscire dal programma. Basta un clic distratto sulla X nella barra del titolo per veder scomparire tutto il lavoro compiuto fino a quel momento.

Nei test ci è successo esattamente questo: stanchi di rimandare una richiesta di riavvio da parte di Windows 10, che insisteva nel voler applicare gli aggiornamenti scaricati, abbiamo chiuso le finestre aperte e arrivati a quella di Readiris, invece di veder comparire la classica richiesta di salvataggio del file abbiamo assistito impotenti alla chiusura istantanea del software.

Abbiamo messo alla prova Readiris 16 Corporate per Windows con alcuni documenti campione che utilizziamo ormai da molti anni. Con l’articolo di quotidiano, che non presenta aspetti particolarmente critici, il programma si è comportato molto bene. Ha commesso solo due errori di riconoscimento del testo, entrambi nel sottotitolo, ed è stato pressoché impeccabile nel mantenimento del layout.

Il tentativo di salvare il lavoro come file di Word (Docx) con l’opzione Crea un testo continuo ha messo in luce un bug singolare: Readiris ha raddoppiato tutti gli spazi presenti nel documento. Abbiamo verificato con altri documenti e si tratta di un comportamento sistematico, che non si presenta quando il file viene salvato con le opzioni Mantieni il formato carattere e paragrafo o Ricrea il documento sorgente. Non sappiamo se anche il salvataggio in Word (Doc) causi lo stesso problema, perché ogni tentativo di creazione di un file in questo formato ha sempre prodotto il messaggio di errore Microsoft Word RTF non installato non riprovare a installare, bizzarra traduzione di Microsoft Word RTF is not installed or there is a problem with the current installation. Anche con la prima delle due pagine tratte da riviste illustrate Readiris non si è comportato male; qui abbiamo notato che per impostazione di default il software non mantiene i colori del testo (la casella per attivare questa opzione è un po’ nascosta: si trova nella scheda Opzioni della finestra di dialogo che dà  accesso a tutte le impostazioni relative al formato selezionato). In questo test Readiris ha faticato a riconoscere due titoli entrambi parzialmente sovrapposti a una spessa riga di colore sfumato; si tratta di una situazione effettivamente molto difficile per un Ocr, ma che non ha messo in crisi né FineReader né OmniPage. Un altro problema è emerso in un box con fondino uniformemente colorato, che è stato inizialmente identificato come un’immagine. Una modifica al tipo di zona ha permesso di superare l’ostacolo, ma Readiris in questo box ha commesso più errori di riconoscimento del testo rispetto ai concorrenti, che peraltro sono stati in grado di identificare subito la zona come un riquadro di testo.

La scheda per le modifiche alla zonatura purtroppo non supporta la rotellina del mouse, un dettaglio che rende spesso il lavoro estremamente scomodo e lento.

La scheda per le modifiche alla zonatura purtroppo non supporta la rotellina del mouse, un dettaglio che rende spesso il lavoro estremamente scomodo e lento.

Il riconoscimento della seconda pagina di rivista (un listino prezzi di automobili) ha messo in luce l’inadeguatezza dei tool di correzione sia per le zone sia per il testo. Solo la prima delle tre colonne della pagina è stata riconosciuta correttamente come una tabella a tre colonne; per modificare in modo adeguato la zonatura delle altre cinque colonne sarebbe stato necessario un lavoro certosino e un’enorme dose di pazienza. Inoltre, la mancanza di un editor Wysiwyg rende molto scomodo apportare correzioni testuali a un documento di questo tipo. Anche OmniPage ha avuto qualche difficoltà  nel riconoscere correttamente tutte le colonne, ma effettuare le modifiche opportune ha richiesto solo pochi secondi; FineReader, dal canto suo, sotto questo profilo è stato impeccabile. Con il quarto documento di test, una tabella complessa creata ad hoc, Readiris non ha riconosciuto il testo in verticale (si tratta di un limite noto del programma), ma a parte questo ha prodotto un file Docx pressoché perfetto. Risultato opposto invece con la foto digitale di un libro: Readiris ha identificato correttamente la presenza di una pagina doppia e l’ha elaborata di conseguenza, ma ha prodotto un numero di errori francamente eccessivo in assoluto e non solo in confronto ai concorrenti.

A proposito di libri, segnaliamo che Readiris 16 supporta il salvataggio in formato ePub, ma non è in grado di inserire eventuali immagini. Per finire, abbiamo dato in pasto al programma un documento a colori di ben 800 pagine: la scansione di un volume di un’enciclopedia di storia. Readiris non ci ha deluso: ha completato il lavoro in un tempo contenuto (circa 25 minuti, più o meno come i concorrenti) e il risultato è davvero stato molto buono. Peccato solo che, al pari di OmniPage, sia stato fin troppo solerte nell’elaborare le cartine geografiche: ha trattato infatti molte indicazioni di toponimi come testo da riconoscere, generando una quantità  di zone testuali spurie (e scartando invece parti della cartina). In ogni caso questo test ci ha confermato che Readiris dà  il meglio di sé quando deve elaborare rapidamente documenti dal layout non troppo complicato e dimensioni anche molto grandi. Come accennato, Readiris 16 è offerto in due edizioni: Professional e Corporate. La prima è priva di alcune funzioni utili per lo più in ambito aziendale (come i connettori per SharePoint, Therefore, IRISNext e Ftp), con un paio di notevoli eccezioni. Solo l’edizione più costosa, infatti, permette di indicare la presenza nel documento di lingue secondarie (fino a un massimo di quattro) e, soprattutto, supporta tutte opzioni classiche di salvataggio in Pdf: non solo Testo sotto l’immagine (l’unica prevista dalla release Professional), ma anche Testo sopra immagine e Testo più singoli immagini grafici.

04-scheda-pagina

Quest’ultima opzione, in particolare, è molto utile e va notato che nessuno dei concorrenti di Readiris impone limitazioni similari. Parlando di salvataggio in Pdf con l’opzione Testo sotto l’immagine, bisogna sottolineare che Readiris mette a disposizione un algoritmo proprietario molto efficiente (iHCQ, Intelligent High-Quality Compression) per la compressione dei documenti.
L’edizione Professional permette di utilizzarlo solo al livello base mentre la Corporate offre due livelli aggiuntivi; con tutti e tre si può comunque privilegiare a scelta la qualità  visiva o la riduzione di dimensione del file. Per dare un’idea dell’efficacia del suo intervento, la dimensione del Pdf ricercabile generato da Readiris 16 a partire dalla prima immagine di prova (l’articolo di quotidiano) è stata di circa 800 Kbyte. Utilizzando iHCQ a Livello III è scesa a 70 Kbyte privilegiando la qualità , e a 54 Kbyte privilegiando la compattezza del file.

Maurizio Bergami

Readiris 16 Corporate
Euro 199,00 Iva inclusa
Voto: 7,0

L’edizione Professional costa Euro 99,00 Iva inclusa

+ PC PRO
Motore di riconoscimento veloce ed efficace
Ottimo algoritmo proprietario per la compressione dei Pdf
Prezzo concorrenziale

– PC CONTRO
Interfaccia poco efficiente
Strumenti di correzione rudimentali
Non consente di salvare il lavoro
in corso d’opera
Edizione Professional: opzioni limitate di salvataggio in Pdf

Produttore: Iris.