Copiare un documento PDF come testo

da **clros** » mar gen 15, 2008 8:44 pm

Ciao...come da oggetto.
L'ho sempre fatto normalmente, senza problemi (selezionavo il testo nel PDF, copiavo e incollavo su word.

Adesso, con un documento (che inizialmente era protetto), non ci riesco; su word mi vengoso fuori solo trattini o caratteri strani.

Credo c'entri qualcosa il fatto che il documento inizialmente era protetto.

Qualche suggerimento?

In alternativa pensavo di fare una hardcopy dello schermo o della finestra mentre visualizzano il documento ed estrapolarlo dall'immagine...ma come?

da **MazinKaesar** » mar gen 15, 2008 11:22 pm

Puoi provare ad usare questa utility che ho trovato su questo sito. Converte il .pdf in normale .txt, perdi la formattazione, ma almeno recuperi il contenuto.

da **clros** » mar gen 15, 2008 11:42 pm

niente da fare :no:

da **Blackfede** » mer gen 16, 2008 12:27 am

Puoi fare screen del pdf, e poi lo passi ad un software OCR, che riconosce i caratteri. E` come se lo stampassi e poi lo scannerizzassi...

da **riko** » ven gen 18, 2008 12:26 pm

Blackfede ha scritto:Puoi fare screen del pdf, e poi lo passi ad un software OCR, che riconosce i caratteri. E` come se lo stampassi e poi lo scannerizzassi...

IMHO si può fare di meglio che passare per un OCR. Sulla mia esperienza tali sw o costano molto o funzionano male. Se riesci a smentirmi te ne sarei grato perchè ne ho bisogno. :ride:

da **AmigaCori** » ven gen 18, 2008 1:50 pm

Guarda, sono quasi d'accordo sul fatto che i programmi OCR non siano milgiorati molto nel corso degli anni, pero' ho abuto la mia piacevolissima esperienza :felice:

Anni fa, mmmm 2000 penso, dovevo passare un documento di 70 pagine da carta a Word, ridigitarlo a mano.... :mah:

....o provare con uno scannerino economico Epson con il suo software OCR in bundle, provai...

Beh, dopo 2 ore avevo tutte le 70 pagine su word, poi dovetti rileggermi con calma le 70 pagine per correggere errori che il correttore ortografico aveva confuso ma evitai di battermi 70 pagine di testo!

Secondo me, gia' a copiarsi 2-3 pgine con un OCR si guadagna parecchio, poi se il discorso e' l'impaginazione e il riconoscimento di didascalie, note a pie' di pagine ecc...allora la cosa diventa molto piu' complessa, pero' gli OCR non sono cosi' male :felice:

e parlo di roba gratita su Linux (l'OCR di XSane funzionicchia bene) che sulla robaccia in bundle coi scanner per Windows.

da **clros** » ven gen 18, 2008 3:33 pm

riko ha scritto:
Blackfede ha scritto:Puoi fare screen del pdf, e poi lo passi ad un software OCR, che riconosce i caratteri. E` come se lo stampassi e poi lo scannerizzassi...

IMHO si può fare di meglio che passare per un OCR. Sulla mia esperienza tali sw o costano molto o funzionano male. Se riesci a smentirmi te ne sarei grato perchè ne ho bisogno.

Alla fine l'ho fatto...
come OCR ho scaricato ABBYY FineREader 8.0 in versione trial.
Il riconoscimento è stato buono; ho dovuto solo aggiustare qualche lettera (e sistemare l'impaginazione alla fine).

Però...tutto il processo è stato un bordello! E ho fatto solo 4 pagine!!

Vorrei capire...il fatto che non abbia potuto fare copia/incolla direttamente dal PDF, a cosa è dovuto?

da **Blackfede** » ven gen 18, 2008 6:53 pm

Protezione...Cifratura...DRM...Peste...Colera....RIAA...MPAA...SIAE :scherza:

da **MazinKaesar** » ven gen 18, 2008 11:00 pm

clros ha scritto:Vorrei capire...il fatto che non abbia potuto fare copia/incolla direttamente dal PDF, a cosa è dovuto?

O protezione nel documento, oppure nel documento non c'era "testo" ma solo un'immagine che riportava il testo.

da **riko** » ven gen 25, 2008 12:27 pm

MazinKaesar ha scritto:
clros ha scritto:Vorrei capire...il fatto che non abbia potuto fare copia/incolla direttamente dal PDF, a cosa è dovuto?

O protezione nel documento, oppure nel documento non c'era "testo" ma solo un'immagine che riportava il testo.

Voto la seconda. Tipicamente i programmi 'liberi' se ne impippano della protezione e cercano di fartelo copiare comunque.

Copiare un documento PDF come testo

Copiare un documento PDF come testo

Chi c’è in linea