Copiare un documento PDF come testo

Tutta l'informatica

Copiare un documento PDF come testo

Messaggioda clros » mar gen 15, 2008 8:44 pm

Ciao...come da oggetto.
L'ho sempre fatto normalmente, senza problemi (selezionavo il testo nel PDF, copiavo e incollavo su word.

Adesso, con un documento (che inizialmente era protetto), non ci riesco; su word mi vengoso fuori solo trattini o caratteri strani.

Credo c'entri qualcosa il fatto che il documento inizialmente era protetto.

Qualche suggerimento?

In alternativa pensavo di fare una hardcopy dello schermo o della finestra mentre visualizzano il documento ed estrapolarlo dall'immagine...ma come?
Only AMIGA makes it possible !!
La colpa è sempre del Kernel!!
...un bit è formato da 8 byte...

Claudio "CP" La Rosa
Avatar utente
clros

Supremo
 
Messaggi: 3473
Iscritto il: ven mag 07, 2004 2:41 pm
Località: SYS 64738

Messaggioda MazinKaesar » mar gen 15, 2008 11:22 pm

Puoi provare ad usare questa utility che ho trovato su questo sito. Converte il .pdf in normale .txt, perdi la formattazione, ma almeno recuperi il contenuto.
Immagine Immagine
Immagine Immagine
Immagine Immagine
Avatar utente
MazinKaesar

Supporter!!
 
Messaggi: 4051
Iscritto il: sab set 18, 2004 8:43 pm
Località: Modena

Messaggioda clros » mar gen 15, 2008 11:42 pm

niente da fare :no:
Only AMIGA makes it possible !!
La colpa è sempre del Kernel!!
...un bit è formato da 8 byte...

Claudio "CP" La Rosa
Avatar utente
clros

Supremo
 
Messaggi: 3473
Iscritto il: ven mag 07, 2004 2:41 pm
Località: SYS 64738

Messaggioda Blackfede » mer gen 16, 2008 12:27 am

Puoi fare screen del pdf, e poi lo passi ad un software OCR, che riconosce i caratteri. E` come se lo stampassi e poi lo scannerizzassi...
I troll sono solo dei dementi che finisco in /dev/null
-------------------------------------------
I video giochi non influenzano i bambini. Voglio dire, se Pac-man avesse influenzato la nostra generazione, staremmo tutti saltando in sale scure, masticando pillole magiche e ascoltando musica elettronica ripetitiva...e dopo qualche anno ci furono i rave party!
Avatar utente
Blackfede

Eroe
 
Messaggi: 1227
Iscritto il: gio gen 16, 2003 10:18 am
Località: Parma

Messaggioda riko » ven gen 18, 2008 12:26 pm

Blackfede ha scritto:Puoi fare screen del pdf, e poi lo passi ad un software OCR, che riconosce i caratteri. E` come se lo stampassi e poi lo scannerizzassi...


IMHO si può fare di meglio che passare per un OCR. Sulla mia esperienza tali sw o costano molto o funzionano male. Se riesci a smentirmi te ne sarei grato perchè ne ho bisogno. :ride:
-enrico
fibs = 0 : 1: [ a + b | (a, b) <- zip fibs (tail fibs) ]


Akropolix: Community OFF-TOPIC di IKSnet
http://www.akropolix.net/forum

"se do da mangiare a un affamato mi dicono che sono un santo, se mi chiedo perch? ? affamato mi dicono che sono un comunista" (Helder C?mara, Arcivescovo di Recife)
Avatar utente
riko

Supremo
 
Messaggi: 3329
Iscritto il: gio mar 04, 2004 4:28 pm
Località: Chiba City

Messaggioda AmigaCori » ven gen 18, 2008 1:50 pm

Guarda, sono quasi d'accordo sul fatto che i programmi OCR non siano milgiorati molto nel corso degli anni, pero' ho abuto la mia piacevolissima esperienza :felice:

Anni fa, mmmm 2000 penso, dovevo passare un documento di 70 pagine da carta a Word, ridigitarlo a mano.... :mah: ....o provare con uno scannerino economico Epson con il suo software OCR in bundle, provai...

Beh, dopo 2 ore avevo tutte le 70 pagine su word, poi dovetti rileggermi con calma le 70 pagine per correggere errori che il correttore ortografico aveva confuso ma evitai di battermi 70 pagine di testo!


Secondo me, gia' a copiarsi 2-3 pgine con un OCR si guadagna parecchio, poi se il discorso e' l'impaginazione e il riconoscimento di didascalie, note a pie' di pagine ecc...allora la cosa diventa molto piu' complessa, pero' gli OCR non sono cosi' male :felice: e parlo di roba gratita su Linux (l'OCR di XSane funzionicchia bene) che sulla robaccia in bundle coi scanner per Windows.
Admin. di NSA www.NonSoloAmiga.com
Twitter: https://twitter.com/NonSoloAmiga
Facebook: http://www.facebook.com/NonSoloAmiga
Gruppo FB: http://www.facebook.com/groups/NonSoloAmiga/
Youube: http://www.youtube.com/user/NonSoloAmiga
AmigaCori

Supremo
 
Messaggi: 4527
Iscritto il: gio feb 26, 2004 4:48 pm

Messaggioda clros » ven gen 18, 2008 3:33 pm

riko ha scritto:
Blackfede ha scritto:Puoi fare screen del pdf, e poi lo passi ad un software OCR, che riconosce i caratteri. E` come se lo stampassi e poi lo scannerizzassi...


IMHO si può fare di meglio che passare per un OCR. Sulla mia esperienza tali sw o costano molto o funzionano male. Se riesci a smentirmi te ne sarei grato perchè ne ho bisogno. :ride:


Alla fine l'ho fatto...
come OCR ho scaricato ABBYY FineREader 8.0 in versione trial.
Il riconoscimento è stato buono; ho dovuto solo aggiustare qualche lettera (e sistemare l'impaginazione alla fine).

Però...tutto il processo è stato un bordello! E ho fatto solo 4 pagine!!

Vorrei capire...il fatto che non abbia potuto fare copia/incolla direttamente dal PDF, a cosa è dovuto?
Only AMIGA makes it possible !!
La colpa è sempre del Kernel!!
...un bit è formato da 8 byte...

Claudio "CP" La Rosa
Avatar utente
clros

Supremo
 
Messaggi: 3473
Iscritto il: ven mag 07, 2004 2:41 pm
Località: SYS 64738

Messaggioda Blackfede » ven gen 18, 2008 6:53 pm

Protezione...Cifratura...DRM...Peste...Colera....RIAA...MPAA...SIAE :scherza:
I troll sono solo dei dementi che finisco in /dev/null
-------------------------------------------
I video giochi non influenzano i bambini. Voglio dire, se Pac-man avesse influenzato la nostra generazione, staremmo tutti saltando in sale scure, masticando pillole magiche e ascoltando musica elettronica ripetitiva...e dopo qualche anno ci furono i rave party!
Avatar utente
Blackfede

Eroe
 
Messaggi: 1227
Iscritto il: gio gen 16, 2003 10:18 am
Località: Parma

Messaggioda MazinKaesar » ven gen 18, 2008 11:00 pm

clros ha scritto:Vorrei capire...il fatto che non abbia potuto fare copia/incolla direttamente dal PDF, a cosa è dovuto?


O protezione nel documento, oppure nel documento non c'era "testo" ma solo un'immagine che riportava il testo.
Immagine Immagine
Immagine Immagine
Immagine Immagine
Avatar utente
MazinKaesar

Supporter!!
 
Messaggi: 4051
Iscritto il: sab set 18, 2004 8:43 pm
Località: Modena

Messaggioda riko » ven gen 25, 2008 12:27 pm

MazinKaesar ha scritto:
clros ha scritto:Vorrei capire...il fatto che non abbia potuto fare copia/incolla direttamente dal PDF, a cosa è dovuto?


O protezione nel documento, oppure nel documento non c'era "testo" ma solo un'immagine che riportava il testo.


Voto la seconda. Tipicamente i programmi 'liberi' se ne impippano della protezione e cercano di fartelo copiare comunque.
-enrico
fibs = 0 : 1: [ a + b | (a, b) <- zip fibs (tail fibs) ]


Akropolix: Community OFF-TOPIC di IKSnet
http://www.akropolix.net/forum

"se do da mangiare a un affamato mi dicono che sono un santo, se mi chiedo perch? ? affamato mi dicono che sono un comunista" (Helder C?mara, Arcivescovo di Recife)
Avatar utente
riko

Supremo
 
Messaggi: 3329
Iscritto il: gio mar 04, 2004 4:28 pm
Località: Chiba City


Torna a Tecnologia, internet, coding

Chi c’è in linea

Visitano il forum: Nessuno e 11 ospiti