programmino in visual basic per convertire pdf in html

Messaggioda jitter » 01/04/2015, 20:36

Avrei bisogno di convertire dei pdf contenenti testo semplice (senza tabelle, formule o altro) in file html "pulito".
Esempio: se ho sul pdf "Oggi piove", voglio che mi restituisca "Oggi <em>piove</em>", senza tag sovrabbondanti. In word esiste questa funzione, ma restituisce un documento, appunto, con molte formattazioni, invece a me serve un documento in uscita che contenga solo i tag essenziali: grassetto, corsivo, sottolineato, a capo, apice e pochi altri.
Qualcuno conosce dei tool per fare questa cosa, eventualmente anche a pagamento se non troppo costosi?
Ultima modifica di jitter il 02/04/2015, 09:20, modificato 1 volta in totale.
Avatar utente
jitter
Advanced Member
Advanced Member
 
Messaggio: 732 di 2014
Iscritto il: 29/08/2010, 13:17

Re: convertire pdf in html pulito

Messaggioda jitter » 01/04/2015, 21:02

p.s. Lo scopo non è tanto ottenere il codice html, che si potrebbe anche inserire a mano, ma ottenerlo in modo veloce, perché ho tanti documenti da convertire.
Avatar utente
jitter
Advanced Member
Advanced Member
 
Messaggio: 733 di 2014
Iscritto il: 29/08/2010, 13:17

Re: convertire pdf in html pulito

Messaggioda jitter » 01/04/2015, 22:41

Grazie per la risposta Sergio, purtroppo io ho windows...

Sergio ha scritto:Ci mette dentro un sacco di &#160


Questi non disturbano: visto che sono tutti uguali, come dici tu, possono essere eliminati tutti in una volta. Il problema sono i tag che variano, tipo quelli sulla posizione, che devo toglierli.

Va bene anche una soluzione completamente diversa, cioè mi basterebbe anche ottenere un altro documento di testo con i tag giusti, in qualsiasi modo.
Una volta avevo provato con le macro in word. P. es., per ottenere il corsivo, facendogli sostituire tutte le stringhe "spazio + lettera a" con "<em>a", e poi "lettera a + spazio" con "a</em>, in tutte le combinazioni possibili di lettere, ma non funzionava, c'è qualche ostacolo che ora non ricordo.

Oppure esistono gli html cleaner, ma per quanto puliscono non puliscono abbastanza: io devo togliere tutte le "class", le posizioni, il tipo di carattere, tutto tranne i formati fondamentali...
Avatar utente
jitter
Advanced Member
Advanced Member
 
Messaggio: 736 di 2014
Iscritto il: 29/08/2010, 13:17

Re: programmino in visual basic per convertire pdf in html

Messaggioda jitter » 02/04/2015, 09:32

... e col visual basic di word si potrebbe fare? Dico visual basic perché è l'unico linguaggio di cui ho una conoscenza minima. Meno che minima, però, infatti non mi ricordo come, la scorsa estate avevo impostato quello che segue: erano un ciclo per fare correzioni automatiche in word. Comunque, sapete se c'è la possibilità di dire al programma: "Riconosci il corsivo e applicagli il tag <em></em>"?

Se invece questo non fosse possibile, o fosse difficile, avete idea di quanto mi potrebbe costare retribuire una persona che mi faccia un programmino del genere? Quanto tempo ci potrebbe volere?


Codice:
Private Sub cbbFiabe_Click()
Selection.HomeKey Unit:=wdStory
   
    Const z = 100
    Dim parola(0 To z) As String
    Dim sostit(0 To z) As String
    Dim x As Integer
    x = 0

  parola(x) = "Le avventure di Pinocchio"
    sostit(x) = "<em>Le avventure di Pinocchio</em>"
    x = x + 1
   
     parola(x) = "Gepetto"
    sostit(x) = "Geppetto"
    x = x + 1
   
    For x = 0 To z
        Selection.Find.ClearFormatting
        Selection.Find.Replacement.ClearFormatting
        Selection.Find.Replacement.Highlight = True
        Options.DefaultHighlightColorIndex = wdBrightGreen          'evidenzia
        Selection.Range.HighlightColorIndex = wdBrightGreen         'evidenzia
        With Selection.Find
        .Forward = True
        .Wrap = wdFindContinue
        .Format = True
        .MatchCase = True
        .MatchWholeWord = True
        .MatchWildcards = False
        .MatchSoundsLike = False
        .MatchAllWordForms = False
       
            .Text = parola(x)
            .Replacement.Text = sostit(x)
        End With
       
        Selection.Find.Execute Replace:=wdReplaceAll
        Selection.HomeKey Unit:=wdStory
    Next
End Sub
Avatar utente
jitter
Advanced Member
Advanced Member
 
Messaggio: 738 di 2014
Iscritto il: 29/08/2010, 13:17

Re: programmino in visual basic per convertire pdf in html

Messaggioda jitter » 02/04/2015, 10:57

Sì, ho cercato con google e ho visto che ci sono questi tool che ti inviano il file per email. Solo che questi documenti non appartengono a me, quindi non mi fido molto: non vorrei che qualcuno si "impossessasse" dei testi, li archiviasse. E' praticamente impossibile, sarà uno scrupolo eccessivo, ma non si sa mai.
Avatar utente
jitter
Advanced Member
Advanced Member
 
Messaggio: 739 di 2014
Iscritto il: 29/08/2010, 13:17

Re: programmino in visual basic per convertire pdf in html

Messaggioda vict85 » 02/04/2015, 11:37

In acrobat reader fai File>Save ad other>text a quel punto copy il testo in un HTML e crei manualmente il CSS se ti serve. Dubito che qualsiasi metodo automatico possa fare di meglio di questo metodo semi-manuale e, testo a parte, il codice HTML che devi aggiungere è piuttosto insignificante. Molto più rapido di scriverti manualmente un programma visual basic che ti gestisce i PDF. Il PDF è un formato piuttosto complesso e potrebbe contenere moltissima roba che convertendo ti è inutile.
vict85
Moderatore
Moderatore
 
Messaggio: 7612 di 19253
Iscritto il: 16/01/2008, 00:13
Località: Berlin

Re: programmino in visual basic per convertire pdf in html

Messaggioda jitter » 02/04/2015, 11:46

vict85 ha scritto:In acrobat reader fai File>Save ad other>text a quel punto copy il testo in un HTML e crei manualmente il CSS se ti serve

E' che salvando in text perde le formattazioni e inserisce a ogni riga un a capo che non ci dovrebbe essere. Su un documento solo, aggiungere automaticamente i tag è un attimo, ma su decine di documenti sono molte ore di lavoro. Magari meno ore che fare un programma in vb, quello sì.

vict85 ha scritto: Il PDF è un formato piuttosto complesso e potrebbe contenere moltissima roba che convertendo ti è inutile.


Infatti, quello è il problema. Una possibilità potrebbe anche essere trasformare esattamente in word il pdf, e l'word è forse meno complesso, poi, da trasformare; per convertire salvare in doc da pdf esiste un'estensione a pagamento di acrobat. Ho provato la demo ma fa un sacco di errori (vedi altro thread di ieri).
Avatar utente
jitter
Advanced Member
Advanced Member
 
Messaggio: 740 di 2014
Iscritto il: 29/08/2010, 13:17

Re: programmino in visual basic per convertire pdf in html

Messaggioda vict85 » 02/04/2015, 12:20

I PDF come sono stati creati? Il problema è che il PDF non è un file pensato come file intermedio. È spesso molto meglio creare il nuovo file dalla sorgente piuttosto che dal prodotto finito. Inoltre penso comunque che sia più facile aggiungere i tag da un txt piuttosto che a partire dal PDF. Insomma, non è il tuo caso, ma hai un risultato migliore compilando un file LaTeX in HTML piuttosto che passare da PDF o anche dal DVI. Ammesso ovviamente che ci sia un compilatore che lo faccia, ma penso che qualcuno l'abbia fatto.
vict85
Moderatore
Moderatore
 
Messaggio: 7614 di 19253
Iscritto il: 16/01/2008, 00:13
Località: Berlin

Re: programmino in visual basic per convertire pdf in html

Messaggioda jitter » 02/04/2015, 12:47

Non lo
vict85 ha scritto:I PDF come sono stati creati? Il problema è che il PDF non è un file pensato come file intermedio.


Non lo so, probabilmente salvando un documento word in formato pdf , o addirittura potrebbero essere stati scannerizzati (in quel caso è grigia). Ma mi è impossibile risalire all'origine.
Avatar utente
jitter
Advanced Member
Advanced Member
 
Messaggio: 741 di 2014
Iscritto il: 29/08/2010, 13:17

Re: convertire pdf in html pulito

Messaggioda hamming_burst » 02/04/2015, 13:25

Testo nascosto, perché contrassegnato dall'autore come fuori tema. Fai click in quest'area per vederlo.
Sergio ha scritto:Purtroppo gira solo su Linux e il link a una versione Win32 sembra alquanto defunto...

zio google fa trovare qui un link alternativo per il programma alla versione 1.3 (non lo ho installato quindi non so se funziona ancora).
il link originale si può ritrovare (senza però possibilità di download) tramite la wayback machine di Internet archive si può navigare il sito, anche se abb lentamente.
hamming_burst
Cannot live without
Cannot live without
 
Messaggio: 4235 di 8058
Iscritto il: 04/07/2009, 10:53

Prossimo

Torna a Informatica

Chi c’è in linea

Visitano il forum: Nessuno e 1 ospite