GatO ha scritto:[ per il controllo link ho risolto]
Se ho un sito pieno di link rotti cosa posso fare per spazzarli via in automatico ?
scrivi un miniscript che passa la pagina ad un miniparser sax che all'evento "tag-a" reagisce andando a pigliare la pagina linkata e se è sana nulla, se è rotta la segna da qualche parte come da rimuovere.
Se è in locale direi di non fargli fare nulla.
A quel punto li puoi o rimuovere i link a mano se complessivamente sono pochi per pagina, oppure puoi fare riparsare la pagina ad un parser dom, levi dall'albero i rami marcati come invalidi e stampi su file.
Il problema di questo approccio è che come tutti i tools automatizzati "grezzi" rischia di fare più casino che altro. Una possibile miglioria potrebbe essere che invece di rimuovere il sottoalbero prima recupera la foglia testuale e la infila al posto del ramo suddetto.
In questo modo non elimini testo, ma semplicemente sopprimi i link.
Se volessi usare xpath per indicare le risorse da togliere/mettere, potresti anche fare prima, ma dipende di più dagli strumenti che stai usando.
Oppure puoi fare tutto con sax, forse meglio ancora. Un riscrittore che fa riscrive tutto tranne i link rotti (con il check fatto come sopra).
Se hai una libreria a eventi con XSLT e analoghi, forse puoi cavartela anche così...