Autor Zpráva
Tomtomas
Profil
Prosím o radu, jak vymazat v HTML kódu u všech značek všechny jejich atributy (úplně ideálně až na značku <a> a atribut href="x").

Z formátu např.
<p class="x" style="xx" align=""><a href="xx">ABC</a></p>
na formát přibližně
<p><a href="xx">ABC</a></p>
Jsem postaven před problém převést řádově desítky HTML dokumentů, vytvořených ve Wordu patrně 2000 na validní XHTML. Převod HTML alá Word -> XHTML udělám např. díky TiDy třeba v PSPadu, ale problémem je původní přímé formátování vzhledu přímo u značek, a to dosti bestiálním způsobem. Možná by něco svedl Microsoft HTML filter, ale ten u mě bez MS Office nelze použít.

Uvítám a předem děkuji za jakoukoliv radu či nasměrování (kdyby příliš, tak snad i způsob použití dávkově, ale to už si vymýšlím přespříliš:).
WertriK
Profil *
Mozna by to dovedlo PHP s regularnima vyrazama...
pachollini
Profil *
Osobne na to pouzivam xslt, zkus http://www.google.com?q=xslt+seky
Lukáš M
Profil
Tomtomas
píšete, že používate pspad. ve funkci najít a nahradit lze zaškrtávacím políčkem zapnout regulární výrazy. pak se objeví talčítka s otazníkem a vykřičníkem, které vám mohou pomoct, pokud jako já do regexp moc nevidíte. leccos se s tím dá provést.
Tomtomas
Profil
Děkuji za podnětné odpovědi. Použití regulárních výrazů bylo takřka to první, co mě napadlo. I když nejsem programátor, se základní logikou výrazů bych si snad poradil. V PSPadu jsem při zběžném zkoumání nezachytil možnost dávkového zpracování, každopádně např. TiDy přes příkazový řádek to umí, popř. i HTML Trim.

Pokud to někoho zajímá, pro HTML kód podle standartů jsem změnil některé parametry na bare: yes, clean: yes, drop-font-tags: yes, drop-proprietary-attributes: yes, enclose-text: yes, logical-emphasis: yes, word-2000: yes.

Neměl jsem prakticky čas se tím nějak důkladněji zabývat, ale to XSLT vypadá opravdu zajímavě. Pro odstranění atributů jsem nakonec použil program Detagger. Ač nemám zvlášť rád tyto různá shareware udělátka a zkušební verze tohoto programu je zvlášť otravná (pouze 5 souborů najednou, co chvíli okno se žádostí o zakoupení plné verze a do výsledných souborů přidá na začátek svou poznámku), díky zajímavým možnostem nastavení filtrů mi posloužil takřka ideálně. Někde jsem viděl ještě zajímavý program v Javě, tuším HTML filter, ale Java nedělá mému momentálnímu PC dobře a ani kvůli času jsem nic jiného nezkoušel.
Lukáš M
Profil
Tomtomas
v PSPADu v menu hledat/hledání v souborech - to je v podstatě dávkové zpracování. ale to jen pro úplnost. hlavně, že se vám to podařilo nějak vyřešit.
Toto téma je uzamčeno. Odpověď nelze zaslat.

0