Autor Zpráva
jefitto44
Profil
Chcem sa opýtať, ako sa dajú zvalidovať miliónove riadky xml? Mám jeden taký, ktorý obsahuje cez 5M riadkov a potrebujem overiť, či to niekde neobsahuje nejaký hlúpy znak, ktorý mi to celé kazí. Ten úbohy xml validator na w3schools nemá šancu. Zadrhne sa už iba pri kopírovaní kódu. Existujú iné spôsoby?
juriad
Profil
xmllint (http://xmlsoft.org/xmllint.html) mi zvládne zvalidovat dost velký soubor (3487276 řádků, 229430083 bytů) během dvou sekund.
Jedná se o xml stažitelné tady: http://www.epa.gov/enviro/geo_data.html

Ale koukám, že xmllint je nativně jen pro Linux, je to problém?
jefitto44
Profil
Povedal by som, že teraz už aj áno... ešte pred mesiacom som bavil na ubuntu, ale teraz už nie. Navyše, otvorí mi to nejakú textovú stránku, kde je napísaných plno vecí, ktorým nerozumiem
juriad
Profil
To je odkaz na dokumentaci. Nainstaluješ to přes balíčkovací systém distribuce; já ho mám součástí balíku libxml2.
Podle dalších testů zvládne 32042549 řádkové xml o velikosti 1528507099 bytů za 3m38.386s, přičemž většinu času strávil čekáním na disk a swapováním.
jefitto44
Profil
No hej, ale nemám linux už...
SpatnaKlavesnice
Profil *
Zkus cygwin, ale moc bych tomu nedaval.
Mike8748
Profil
co http://code.google.com/p/xmllint/ ?

Vaše odpověď


Prosím používejte diakritiku a interpunkci.

Ochrana proti spamu. Napište prosím číslo dvě-sta čtyřicet-sedm:

0