Autor Zpráva
Milkys
Profil
Přeji krásný jarní lednový večer přátelé,
má někdo prosím zkušenosti s importem článků z cs wikipedie? Už vím, že aktuální jednotlivé soubory se dají stáhnout zde, jen ty soubory jsou obrovské. Už dva dny to studuji.
Není problém to stáhnou např. cswiki-latest-pages-meta-current.xml.bz2, problém je otevřít xml po rozbalení. Nemám strach z napsání parseru k uložení do mysql, řekl bych, že se na to těším, ale je to tak velký, že to neotevřu.
Bylo by hezké mít po ruce off-line wikipedie, kdykoliv, ale v podstatě nepotřebuji všechny články stačí mi jen informace (články) o krajích a městech ČR, no a možná i okresech. Autorská práva respektuji.
Dělal už to někdo z Vás, mohl by se někdo podělit o zkušenosti. Je to vůbec práce na běžnej notebook?
Str4wberry
Profil
Nešlo by si potřebné stránky napřed přímo vyexportovat?
Milkys
Profil
Str4wberry:
to jsem také zkoušel, v tomto případě musím každý název kategorie kraj, okres, město do pole kategorie zadávat ručně. Nevíš o něčem více automatickém.
Jo ještě mimo jiné vím, že existuje filtr, ale tam se dá vybírat mezi druhy wiki, např: wikibooks, wikipedie ap. Odkaz si již nepamatuji, ale domnívám se, že to má něco společného s wikimedia.
Str4wberry
Profil
Co myslíš tím zadáváním ručně? Ten formulář s potřebnými daty může přece klidně odeslat skript a výsledné XML automaticky zpracovat.
Milkys
Profil
Str4wberry:
asi jsme se nepochopili nebo jsem mimo já.
Do formuláře zadám např. Okres Svitavy, vše je ok, dostanu xml s obsahem okresu Svitavy, ovšem už tam nejsou obsaženy data (články) podřízených (města) a kategoricky nadřazených (kraje) článků. Proto se domnívám, že bych ty jednotlivé názvy článků musel zadávat ručně. Zkus se podívat do xml souboru, uvidíš co v něm je.
_es
Profil
Milkys:
Sú rôzne špeciálne aplikácie na sťahovanie webov. Tie treba len správne nastaviť, napríklad do akej úrovne zanorenia odkazov sa má sťahovať a pod.
Str4wberry
Profil
Reakce na Milkyse:
Pokud zadám „okres Svitavy“, tak budu mít v XML mj. následující stránky:
Kategorie:Vesnice_okresu_Svitavy
Kategorie:Obce_v_okrese_Svitavy
Tedy obce i vesnice můžeš rekurzivním postupem získat. Stejně tak nadřazené, začneš-li u nich a budeš postupovat níž a níž.

Nicméně asi bude jednodušší si seznam krajů, měst a okresů najít a připravit odjinud, pokud ti jde jen o samotné stránky s popisem kraje/města/okresu.


Reakce na _es:
Tie treba len správne nastaviť, napríklad do akej úrovne zanorenia odkazov sa má sťahovať a pod.
Zrovna u Wikipedie to bude pro běžné stahovače stránek problém, protože tamní struktura je víceméně plochá.
Milkys
Profil
_es:
ano kdysi, když byl internet poskytován jen po telefonní přípojce a připojení bylo pomalé a platilo se za přenesená data jsem na pc používal program, který to uměl, jmenovalo se to nějak jako webcopier nebo tak nějak, to už si nepamatuju. Dost nostalgie, tam jsem se dostat nechtěl, ale děkuji za snahu sem také přiložit polínko do wiki ohně.
Milkys
Profil
Str4wberry:
ano ty názvy vesnic a obcí tam jsou, ale nejsou tam také právě ty mnou požadované popisy (články) obcí vesnic a měst v okrese Svitavy. To xml neobsahuje data, která jsou "hlouběji". Např. název obce Banín v xml je, ale požadovaný obsah článku Banín už ne. To je možná tím, že struktura wikipedie je"plochá".
Nejde mi rozhodně jen o seznamy obcí, měst, okresů nebo krajů, ty mám, jde mi hlavně o jejich popisy a zajímavosti jednotlivých položek.
Takže se domnívám, že jediné východisko je nějakým způsobem zjistit strukturu obřího xml viz #1, vyfiltrovat mnou požadované údaje a uložit do mysql. Zní to jednoduše.
Už se chápeme?
Milkys
Profil
Str4wberry:
asi mám hodně bohatý rodiče... už mě to koplo. Nebudu zadávat do políčka kategorie, ale rovnou názvy obcí do textarea.
Nikoliv:
Kategorie:Vesnice_okresu_Svitavy
ale přímo:
Banín
Bělá_nad_Svitavou
...atd. a hned to tam nabouchám z celé ČR a budu doufat, že ty záznamy tam jsou a titulek a url je stejný.
Testnu to a dám vědět jak jsem dopadnul, ale pevně věřím, že už budu v noci klidně spát...
Milkys
Profil
Tak je to dobrý, bude s tím ještě trochu práce, ale jiné, jednodušší řešení než [#10] jsem nenašel.
Ještě teď upravuji možná ano - Api wikipedie.

Vaše odpověď


Prosím používejte diakritiku a interpunkci.

Ochrana proti spamu. Napište prosím číslo dvě-sta čtyřicet-sedm: