Diskuse JPW: Vytvoření parseru - prohledávání webu se stovkami stránek

	Autor	Zpráva
	Taps Profil	#1 · Zasláno: 8. 6. 2013, 19:05:46 · Upravil/a: Taps o 2 minuty později Odpovědět Citovat Zdravím, potřeboval bych poradit jak nejlépe prohledat zdrojový kod jednotlivých stránek webu. Web má více jak 800 stránek a potřebuji zjistit zda se v daném zdrojovém kodu vyskytuje určitá html značka, respk. tag s určitým id. Web bohužel nemám k dispozici na lokálním PC. Co by jste mi poradili ? zkoušel jsem http://simplehtmldom.sourceforge.net a níže uvedený skript Postup je takový, že do souboru se mi zapisují stránky, které neobsahují div class=text. Soubor url. txt obsahuje odkazy na webové stránky (např. /o-mne.html,/ukazka-praci.html...atd) <?php set_time_limit(0); // example of how to use basic selector to retrieve HTML contents include('simple_html_dom.php'); $url=file('url.txt'); foreach($url as $stranky){ $html = file_get_html('http://www.mujweb.cz'.$stranky); if(COUNT($html->find('div[class=text]' ))==0){ file_put_contents("bez_textu.csv",$stranky,FILE_APPEND); } } ?> Ale v případě mého skriptu, nastal problém s pamětí Fatal error: Allowed memory size of 134217728 bytes exhausted (tried to allocate 42 bytes) in C:\Program Files\EasyPHP-5.3.2i\www\testovani\simplehtml\simple_html_dom.php on line 1177 Bohužel nemám přístup k hostingu a ani k databázi webových stránek
	juriad Profil	#2 · Zasláno: 8. 6. 2013, 19:11:11 Odpovědět Citovat Pokud si tykáš s linuxem, tak bych pomocí `wget -r` stáhnul celý web k sobě. Následně pomocí `grep -R` našel odpovídající soubory.
		Časová prodleva: 11 let

Vaše odpověď

Mohlo by se hodit