Autor Zpráva
Taps
Profil
Zdravím, potřeboval bych poradit jak nejlépe prohledat zdrojový kod jednotlivých stránek webu. Web má více jak 800 stránek a potřebuji zjistit zda se v daném zdrojovém kodu vyskytuje určitá html značka, respk. tag s určitým id. Web bohužel nemám k dispozici na lokálním PC.

Co by jste mi poradili ?

zkoušel jsem http://simplehtmldom.sourceforge.net a níže uvedený skript
Postup je takový, že do souboru se mi zapisují stránky, které neobsahují div class=text. Soubor url. txt obsahuje odkazy na webové stránky (např. /o-mne.html,/ukazka-praci.html...atd)
<?php
  set_time_limit(0);
// example of how to use basic selector to retrieve HTML contents
include('simple_html_dom.php');
$url=file('url.txt');

foreach($url as $stranky){
$html = file_get_html('http://www.mujweb.cz'.$stranky);


if(COUNT($html->find('div[class=text]' ))==0){
    file_put_contents("bez_textu.csv",$stranky,FILE_APPEND);
}
 }
 ?>
Ale v případě mého skriptu, nastal problém s pamětí
Fatal error: Allowed memory size of 134217728 bytes exhausted (tried to allocate 42 bytes) in C:\Program Files\EasyPHP-5.3.2i\www\testovani\simplehtml\simple_html_dom.php on line 1177
Bohužel nemám přístup k hostingu a ani k databázi webových stránek
juriad
Profil
Pokud si tykáš s linuxem, tak bych pomocí wget -r stáhnul celý web k sobě. Následně pomocí grep -R našel odpovídající soubory.

Vaše odpověď


Prosím používejte diakritiku a interpunkci.

Ochrana proti spamu. Napište prosím číslo dvě-sta čtyřicet-sedm: