Autor Zpráva
Paulo
Profil *
Potřeboval bych poradit co bych jak by mnel zhruba vypadat a co obsahovat. Pokud si ma precist z databaze adresu – pak nastivit web udelat postupy jako se podivat na zdrojek (sitemap, robots, …). Pote ho zaindexuje pokud muze do ine databaze. Defakto primitivní robot na zbírání který se vždy o půlnoci spustí a vše nezaindexované zaindexuje.
Paulo
Profil *
Asi by se dal použít tento kód z http://diskuse.jakpsatweb.cz/?action=vthread&forum=9&topic=96795 , ale nevim presne jak tudiz budu rad za kazdou radu jak s toho udelat neco podobneho mimu konceptu:
<?php
function getURL($adresa){
 $source = file_get_contents($adresa);
 preg_match_all('#<a[^>]+href="(http:\/\/([^"]+))"[^>]*>#is',$source,$array);
 foreach($array[1] as $adresa){
 $sel = "select * from adresy where adresa ='{$adresa}'";
 $qsel = mysql_query($sel);$fetch=mysql_fetch_array($qsel);
 if(!empty($fetch)){continue;}
 $adresa = htmlspecialchars($adresa, ENT_QUOTES);
 $ins = "insert into adresy(adresa) values('$adresa')";
 $q = mysql_query($ins);
 }
}
function browse(){
for($id=1;$id<=2;$id++){
$select = "select * from adresy ";
$query = mysql_query($select);
while($row=mysql_fetch_array($query)){
getURL($row["adresa"]);
}
}
}
browse();
?>
Paulo
Profil *
* Defakto je mi jedno odkud bude cerpat adresy ale at jich tam de vlozit vice myslim tim asi to (ze tam vlozim treba tott http://www.jakpsatweb.cz/ a pak uz si z toho ten kod vyvodi http://www.jakpsatweb.cz/zaklady-html.html a td.)
Alphard
Profil
Co konkrétně není jasné?

Funkce getURL() vyhledává absolutní odkazy, když si tam dáte echo, můžete se na to podívat.
function getURL($adresa)
{
    $source = file_get_contents($adresa);
    preg_match_all('#<a[^>]+href="(http:\/\/([^"]+))"[^>]*>#is',$source,$array);
    foreach($array[1] as $adresa)
    {
        echo $adresa, "<br>";
    }
}

getURL("http://idnes.cz");

Modifikací toho reguláru můžete brát i relativní adresy.
sitemap, robots jsou normální stránky, sestavte adresu, zkuste je načít, běžte dál.

Máte promyšlené, co s tím dál? Projitím i jen pár desítek rozsáhlejších webů získáte materiály, ve kterých nebude snadné relevantně hledat. Asi nejlepší, co se vám podaří sestavit, bude MySQL fulltext, možná s prioritou na titulky, hX apod..
Paulo
Profil *
Mně de o to jak výsledky zapasat do databáze která by odpovídala požadavkům tohoto fulltext http://tips4php.net/2010/03/create-your-own-fulltext-searchengine-with-php-and-mysql/
A chci aby byl nějaký dokument na mém serveru (php, txt, ...) ríkal jaké weby má indexovat (indexovat mnou vybrané weby)
Paulo
Profil *
Přišel jsem na to že to predchozi nemuselo byt vubec dobre tady posilam kod ktery asi je dobre
<?php
function getURL($adresa){
 $source = file_get_contents($adresa);
 preg_match_all('#<a[^>]+href="(http:\/\/([^"]+))"[^>]*>#is',$source,$array);
 foreach($array[1] as $adresa){
 $sel = "select * from adresy where adresa ='{$adresa}'";
 $qsel = mysql_query($sel);$fetch=mysql_fetch_array($qsel);
 if(!empty($fetch)){continue;}
 $adresa = htmlspecialchars($adresa, ENT_QUOTES);
 $ins = "insert into adresy(adresa) values('$adresa')";
 $q = mysql_query($ins);
 }
}
function browse(){
for($id=1;$id<=2;$id++){  //toto je ten muj nefunkcni regulator
$select = "select * from adresy limit 10";//sem si dosadis limit
$query = mysql_query($select);
while($row=mysql_fetch_array($query)){
getURL($row["adresa"]);
}
}
}
browse(); // tady volám fci
?>

Získán z http://diskuse.jakpsatweb.cz/?action=vthread&forum=9&topic=96888.
Paulo
Profil *
Mnohem radši bych mněl vlastního robota než řešil pak hodně birokratických blbostí, ale pokud se nezadari pouziji http://www.sphider.eu/about.php protoze rozhodne nemohu mit google na vzy to je na 100% pravda.
Paulo
Profil *
Tak jsem dnes skusil sphider, ale hrozne - radsi zustanu u googlu, nejaky nahled zde -- ten http://www.lops.cz/sphider/search.php
= casem asi odstranim, takze vyhledavani si muzete skusit len ted
Pan T
Profil *
Toto téma ukončuji a dále už to nebudu rešit, budu na dále používat google a http://www.lops.cz/sphider/search.php mažu.

Vaše odpověď

Mohlo by se hodit


Prosím používejte diakritiku a interpunkci.

Ochrana proti spamu. Napište prosím číslo dvě-sta čtyřicet-sedm: