Autor | Zpráva | ||
---|---|---|---|
Paulo Profil * |
#1 · Zasláno: 10. 3. 2011, 15:28:43
Potřeboval bych poradit co bych jak by mnel zhruba vypadat a co obsahovat. Pokud si ma precist z databaze adresu – pak nastivit web udelat postupy jako se podivat na zdrojek (sitemap, robots, …). Pote ho zaindexuje pokud muze do ine databaze. Defakto primitivní robot na zbírání který se vždy o půlnoci spustí a vše nezaindexované zaindexuje.
|
||
Paulo Profil * |
#2 · Zasláno: 10. 3. 2011, 20:14:31
Asi by se dal použít tento kód z http://diskuse.jakpsatweb.cz/?action=vthread&forum=9&topic=96795 , ale nevim presne jak tudiz budu rad za kazdou radu jak s toho udelat neco podobneho mimu konceptu:
<?php function getURL($adresa){ $source = file_get_contents($adresa); preg_match_all('#<a[^>]+href="(http:\/\/([^"]+))"[^>]*>#is',$source,$array); foreach($array[1] as $adresa){ $sel = "select * from adresy where adresa ='{$adresa}'"; $qsel = mysql_query($sel);$fetch=mysql_fetch_array($qsel); if(!empty($fetch)){continue;} $adresa = htmlspecialchars($adresa, ENT_QUOTES); $ins = "insert into adresy(adresa) values('$adresa')"; $q = mysql_query($ins); } } function browse(){ for($id=1;$id<=2;$id++){ $select = "select * from adresy "; $query = mysql_query($select); while($row=mysql_fetch_array($query)){ getURL($row["adresa"]); } } } browse(); ?> |
||
Paulo Profil * |
#3 · Zasláno: 10. 3. 2011, 20:31:59
* Defakto je mi jedno odkud bude cerpat adresy ale at jich tam de vlozit vice myslim tim asi to (ze tam vlozim treba tott http://www.jakpsatweb.cz/ a pak uz si z toho ten kod vyvodi http://www.jakpsatweb.cz/zaklady-html.html a td.)
|
||
Alphard Profil |
#4 · Zasláno: 11. 3. 2011, 02:26:38
Co konkrétně není jasné?
Funkce getURL() vyhledává absolutní odkazy, když si tam dáte echo, můžete se na to podívat. function getURL($adresa) { $source = file_get_contents($adresa); preg_match_all('#<a[^>]+href="(http:\/\/([^"]+))"[^>]*>#is',$source,$array); foreach($array[1] as $adresa) { echo $adresa, "<br>"; } } getURL("http://idnes.cz"); Modifikací toho reguláru můžete brát i relativní adresy. sitemap, robots jsou normální stránky, sestavte adresu, zkuste je načít, běžte dál. Máte promyšlené, co s tím dál? Projitím i jen pár desítek rozsáhlejších webů získáte materiály, ve kterých nebude snadné relevantně hledat. Asi nejlepší, co se vám podaří sestavit, bude MySQL fulltext, možná s prioritou na titulky, hX apod.. |
||
Paulo Profil * |
#5 · Zasláno: 11. 3. 2011, 14:15:43
Mně de o to jak výsledky zapasat do databáze která by odpovídala požadavkům tohoto fulltext http://tips4php.net/2010/03/create-your-own-fulltext-searchengine-with-php-and-mysql/
A chci aby byl nějaký dokument na mém serveru (php, txt, ...) ríkal jaké weby má indexovat (indexovat mnou vybrané weby) |
||
Paulo Profil * |
#6 · Zasláno: 12. 3. 2011, 23:25:20
Přišel jsem na to že to predchozi nemuselo byt vubec dobre tady posilam kod ktery asi je dobre
<?php function getURL($adresa){ $source = file_get_contents($adresa); preg_match_all('#<a[^>]+href="(http:\/\/([^"]+))"[^>]*>#is',$source,$array); foreach($array[1] as $adresa){ $sel = "select * from adresy where adresa ='{$adresa}'"; $qsel = mysql_query($sel);$fetch=mysql_fetch_array($qsel); if(!empty($fetch)){continue;} $adresa = htmlspecialchars($adresa, ENT_QUOTES); $ins = "insert into adresy(adresa) values('$adresa')"; $q = mysql_query($ins); } } function browse(){ for($id=1;$id<=2;$id++){ //toto je ten muj nefunkcni regulator $select = "select * from adresy limit 10";//sem si dosadis limit $query = mysql_query($select); while($row=mysql_fetch_array($query)){ getURL($row["adresa"]); } } } browse(); // tady volám fci ?> Získán z http://diskuse.jakpsatweb.cz/?action=vthread&forum=9&topic=96888. |
||
Paulo Profil * |
#7 · Zasláno: 12. 3. 2011, 23:44:38
Mnohem radši bych mněl vlastního robota než řešil pak hodně birokratických blbostí, ale pokud se nezadari pouziji http://www.sphider.eu/about.php protoze rozhodne nemohu mit google na vzy to je na 100% pravda.
|
||
Paulo Profil * |
#8 · Zasláno: 14. 3. 2011, 20:31:13
Tak jsem dnes skusil sphider, ale hrozne - radsi zustanu u googlu, nejaky nahled zde -- ten http://www.lops.cz/sphider/search.php
= casem asi odstranim, takze vyhledavani si muzete skusit len ted |
||
Pan T Profil * |
#9 · Zasláno: 16. 3. 2011, 18:57:55
Toto téma ukončuji a dále už to nebudu rešit, budu na dále používat google a http://www.lops.cz/sphider/search.php mažu.
|
||
Časová prodleva: 13 let
|
0