Autor | Zpráva | ||
---|---|---|---|
Kubuska112 Profil |
#1 · Zasláno: 18. 1. 2012, 19:34:00
Je nějaký způsob jak si udělat vlastní vyhledávání na internetu?
Prosím NE ZOOM SEARCH ENGINE. 1. Nejde mi vyhledávání. 2.Ukazuje ty výsledky, co nechci. |
||
SeparateSK Profil |
Body ,čo musíš urobiť:
0. Naučiť sa PHP (zároveň SQL syntax) 1. Urob si robot.txt parser - bez toho bude tvoj vyhladávač považovaný za nedôveryhodný 2. Urob si REGEXP na hladanie URL v <a href="">...</a> 3. Urob funkciu ,ktorá bude parsovať danú stránku a hladať v nej meta description, title a h1 4. Urob loop ktorý bude donekonečna otvárať URL z Regexpu a následne tam bude vyhladávať ďalšie a tie bude zasa otvárať... a takto dokolečka 5. Urob si DB ,kde to budeš uskladovať - MySQL ti zrejme zlyhá keď tam pridáš viac ako 9000 hodnôt za sekundu :D 6. Urob script ,ktorý bude v tej DB hľadať. 7. Ak už má zobraziť description a to má viac ako 200 znakov, tak výsledok nebude asi moc pekný , bude ničiť dizajn. 8. Spraviť to nejak tak, aby script išiel aj keď zatvoríš prehliadač (to sa dá aj v PHP) Ja som mal tiež vlastný a malo to okolo 7kB a to bolo ešte overovanie, či je url platná alebo nie a ak nie,tak tomu pridá www. alebo http:// ---To ,čo tieto body hovoria musíš naprogramovať Body 1,7,8 nemusíš ak nechceš -vynechanie bodu 1 : nedôveryhodnosť -vynechanie bodu 7: rozhádzaný dizajn a neprehladnosť -vynechanie bodu 8: tolko výsledkov, kolko si mal zapnutý prehliadač Ale to bude trocha trvať, kým tvoje výsledky dobehnú google , ktorý už web crawluje viac ako 10 rokov a má viac ako 1 000 000 000 stránok v DB |
||
ninja Profil |
#3 · Zasláno: 18. 1. 2012, 21:16:00
|
||
Kubuska112 Profil |
#4 · Zasláno: 19. 1. 2012, 15:03:14
SeparateSK:
„Ale to bude trocha trvať, kým tvoje výsledky dobehnú google , ktorý už web crawluje viac ako 10 rokov a má viac ako 1 000 000 000 stránok v DB“ no ty brďo...google je nějak moc vtíravej :) „MySQL ti zrejme zlyhá keď tam pridáš viac ako 9000 hodnôt za sekundu :D“ S tím počítám ,že mi servry vypadnou 20x denně :) |
||
ludekbrno Profil * |
#5 · Zasláno: 19. 1. 2012, 15:32:00
Kubuska112:
Máš peníze a prostory na vybudování obrovského datacentra narvaného hromadou serverů? Tak totiž fyzicky vypadá vyhledávač. To programové vybavení už je proti tomu relativně jednoduché. |
||
SeparateSK Profil |
No ja som mal vlastný a bežal aj po vypnutí prehliadača :) všetko ok, potom som sa na druhý deň pozrel do DB a zistil som ,že zlyhala - všetky hodnoty boli : "null" - okrem mena stránky (http://www...)
Naviac tvoj server potrebuje: min 3GB pre DB min 100GB Traffic mesačne (lebo načítanie 20kB stránky je dosť... + tá daná stránka má odkazy a tie tvoj vyhladávač bude otvárať tiež) -ak chceš niečo ako : V pamäti (stránka uložená v cache vyhladávača), tak aspon 1 GB priestoru |
||
Kubuska112 Profil |
#7 · Zasláno: 19. 1. 2012, 16:28:51
SeparateSK:
„No ja som mal vlastný“ ludekbrno: „Máš peníze a prostory na vybudování obrovského datacentra narvaného hromadou serverů?“ Servery a peníze nejsou problém. Prostě jen JAK NA TO |
||
Kacko Profil |
#8 · Zasláno: 19. 1. 2012, 16:32:28
Staci poridit si lepsi pripojeni a koupit vyvojovy server.
Mám také svůj vlastní hledač, napsaný v pomalém PHP a MongoDB. Vše mi běží doma na stroji s Intel Atom 525,4GB ram, F1 750GB. Náklady na stroj 4tisíce Kč, spotřeba minimální. Jako vývojový stroj naprosto dostatečné. Stroj zvládá stáhnout cca 1200 stránek/s(čisté html). Indexace se provádí odděleně, ta je pomalejší. Doporučuju: - nepoužívat PHP - použít nosql - indexovat odděleně - nastudovat si něco o vyhledávačích - neposlouchat SeparateSK |
||
Kubuska112 Profil |
#9 · Zasláno: 19. 1. 2012, 16:48:11
Kacko:
„Vše mi běží doma na stroji s Intel Atom 525,4GB ram, F1 750GB.“ „Náklady na stroj 4tisíce Kč, spotřeba minimální.“ „- nepoužívat PHP“ „nastudovat si něco o vyhledávačích“ něco málo vím :) „- neposlouchat SeparateSK“ už se stalo :) |
||
SeparateSK Profil |
Kubuska112:
„už se stalo :)“ tak si to naprogramuj v inom webovom jazyku okrem php a to som zvedavy v akom, lebo s ASP a Pythonom ti tu asi nikto nepomôže :D OK, ak chces urobit EXE aplikaciu v C++, pochybujem , ze tu niekde najdes zaraditelnu kategorie pre tvoje nove otazky. a mimochodom vykonny server stoji peniaze, ved si student ZS , z toho je jasné, že asi 80-600€ mesacne nezarobíš |
||
ninja Profil |
#11 · Zasláno: 19. 1. 2012, 16:54:16
Kubuska112: Pokud potřebujete vlastní engine na vlastním serveru, můžete zkusit Holmese.
Stále jste ale neřekl co, jak a proč chcete vyhledávat. |
||
Kubuska112 Profil |
#12 · Zasláno: 19. 1. 2012, 16:56:42
SeparateSK:
„ved si student ZS , tak asi 1000€ mesacne nezarobis“ mám dobrou brigádu :) ninja: „co, jak a proč chcete vyhledávat.“ Prostě vyhledávač - projekt vyhledávání jako seznam.cz, jako google.com...prostě vyhledávač |
||
SeparateSK Profil |
Jak něco udělat? /
Kubuska112: „Je nějaký způsob jak si udělat vlastní vyhledávání na internetu?“ Veľmi stručná odpoveď : Naučiť sa programovať a používať logiku, ako to asi funguje :) |
||
Kubuska112 Profil |
#14 · Zasláno: 19. 1. 2012, 17:03:18
SeparateSK:
„logiku, ako to asi funguje :)“ neřešme tu logiku lidského mozku ale vyhledávač :) |
||
Zechy Profil |
#15 · Zasláno: 19. 1. 2012, 17:03:23
Kubuska112:
„vyhledávání jako seznam.cz, jako google.com...prostě vyhledávač“ Nevim jestli v době Googlu má cenu dělat nový vyhledávač :) |
||
SeparateSK Profil |
Kubuska112:
„neřešme tu logiku lidského mozku ale vyhledávač :)“ A ako by si to urobil, kebyže nemáš logiku? Veď najprv ti musí docvaknúť, ako to asi funguje, nie? |
||
Kubuska112 Profil |
#17 · Zasláno: 19. 1. 2012, 17:06:55
Zechy:
„Nevim jestli v době Googlu má cenu dělat nový vyhledávač :)“ Jak už jsem psal - školní projekt a udevení do plného provozu |
||
Zechy Profil |
Kubuska112:
To je jiná, ale to školní ti v přechozím příspěvku nějak vypadlo ;) |
||
SeparateSK Profil |
[#2] SeparateSK
Stačí si to prečítať ,tam máš celý návod a nie ,že to cele preskočíš a prečítaš iba koniec. (body 2,3,4,5,6) - bez tých bodov nebude tvoj vyhladávač fungovať resp. bez bodu 2,4 nenájde nič Nechápem ,čo viac ešte chceš ako návod. |
||
Kubuska112 Profil |
SeparateSK:
„čo viac ešte chceš ako návod.“ tak dik no... |
||
Časová prodleva: 12 let
|
0