Autor Zpráva
Kubuska112
Profil
Je nějaký způsob jak si udělat vlastní vyhledávání na internetu?
Prosím NE ZOOM SEARCH ENGINE.

1. Nejde mi vyhledávání.
2.Ukazuje ty výsledky, co nechci.
SeparateSK
Profil
Body ,čo musíš urobiť:
0. Naučiť sa PHP (zároveň SQL syntax)
1. Urob si robot.txt parser - bez toho bude tvoj vyhladávač považovaný za nedôveryhodný
2. Urob si REGEXP na hladanie URL v <a href="">...</a>
3. Urob funkciu ,ktorá bude parsovať danú stránku a hladať v nej meta description, title a h1
4. Urob loop ktorý bude donekonečna otvárať URL z Regexpu a následne tam bude vyhladávať ďalšie a tie bude zasa otvárať... a takto dokolečka
5. Urob si DB ,kde to budeš uskladovať - MySQL ti zrejme zlyhá keď tam pridáš viac ako 9000 hodnôt za sekundu :D
6. Urob script ,ktorý bude v tej DB hľadať.
7. Ak už má zobraziť description a to má viac ako 200 znakov, tak výsledok nebude asi moc pekný , bude ničiť dizajn.
8. Spraviť to nejak tak, aby script išiel aj keď zatvoríš prehliadač (to sa dá aj v PHP)
Ja som mal tiež vlastný a malo to okolo 7kB a to bolo ešte overovanie, či je url platná alebo nie a ak nie,tak tomu pridá www. alebo http://
---To ,čo tieto body hovoria musíš naprogramovať

Body 1,7,8 nemusíš ak nechceš
-vynechanie bodu 1 : nedôveryhodnosť
-vynechanie bodu 7: rozhádzaný dizajn a neprehladnosť
-vynechanie bodu 8: tolko výsledkov, kolko si mal zapnutý prehliadač

Ale to bude trocha trvať, kým tvoje výsledky dobehnú google , ktorý už web crawluje viac ako 10 rokov a má viac ako 1 000 000 000 stránok v DB
ninja
Profil
Google CSE
Kubuska112
Profil
SeparateSK:
Ale to bude trocha trvať, kým tvoje výsledky dobehnú google , ktorý už web crawluje viac ako 10 rokov a má viac ako 1 000 000 000 stránok v DB
no ty brďo...google je nějak moc vtíravej :)

MySQL ti zrejme zlyhá keď tam pridáš viac ako 9000 hodnôt za sekundu :D
S tím počítám ,že mi servry vypadnou 20x denně :)
ludekbrno
Profil *
Kubuska112:
Máš peníze a prostory na vybudování obrovského datacentra narvaného hromadou serverů? Tak totiž fyzicky vypadá vyhledávač. To programové vybavení už je proti tomu relativně jednoduché.
SeparateSK
Profil
No ja som mal vlastný a bežal aj po vypnutí prehliadača :) všetko ok, potom som sa na druhý deň pozrel do DB a zistil som ,že zlyhala - všetky hodnoty boli : "null" - okrem mena stránky (http://www...)

Naviac tvoj server potrebuje:
min 3GB pre DB
min 100GB Traffic mesačne (lebo načítanie 20kB stránky je dosť... + tá daná stránka má odkazy a tie tvoj vyhladávač bude otvárať tiež)
-ak chceš niečo ako : V pamäti (stránka uložená v cache vyhladávača), tak aspon 1 GB priestoru
Kubuska112
Profil
SeparateSK:
No ja som mal vlastný

ludekbrno:
Máš peníze a prostory na vybudování obrovského datacentra narvaného hromadou serverů?

Servery a peníze nejsou problém. Prostě jen JAK NA TO
Kacko
Profil
Staci poridit si lepsi pripojeni a koupit vyvojovy server.

Mám také svůj vlastní hledač, napsaný v pomalém PHP a MongoDB. Vše mi běží doma na stroji s Intel Atom 525,4GB ram, F1 750GB.
Náklady na stroj 4tisíce Kč, spotřeba minimální. Jako vývojový stroj naprosto dostatečné.

Stroj zvládá stáhnout cca 1200 stránek/s(čisté html). Indexace se provádí odděleně, ta je pomalejší.

Doporučuju:
- nepoužívat PHP
- použít nosql
- indexovat odděleně
- nastudovat si něco o vyhledávačích
- neposlouchat SeparateSK
Kubuska112
Profil
Kacko:
Vše mi běží doma na stroji s Intel Atom 525,4GB ram, F1 750GB.

Náklady na stroj 4tisíce Kč, spotřeba minimální.

- nepoužívat PHP

nastudovat si něco o vyhledávačích
něco málo vím :)

- neposlouchat SeparateSK
už se stalo :)
SeparateSK
Profil
Kubuska112:
už se stalo :)


tak si to naprogramuj v inom webovom jazyku okrem php a to som zvedavy v akom, lebo s ASP a Pythonom ti tu asi nikto nepomôže :D
OK, ak chces urobit EXE aplikaciu v C++, pochybujem , ze tu niekde najdes zaraditelnu kategorie pre tvoje nove otazky.
a mimochodom vykonny server stoji peniaze, ved si student ZS , z toho je jasné, že asi 80-600€ mesacne nezarobíš
ninja
Profil
Kubuska112: Pokud potřebujete vlastní engine na vlastním serveru, můžete zkusit Holmese.

Stále jste ale neřekl co, jak a proč chcete vyhledávat.
Kubuska112
Profil
SeparateSK:
ved si student ZS , tak asi 1000€ mesacne nezarobis
mám dobrou brigádu :)

ninja:
co, jak a proč chcete vyhledávat.
Prostě vyhledávač - projekt
vyhledávání jako seznam.cz, jako google.com...prostě vyhledávač
SeparateSK
Profil
Jak něco udělat? /
Kubuska112:
Je nějaký způsob jak si udělat vlastní vyhledávání na internetu?
Veľmi stručná odpoveď : Naučiť sa programovať a používať logiku, ako to asi funguje :)
Kubuska112
Profil
SeparateSK:
logiku, ako to asi funguje :)
neřešme tu logiku lidského mozku ale vyhledávač :)
Zechy
Profil
Kubuska112:
vyhledávání jako seznam.cz, jako google.com...prostě vyhledávač

Nevim jestli v době Googlu má cenu dělat nový vyhledávač :)
SeparateSK
Profil
Kubuska112:
neřešme tu logiku lidského mozku ale vyhledávač :)
A ako by si to urobil, kebyže nemáš logiku?
Veď najprv ti musí docvaknúť, ako to asi funguje, nie?
Kubuska112
Profil
Zechy:
Nevim jestli v době Googlu má cenu dělat nový vyhledávač :)
Jak už jsem psal - školní projekt a udevení do plného provozu
Zechy
Profil
Kubuska112:
To je jiná, ale to školní ti v přechozím příspěvku nějak vypadlo ;)
SeparateSK
Profil
[#2] SeparateSK
Stačí si to prečítať ,tam máš celý návod a nie ,že to cele preskočíš a prečítaš iba koniec.
(body 2,3,4,5,6) - bez tých bodov nebude tvoj vyhladávač fungovať resp. bez bodu 2,4 nenájde nič
Nechápem ,čo viac ešte chceš ako návod.
Kubuska112
Profil
SeparateSK:
čo viac ešte chceš ako návod.
tak dik no...

Vaše odpověď


Prosím používejte diakritiku a interpunkci.

Ochrana proti spamu. Napište prosím číslo dvě-sta čtyřicet-sedm: