21. září bude sraz! Od 18.00 v restauraci Tradice v Praze u Anděla
Autor Zpráva
smitka
Profil
Prozkoumal jsem 65 tisíc českých Wordpress webů, které jsou nějakým způsobem dohledatelné (vedou na ně backlinky) a pokoušel jsem se zjistit, jakou verzi WP používají, na jaké jsou šabloně, jaké pluginy mají nainstalované a další zajímavé věci.

Z výsledků jsem sepsal článek: http://lynt.cz/blog/wordpress-v-cz-velky-pruzkum
smitka
Profil
Původní metodou zkoumání pluginů nebylo možné odhalit bezpečnostní pluginy. Udělal jsem tedy test zaměřený přímo na ně a doplnil výstup do článku. Použití bezpečnostního pluginu jsem detekoval na 6% webů.

http://lynt.cz/blog/wordpress-v-cz-velky-pruzkum#bezpecnostni-pluginy
smitka
Profil
Článek doplněn o data z Google PageSpeed Insights - http://lynt.cz/blog/wordpress-v-cz-velky-pruzkum#pagespeed
smitka
Profil
Přidal jsem ještě jedno číslo - na kolika ze zkoumaných webů je Google AdSense.

Projel jsem tedy stažené kódy ještě jednou a hledal reklamní kódy - ty jsem nalezl na 9% ze zkoumaných webů.
MONTYCEK
Profil
smitka:
mohu se zeptat k čemu je to dobré?
smitka
Profil
Slouží to k podobnému účelu, ke kterému slouží i jiné průzkumy.

Pro někoho to může být jen zajímavé. Někdo může začít brát problematiku bezpečnosti více vážně. Pro některé tvůrce webů to může být příležitost, jak klientům nabídnout služby, které potřebují. Pro nějaké klienty to může být příležitost, jak rozpoznat lajdácké správce webů a zbavit se jich.

Dává to prostě obrázek, jak vypadá současný stav a může to být motivací, aby někdo něco začal dělat pro zlepšení.
Jan Kozák
Profil
Mně se článek líbil, rád jsem si pak přečetl i jeho aktualizace. Ten odkaz vítám. Po čase tu máme článek bez rušivých chyb, povídání, za kterým je vidět pořádný kus práce.

Zajímalo by mě, jak by si u těch jednotlivých měřených kritérií vedl Wordpress s konkurenčními řešeními (Joomla, Drupal…), případně u kritérií, u kterých by to mělo smysl, by mohlo být zajímavé srovnání s weby, které tyto systémy nevyužívají.
smitka
Profil
V databázi máme aktuálně zhruba 22 tisíc webů, které se tváří, že běží na Joomla a zhruba 5500 tvářících se jako Drupal, ale neprobíhalo hledání dalších podle odkazů a mnoho jich detekovaný systém reálně používat nemusí.

Možná v budoucnu uděláme nějaké srování. Předpokládal bych, že Drupal weby na tom budou v ohledu rychlosti lépe než WP, přeci jen se zde nepoužívá takové množství pluginů a je zde cachování již v základu. Joomly, které jsem dosud potkal, byly buď velmi jednoduché nebo podivně splácané...

Pro mě je hlavní výhoda WP jeho uživatelská přívětivost. Drupal umí málo lidí dobře nakonfigurovat a Joomlu zase mnoho koncových uživatelů nezvládá rozumě ovládat...

Bohužel tyto systémy neznám natolik, abych dokázal udělat tak podrobnou analýzu.

Pokud se rozhodnu udělat nějaký další průzkum, dám sem určitě vědět.
smitka
Profil
Do průzkumu jsem přidal další zajímavé číslo - testoval jsem, kolik webů používá Object Cache Backend, pro zvýšení výkonu pomocí object cache dostupné na serveru. Díky drop-inu pro úpravu práce s WP_Object_Cache lze značně snížit počet dotazů do databáze a tím jednoduše zvýšit výkon systému.

Používá ho pouze 1% webů.
Amunak
Profil
Skvělý článek a zajímavý průzkum, díky.

Trochu mě mrzí, že nějak víc nebyla rozvedená přesná metoda sbírání dat a hledání webů. Taky by se mi líbilo, kdyby člověk mohl zjistit, jestli byl jeho web zahrnut v průzkumu, a případně v jakých místech se na grafech objevuje.

Když jsem to včera v noci dočetl měl jsem ještě nějakou drobnou připomínku, ale už si ji nepamatuji :-)

Jen tak dál.
Taurus
Profil
Nemyslím, že je toto fórum vhodné pro neustálé aktualizace jednoho článku cizího webu.
Moderátor Chamurappi: Mně to rušivé nepřijde.
smitka
Profil
Amunak:
Pravda, mohl bych to podrobněji popsat...

Každopádně to bylo tako:

1) vzali jsme náš index .cz stránek (cca 300 000), ručně jsme ho obohatili o další weby z katalogu na seznamu, toplistu, navrcholu a několika dalších menších zdrojů (jako třeba různá fóra, kde si lidné nechávají hodnotit své weby) a pár vyhledávání v google (na výrazy obsahující blog atd.) - vyšlo něco přes 400 000 webů

2) skript v pythonu je začal procházet (navštěvovat hlavní stránky) a dělal následující věci:
- zjišťoval, zda se jedná o český web - je na doméně .cz nebo obsahuje lang="cs-CZ" (pokud web nevyhovoval těmto kritériím, tak zde bot svoji cestu zastavil, aby se cesta příliš nerozvětvila na milióny dalších zahraničních webů a bylo možné analýzu dokončit v konečném čase)
- pokud ano, tak otestoval zda by se mohlo jednat o WP (podle toho, že obsahuje řetězec wp-content) - pokud tomu tak bylo, uložil doménu do seznamu pro další zkoumání
- dále vytáhnul všechny odkazy href= a rozdělil je na interní a externí, ty interní dále navštívil a vytáhnul další externi odkazy (šel pouze do jedné úrovně - na podstránky na které vede odkaz z hlavní stránky)
- nalezené externí odkazy (domény) předal do seznamů pro návštěvu a jelo se znova

- touto metodou jsem nalezl hlavně různé tématické weby, které si na sebe sdílí odkazy - nejčastěji různé web věnující se seriálům, klubové stránky a často i reference různých web studií, kam jsem se dostal před patičkové odkazy

3) potom co již nebylo nalézáno příliš nových webů (kolem desítky za den) jsem robota zastavil. Celkem bylo navštíveno něco přes 3 milony webů.

4) připravil jsem robota pro analýzu, toho jsem tentokrát udělal v PHP (ani nevím proč, byl by asi vhodnější jiný jazyk), ten stahoval zdrojový kód hlavní stránky a testoval zvolené parametry (u toho se pokoušel stahovat i další soubory, když bylo třeba - readme.html atd).
Také zkoumal, zda se jedná opravdu o WP - zjistil jsem že hledání wp-content není nejlepší volba, protože mnoho webů, které na WP neběží, obsahuje jen třeba obrázek z jiného WP webu. K rozhodnutí složilo ještě zda je v kódu generator="Wordpress xx", nebo /wp-content/themes a /wp-content/plugins, některé nejisté weby jsem ještě zkontroloval ručně. Vyřadilo se zhruba 6000 webů.

5) udělal jsem první výstupy a následně dopisoval další testy. Některé vyžadovaly opětovné navštívení webu, takže byl použit upravený bot v pythonu

Ověření, zda byl web testován je dobrý nápad, mohl bych tak nasbírat další weby, které mi unikly :-)

Vaše odpověď


Prosím používejte diakritiku a interpunkci.

Ochrana proti spamu. Napište prosím číslo dvě-sta čtyřicet-sedm:

0