Autor Zpráva
watchick
Profil
Zdravím,
hledám službu/technologii, která by dokázala ze stránky vyextrahovat pouze její text (jako to vidí prohlížeče).

Nevíte někdo o něčem?
Děkuji
Stano
Profil
najskôr použiješ
file_get_contents()
a potom pomocou
preg_replace()
najskôr zrušíš všetky js a potom všetko čo je medzi <>
1Pupik1989
Profil
file_get_contents() nebo curl použít na načtení, pak vybrat elementy pres preg_match_all(). Pokud to nepotřebujete z text z každého elementu, tak stačí načíst stranu a použít strip_tags(),ten vyrusi vsechny a nechă pouze text. Třetí možnost je naučit se DomDocument.
watchick
Profil
Díky za odpovědi,
to je samozřejmě varianta, mne spíše zajímalo, zda-li není nějaký open-source "jak stránku vidí prohlížeče"
Tori
Profil
watchick:
pouze její text (jako to vidí prohlížeče)
Jak to přesně myslíte? Prohlížeč přece „vidí“ zdroják (takže zmíněné file_get_contents, nebo cURL funkce).
Jinak file_get_contents bude imho nepoužitelné u stránek, kde se část obsahu tahá JavaScriptem.
watchick
Profil
Omlouvám se: vyhledávače
margin
Profil *
A to takovou službu chceš provozovat,, nebo jen využívat? Co vlastně zamýšlíš?
watchick
Profil
využívat, potřebuji získat textový náhled stránky pro agregátorové účely
Joker
Profil
Ad regulární výrazy: Získávat text ze stránky z HTML regulárními výrazy je jednak docela pakárna a jednak docela prasárna.
Stačí si najít nějaký PHP HTML parser.

watchick:
potřebuji získat textový náhled stránky pro agregátorové účely
Nebyl by na to lepší RSS výstup?
U mnoha stránek výsledkem převedení jejich kódu na prostý text bude pořádný chaos.

Vaše odpověď


Prosím používejte diakritiku a interpunkci.

Ochrana proti spamu. Napište prosím číslo dvě-sta čtyřicet-sedm:

0