Autor | Zpráva | ||
---|---|---|---|
watchick Profil |
#1 · Zasláno: 12. 8. 2011, 23:01:10
Zdravím,
hledám službu/technologii, která by dokázala ze stránky vyextrahovat pouze její text (jako to vidí prohlížeče). Nevíte někdo o něčem? Děkuji |
||
Stano Profil |
#2 · Zasláno: 13. 8. 2011, 08:00:30
najskôr použiješ
file_get_contents() preg_replace() |
||
1Pupik1989 Profil |
#3 · Zasláno: 13. 8. 2011, 08:26:45
file_get_contents() nebo curl použít na načtení, pak vybrat elementy pres preg_match_all(). Pokud to nepotřebujete z text z každého elementu, tak stačí načíst stranu a použít strip_tags(),ten vyrusi vsechny a nechă pouze text. Třetí možnost je naučit se DomDocument.
|
||
watchick Profil |
#4 · Zasláno: 13. 8. 2011, 10:10:08
Díky za odpovědi,
to je samozřejmě varianta, mne spíše zajímalo, zda-li není nějaký open-source "jak stránku vidí prohlížeče" |
||
Tori Profil |
#5 · Zasláno: 13. 8. 2011, 10:53:28
watchick:
„pouze její text (jako to vidí prohlížeče)“ Jak to přesně myslíte? Prohlížeč přece „vidí“ zdroják (takže zmíněné file_get_contents, nebo cURL funkce). Jinak file_get_contents bude imho nepoužitelné u stránek, kde se část obsahu tahá JavaScriptem. |
||
watchick Profil |
#6 · Zasláno: 13. 8. 2011, 16:39:27
Omlouvám se: vyhledávače
|
||
margin Profil * |
#7 · Zasláno: 13. 8. 2011, 16:56:58
A to takovou službu chceš provozovat,, nebo jen využívat? Co vlastně zamýšlíš?
|
||
watchick Profil |
#8 · Zasláno: 13. 8. 2011, 20:20:26
využívat, potřebuji získat textový náhled stránky pro agregátorové účely
|
||
Joker Profil |
#9 · Zasláno: 13. 8. 2011, 21:05:32 · Upravil/a: Joker
Ad regulární výrazy: Získávat text
Stačí si najít nějaký PHP HTML parser. watchick: „potřebuji získat textový náhled stránky pro agregátorové účely“ Nebyl by na to lepší RSS výstup? U mnoha stránek výsledkem převedení jejich kódu na prostý text bude pořádný chaos. |
||
Časová prodleva: 13 let
|
0