Diskuse JPW: Služba která vytáhne ze stránky pouze textový obsah?

	Autor	Zpráva
	watchick Profil	#1 · Zasláno: 12. 8. 2011, 23:01:10 Odpovědět Citovat Zdravím, hledám službu/technologii, která by dokázala ze stránky vyextrahovat pouze její text (jako to vidí prohlížeče). Nevíte někdo o něčem? Děkuji
	Stano Profil	#2 · Zasláno: 13. 8. 2011, 08:00:30 Odpovědět Citovat najskôr použiješ file_get_contents() a potom pomocou preg_replace() najskôr zrušíš všetky js a potom všetko čo je medzi <>
	1Pupik1989 Profil	#3 · Zasláno: 13. 8. 2011, 08:26:45 Odpovědět Citovat file_get_contents() nebo curl použít na načtení, pak vybrat elementy pres preg_match_all(). Pokud to nepotřebujete z text z každého elementu, tak stačí načíst stranu a použít strip_tags(),ten vyrusi vsechny a nechă pouze text. Třetí možnost je naučit se DomDocument.
	watchick Profil	#4 · Zasláno: 13. 8. 2011, 10:10:08 Odpovědět Citovat Díky za odpovědi, to je samozřejmě varianta, mne spíše zajímalo, zda-li není nějaký open-source "jak stránku vidí prohlížeče"
	Tori Profil	#5 · Zasláno: 13. 8. 2011, 10:53:28 Odpovědět Citovat watchick: „pouze její text (jako to vidí prohlížeče)“ Jak to přesně myslíte? Prohlížeč přece „vidí“ zdroják (takže zmíněné file_get_contents, nebo cURL funkce). Jinak file_get_contents bude imho nepoužitelné u stránek, kde se část obsahu tahá JavaScriptem.
	watchick Profil	#6 · Zasláno: 13. 8. 2011, 16:39:27 Odpovědět Citovat Omlouvám se: vyhledávače
	margin Profil *	#7 · Zasláno: 13. 8. 2011, 16:56:58 Odpovědět Citovat A to takovou službu chceš provozovat,, nebo jen využívat? Co vlastně zamýšlíš?
	watchick Profil	#8 · Zasláno: 13. 8. 2011, 20:20:26 Odpovědět Citovat využívat, potřebuji získat textový náhled stránky pro agregátorové účely
	Joker Profil	#9 · Zasláno: 13. 8. 2011, 21:05:32 · Upravil/a: Joker Odpovědět Citovat Ad regulární výrazy: Získávat text ~~ze stránky~~ z HTML regulárními výrazy je jednak docela pakárna a jednak docela prasárna. Stačí si najít nějaký PHP HTML parser. watchick: „potřebuji získat textový náhled stránky pro agregátorové účely“ Nebyl by na to lepší RSS výstup? U mnoha stránek výsledkem převedení jejich kódu na prostý text bude pořádný chaos.
		Časová prodleva: 14 let

Vaše odpověď

Mohlo by se hodit