Diskuse JPW: Jak vyjmout obsah stránky bez HTML a PHP kódu?

	Autor	Zpráva
	xlifer Profil	#1 · Zasláno: 25. 8. 2010, 13:22:15 Odpovědět Citovat Neznáte nějaký dobře napsaný regulární výraz, který dokáže ze zdrojového kódu webu odstranit HTML a PHP, tak aby zůstal jen obsah?
	Johnik Profil	#2 · Zasláno: 25. 8. 2010, 14:04:09 Odpovědět Citovat Nejjednoduseji vymazes vsechno mezi < a >. Ale kdyz v textu bude jeden z tech znaku pouzit jinak (treba porovnavani vetsi, mensi), tak to skonci chybou. Ale stale se to podle me da ohlidat rucne, nez psat vsechny html tagy (<(\?\|\?php\|a\|b\|u\|i\|....).
	Joker Profil	#3 · Zasláno: 25. 8. 2010, 14:14:35 Odpovědět Citovat Johnik: „Nejjednoduseji vymazes vsechno mezi < a >“ To byla i moje první myšlenka, jenže to nebude fungovat na PHP kód (ani třeba Javascript), protože tam je > docela hojně používaný operátor. Možná v prvním kole odstranit vše mezi <? a ?>, ve druhém vše mezi <script> a </script> a ve třetím vše mezi < a > - a co zůstane je obsah. Není-li o zdrojovém kódu známo nic bližšího, šel bych na to přes parser a ne regulární výraz. Související: Diskuse, zda používat regulární výrazy pro parsování HTML
	Tori Profil	#4 · Zasláno: 25. 8. 2010, 14:16:09 Odpovědět Citovat xlifer: „tak aby zůstal jen obsah“ anebo nejdřív vyjmout obsah <body> (případně divu s obsahem), a pak teprv viz [#2], aby vám nezůstalo něco jako: Nadpis stránkya {text-decoration:none;}DomůProduktyKontaktTady začíná obsah stránky ..... (nevím, co přesně myslíte obsahem)
	Trejpa Profil	#5 · Zasláno: 25. 8. 2010, 15:07:37 Odpovědět Citovat Tori: Stránka ale nemusí obsahovat značku <body>, musí obsahovat jen element body.
	joe Profil	#6 · Zasláno: 25. 8. 2010, 15:37:56 Odpovědět Citovat Zobrazit stránku v prohlížeči, vypnout její styl a obsah zkopírovat. Bude to asi nejlepší způsob. Proč? Protože v PHP může být přece tohle: <?php echo '<b>Nějaký text</b>'; ?> Vymazání všeho by tak mohlo způsobit, že smaže i nějaký obsah a to je zřejmě nechtěnné.
		Časová prodleva: 14 let

Vaše odpověď

Mohlo by se hodit