Autor | Zpráva | ||
---|---|---|---|
xlifer Profil |
#1 · Zasláno: 25. 8. 2010, 13:22:15
Neznáte nějaký dobře napsaný regulární výraz, který dokáže ze zdrojového kódu webu odstranit HTML a PHP, tak aby zůstal jen obsah?
|
||
Johnik Profil |
#2 · Zasláno: 25. 8. 2010, 14:04:09
Nejjednoduseji vymazes vsechno mezi < a >. Ale kdyz v textu bude jeden z tech znaku pouzit jinak (treba porovnavani vetsi, mensi), tak to skonci chybou. Ale stale se to podle me da ohlidat rucne, nez psat vsechny html tagy (<(\?|\?php|a|b|u|i|....).
|
||
Joker Profil |
#3 · Zasláno: 25. 8. 2010, 14:14:35
Johnik:
„Nejjednoduseji vymazes vsechno mezi < a >“ To byla i moje první myšlenka, jenže to nebude fungovat na PHP kód (ani třeba Javascript), protože tam je > docela hojně používaný operátor. Možná v prvním kole odstranit vše mezi <? a ?>, ve druhém vše mezi <script> a </script> a ve třetím vše mezi < a > - a co zůstane je obsah. Není-li o zdrojovém kódu známo nic bližšího, šel bych na to přes parser a ne regulární výraz. Související: Diskuse, zda používat regulární výrazy pro parsování HTML |
||
Tori Profil |
#4 · Zasláno: 25. 8. 2010, 14:16:09
xlifer:
„tak aby zůstal jen obsah“ anebo nejdřív vyjmout obsah <body> (případně divu s obsahem), a pak teprv viz [#2], aby vám nezůstalo něco jako: Nadpis stránkya {text-decoration:none;}DomůProduktyKontaktTady začíná obsah stránky ..... (nevím, co přesně myslíte obsahem) |
||
Trejpa Profil |
#5 · Zasláno: 25. 8. 2010, 15:07:37
Tori:
Stránka ale nemusí obsahovat značku <body>, musí obsahovat jen element body. |
||
joe Profil |
#6 · Zasláno: 25. 8. 2010, 15:37:56
Zobrazit stránku v prohlížeči, vypnout její styl a obsah zkopírovat. Bude to asi nejlepší způsob.
Proč? Protože v PHP může být přece tohle: <?php echo '<b>Nějaký text</b>'; ?> Vymazání všeho by tak mohlo způsobit, že smaže i nějaký obsah a to je zřejmě nechtěnné. |
||
Časová prodleva: 14 let
|
0