Autor Zpráva
spona
Profil *
Ahoj, mám nebo spíšpotřebuji radu. Jakým způsobem se řeší to když potřebuju vytahnout určitý text ze zdrojovéhého kódu např.:
vstup:
HTML kód .... <h2><a href="http://www.seznam.cz">Seznam.cz</a></h2> ... pokračování HTML kódu

výstup:
Potřebuji vytáhnout adresu která se nachází v href="" v tomto případě http://www.seznam.cz. S touto adresou budu poté dále pracovat.

Druhý případ se bude asi řešit stejně, ale i tak ho se zeptám jedná se o totožný příklad chci vytáhnout vše co se nachází mezi tagy h2.

Tuším, že se to bude dat nějak vyřešit přes regulární výrazy, ale můj dotaz zní vůbec na to?

Děkuji za všechny vaše odpovědi
Jan Tvrdík
Profil
spona:
Řeší se to (jak jsi ostatně sám uvedl) pomocí regulárních výrazů. Pro jejich studium můžeš navštívit třeba web www.regularnivyrazy.info/.
spona
Profil *
Jan Tvrdík:
Ano právě tam jsem a studii a napsal jsem si tento regulár <h2>[a-zA-Z0-9.-]{1,}</h2> a tímto řeším ten druhý případ ale už semi nedaří dodělat ten regulár tak aby mi vyřešil i ten první případ.
Jan Tvrdík
Profil
spona
Zkus něco jako: #href="(.+?)"#
spona
Profil *
Jan Tvrdík:
Děkuji to mi dost pomohlo a ještě mám další dotaz. Jak můžu v reguláru povolit i mezeru když mám toto: <h2>[a-zA-Z0-9.-]{1,}</h2> když za tu pomlčku dám mezeru <h2>[a-zA-Z0-9.- ]{1,}</h2> tak mi to hází chybu.
Jan Tvrdík
Profil
spona:
Pomlčka musí být na konci [a-zA-Z0-9. -].
Majkl578
Profil
Jan Tvrdík:
Nemusí, stačí ji escapovat.

Správně by ten regulár měl vypadat takto:
~\<h2\>[a-zA-Z0-9\.\- ]+\</h2\>~

{1,} je to samé jako +

Vaše odpověď

Mohlo by se hodit


Prosím používejte diakritiku a interpunkci.

Ochrana proti spamu. Napište prosím číslo dvě-sta čtyřicet-sedm:

0