Diskuse JPW: Regular expression - \n\r v reguláru nebo knihovna p

	Autor	Zpráva
	maarlin Profil	#1 · Zasláno: 24. 6. 2009, 16:13:47 · Upravil/a: maarlin Odpovědět Citovat Zdravím, mám následující string (odpověď IMAP serveru): --001485f3c1f82c29a1046d17d944 Content-Type: text/plain ... Hlavička: obsah ... .. zde je odřádkování \n\r .. libovolný obsah .. opět \n\r .. --001485f3c1f82c29a1046d17d94b Content-Type: image/png ... Hlavička: obsah ... .. zde je odřádkování \n\r .. base64-coded obsah přílohy Řeším, jak z té odpovědi vyparsovat zvlášť: 1) jednotlivé ID zpráv (dle dvojité pomlčky a 28bitového řetězce [0-9a-f]{28}) 2) hlavičky (klidně célé hlavičky ve stringu, s tím už si dokážu pohrát 3) obsah (ať už MIME-coded textový obsah mailu, nebo base64-coded obsah přílohy) Použil bych preg_match_all() a v reguláru modifikátor "s", ovšem dosud mi není jasné, jak v reguláru zmínit přímo ten nový řádek (\n\r). /(.)\n\r/is nevyhoví, /(.)\\n\\r/is taky ne, co s tím udělat, jak to escapovat, aby to vyhovělo? Moje ideální (doufám že ne idealistická) představa je, že bych z toho dokázal dostat něco následujícího: array ( [0] => array ( ['id'] => "001485f3c1f82c29a1046d17d944", ['headers'] => "Content-Type: text/html\nContent-Transfer-Encoding: ....", ['content'] => "testovac=ED obsah textov=E9ho mailu" ), [1] => array ( ['id'] => "001485f3c1f82c29a1046d17d94b", ['headers'] => "Content-Type: image/png\nContent-Transfer-Encoding: ....", ['content'] => "iVBORw0KGgoAAAANSUhEUgAAAJEAAAA0CAIAAA..." ) ); Pokud někdo případně znáte nějakou knihovnu na práci s IMAP (bez PHP IMAP extension), která umí takto parsovat maily, zmiňte se o ní, prosím. S vyjímkou této: http://www.phpclasses.org/browse/file/9635.html kterou částečně využívám, ovšem ta prakticky neumí pracovat s přílohami a bídně s textem mailu. Díky za každou radu.
	Jan Tvrdík Profil	#2 · Zasláno: 24. 6. 2009, 20:55:30 Odpovědět Citovat maarlin: Celé jsem to nestudoval, ale zkus nahradit /(.)\n\r/is za /(.?)\n\r/is. Třeba ti to pomůže alespoň trochu.
	Yur4Y Profil	#3 · Zasláno: 24. 6. 2009, 21:01:08 Odpovědět Citovat Myslím, že nový riadok bude \r\n, nie \n\r.
	PCRE Profil *	#4 · Zasláno: 24. 6. 2009, 21:26:03 Odpovědět Citovat A co /^(.*)$/is - modifikátor s by měl způsobit ukotvení na začátek a konec řádku
	Aesir Profil	#5 · Zasláno: 24. 6. 2009, 23:34:35 Odpovědět Citovat maarlin: „Pokud někdo případně znáte nějakou knihovnu“ Mrkněte na PEAR knihovny, obzvláště Mail_mimeDecode, jsou trochu staršího data, ale poměrně spolehlivé.
	lordfrikk Profil	#6 · Zasláno: 25. 6. 2009, 10:23:13 Odpovědět Citovat Dej mi kus testovacího textu (ne ten pseudo s vysvětlivkami nahoře) a jak chceš aby to vypadalo, a já ti tady ten regex napíšu.
	maarlin Profil	#7 · Zasláno: 25. 6. 2009, 15:36:15 Odpovědět Citovat 2lordfrikk: Beru tě za slovo, tady máš nějaký skutečný testovací text: --0016363b9c86b8b081046d1b0639 Content-Type: multipart/alternative; boundary=0016363b9c86b8b072046d1b0637 --0016363b9c86b8b072046d1b0637 Content-Type: text/plain; charset=ISO-8859-2 Content-Transfer-Encoding: quoted-printable Tady m=E1=B9 v=B9echny obr=E1zky. --0016363b9c86b8b072046d1b0637 Content-Type: text/html; charset=ISO-8859-2 Content-Transfer-Encoding: quoted-printable Tady m=E1=B9 v=B9echny obr=E1zky. --0016363b9c86b8b072046d1b0637-- --0016363b9c86b8b081046d1b0639 Content-Type: image/jpeg; name="image.jpg" Content-Disposition: attachment; filename="image.jpg" Content-Transfer-Encoding: base64 X-Attachment-Id: f_fwc9l7fo0 /9j/4AAQSkZJRgABAQEASABIAAD/2wBDAAEBAQEBAQEBAQEBAQEBAQEBAQEBAQEBAQEBAQEBAQEB AQEBAQEBAQEBAQEBAQEBAQEBAQEBAQEBAQEBAQEBAQH/2wBDAQEBAQEBAQEBAQEBAQEBAQEBAQEB AQEBAQEBAQEBAQEBAQEBAQEBAQEBAQEBAQEBAQEBAQEBAQEBAQEBAQEBAQH/wgARCACAAHUDAREA AhEBAxEB/8QAHgAAAQQDAQEBAAAAAAAAAAAACAUGBwkCAwQBCgD/xAAdAQABBQEBAQEAAAAAAAAA / zkrácený base64-coded text / --0016363b9c86b8b081046d1b0639 Každá příloha (0016363b9c86b8b081046d1b0639) má evidentně své ID z obou stran (na začátku i na konci) - něco jako párový tag. Samotné textové zprávy (0016363b9c86b8b072046d1b0637) mají identifikátor jen na začátku. Pravděpodobně příloha vždy přísluší konkrétní zprávě dle konkrétního ID (ačkoliv nevím proč se musí vázat, když těžko pošlu přes běžného mailového klienta více než jednu zprávu ve dvou formátech plain/html). Čili všechny přílohy asi začínají identifikátorem zprávy odděleným z obou stran dvěma pomlčkami: --0016363b9c86b8b072046d1b0637-- Jinak ještě každý celý element (tj. příloha nebo textová zpráva) je oddělen od dalšího \n\r, jak už jsem zmínil. Moje představa je dostat přibližně toto (je jedno jak budou pole seřazené a různě vnořené, s tím už si pohraju): array ( [0] => array ( ['id'] => "0016363b9c86b8b081046d1b0639", ['headers'] => "Content-Type: multipart/alternative; boundary=0016363b9c86b8b072046d1b0637", ['content'] => "" ), [1] => array ( ['id'] => "0016363b9c86b8b072046d1b0637", ['headers'] => "Content-Type: text/plain; charset=ISO-8859-2\nContent-Transfer-Encoding: quoted-printable", ['content'] => "Tady m=E1=B9 v=B9echny obr=E1zky." ) [2] => array ( ['id'] => "0016363b9c86b8b072046d1b0637", ['headers'] => "Content-Type: text/html; charset=ISO-8859-2\nContent-Transfer-Encoding: quoted-printable", ['content'] => "Tady m=E1=B9 v=B9echny obr=E1zky." ) [3] => array ( ['id'] => "0016363b9c86b8b081046d1b0639", ['headers'] => "Content-Type: image/jpeg; name="image.jpg"\nContent-Disposition: attachment; filename="image.jpg"\nContent-Transfer-Encoding: base64\nX-Attachment-Id: f_fwc9l7fo0", ['content'] => "/9j/4AAQSkZJRgABAQEASABIAAD/2wBDAAEBAQEBAQEBAQEBAQEBAQEBAQEBAQEBAQEBAQEBAQEB..." ) ); Doufám, že zkrácený base64 text nevadí, jelikož podstatu už snad vystihuje dostatečně a nerad bych diskuzi rozvinul na dalších X stránek :)
	MrVain Profil	#8 · Zasláno: 25. 6. 2009, 15:59:08 Odpovědět Citovat Keep It Simple ;) http://us3.php.net/manual/en/function.explode.php
	maarlin Profil	#9 · Zasláno: 25. 6. 2009, 16:20:04 Odpovědět Citovat 2MrVain: Kdyžtak Keep It Smart and Simple => KISS ... ;-) Znám fci explode a napadlo mě její použití, ale co mě nenapadlo, je podle čeho to spolehlivě rozsekat? Dvě pomlčky? Co když náhodou bude v těle emailu třeba zrovna v podpisu --? Třeba Gmail to tam s oblibou dává... O rozsekání přes \r\n ani nemluvím, to by v těle mailu klidně mohlo být... Čili asi nejspolehlivější řešení bude přes reguláry - dvě pomlčky a přesná definice 28bit kódu [0-9a-f]{28} zakončená \n, potom hlavičky zakončené asi prázdným řádkem, pak obsah a čekání na další definici 28bit kódu [0-9a-f]{28} zakončenou \n.
	Aesir Profil	#10 · Zasláno: 25. 6. 2009, 16:22:57 Odpovědět Citovat A jak jsem psal v [#5], tak už je to dávno hotové a vymyšlené, stačí zavolat jednu metodu.
	maarlin Profil	#11 · Zasláno: 25. 6. 2009, 22:58:39 Odpovědět Citovat 2Aesir: Nevím zda jsi tu knihovnu zkoušel použít... Prakticky neumí pracovat s přílohama... Nakonec jsem jednotlivé zprávy/elementy rozsekal přes split ("\r\n--[^\n-.]{28}\n?\r?", $content);
	MrVain Profil	#12 · Zasláno: 26. 6. 2009, 12:21:11 · Upravil/a: MrVain Odpovědět Citovat [#9] boundary MUSIS poznat vzdy uz davno predtym podla specifikacie takze regexp dost blbost. ;) mail@dxin.org
	Aesir Profil	#13 · Zasláno: 26. 6. 2009, 12:23:34 Odpovědět Citovat maarlin „2Aesir: Nevím zda jsi tu knihovnu zkoušel použít...“ Ano, používám ji aktivně, jinak bych ani nehodnotil její spolehlivost :) „Prakticky neumí pracovat s přílohama...“ Ano a ani to nemá v popisu práce, jen rozseká na jednotlivé části hlavičky a jejich těla e-mailu podle oddělovačů, najít si v nich přílohu už musíte sám. Dělá vysloveně jen to, co jste vyžadoval od prvního příspěvku. Přílohy následně nacházím normálně podle content-type a content-disposition hlaviček.
	maarlin Profil	#14 · Zasláno: 26. 6. 2009, 14:18:41 · Upravil/a: maarlin Odpovědět Citovat Aesir Nechtěl jsem ani od knihovny, aby mi "zpracovávala" přílohy v tom smyslu, že je nějak hned nabídne ke stažení, dokáže z nich udělat stažitelný soubor, soupis všech příloh v podobě odkazů apod... Problém byl bohužel v tom, že pokud jsem třídě předal kompletně celý řetězec (odpověď od IMAP serveru) - tj. všechny zprávy, tak dokázala vrátit jen první element - definici boundary a jednu, popř. dvě textové zprávy (text/plain, text/html), ovšem samotná/é příloha/y (s base64-encoded obsahem) jakoby pro něj neexistovaly. Nakonec, jak jsem psal výše, vyřešil jsem to tak, že elementy rozsekávám přes split() dle toho reguláru a pak jednotlivé části teprve předávám knihovně pro zpracování... a pokud zjistím, že jde o přílohu (dle patřičných hlaviček), přihodím ji do pole a pak to pole následně přes foreach() zpracovávám... MrVain Asi máš pravdu, když se nad tím trochu zamyslím, teoreticky by se to dalo řešit via explode(), ale asi by to bylo na delší lokte a testování... takhle když hned na začátku mám - spolehlivě - rozsekané jednotlivé elementy, mám o starost míň a můžu si to dál zpracovávat... U explode bych to řekněme rozdělil přes \r\n, pak každou část ještě znova rozdělit na řádky přes \n, první řádek bude identifikátor, zbytek hlavičky. Ovšem co se mezitím stalo se samotným textem mailu? ten může být klidně rozsekaný na 5 částí... a teď bych zase musel dávat ty části dohromady, zkoumat, jestli fakt první řádek je identifikátor a ne jen pokračování textu mailu... čili by stejně opět došlo na reguláry... potřebuju vědět, jestli na první řádku je tvar "dvě pomlčky" a 28 jakýchkoliv znaků kromě pomlčky a \n, což určitě přes explode neudělám... Nebo bys to řešil jinak? Pochopil jsem tvou úvahu špatně?
	Aesir Profil	#15 · Zasláno: 26. 6. 2009, 14:30:53 Odpovědět Citovat maarlin: „ovšem samotná/é příloha/y (s base64-encoded obsahem) jakoby pro něj neexistovaly“ V tom případě jste nejspíš nenastavil parametr include_bodies na true, jak se píše v dokumentaci.
	maarlin Profil	#16 · Zasláno: 26. 6. 2009, 15:02:30 Odpovědět Citovat Aesir Aha, trochu jsem přehlédl definici té hlavní metody decode()... konkrétně tuto část... $this->_include_bodies = isset($params['include_bodies']) ? $params['include_bodies'] : false; Původně jsem totiž viděl konstruktor: function Mail_mimeDecode($input) { list($header, $body) = $this->_splitBodyHeader($input); $this->_input = $input; $this->_header = $header; $this->_body = $body; $this->_decode_bodies = true; $this->_include_bodies = true; } , podle kterého bych tipoval, že bude _include_bodies nastaveno na true při každém volání třídy... jenže tyhle hodnoty by se použily asi jen v případě, kdy bych tu metodu volal staticky... Moje chyba... Moje blbost... Nakonec jsem ale i pro mime-decoding použil jinou, vyGooglenou třídu, která uměla (i bez PEARu) vše, co potřebuji, jen jsem ji lépe předhodil rozsekané zvlášť ty elementy a měla i nějakou základní podporu příloh, kterou jsem taky upravil trochu k obrazu svému... http://www.weberdev.com/get_example-1607.html Takže s tímto řešením víceméně spokojenost... :-) Díky všem za váš čas a rady. ;)
	MrVain Profil	#17 · Zasláno: 27. 6. 2009, 19:23:43 · Upravil/a: MrVain Odpovědět Citovat Myslel som rozsekat podla boundary a netreba ti triedu. Specifikacie su dobry pomocnik, vela sa tam clovek dozvie. ;) http://tools.ietf.org/html/rfc2046#section-5.1.1 Ozaj tvoja trieda pouziva stary "nebezpecny" posix aby si potom v buducnosti neprepisoval opat. ;) http://sk2.php.net/manual/en/intro.regex.php Niet zaco. :D mail@dxin.org
		Časová prodleva: 16 let

Vaše odpověď

Mohlo by se hodit