Autor Zpráva
JoK1955
Profil *
Zdravím všechny.
Dostávám pdf stránky regionálních novin a z nich vytahuji články na web. V poslední době se stává, že místo velkých písmen jsou malá (aditor přešel na novější verzi QuarkXpress), což v příjmeních (zejména autorů) docela vadí (NOVÁK je v datech jako NOváK nebo nOváK nebo nOVÁk etc.)
Řešil jsem problém náhrady iniciál autorů a to tak, že jsem použil sed se souborem náhrad např.
s/(jab,/Jana BALKOVÁ, / g
s/jab,/Jana BALKOVÁ, / g
s/J. BALKOVÁ/Jana BALKOVÁ,/ g
s/(syš)/Sylva ŠKARDOVÁ/ g
s/(peh)/Petr HOLÝ/ g
Stejně by šla vyřešit i náhrada oněch příjmení... si myslím... ale nevím jak to napsat :-(
Zkusil jsem
s/<KkAaSsLlOoVvÁá>/KASLOVÁ/ g
a nepochodil....
Poradíte někdo, pls? Díky

JoK
Joker
Profil
JoK1955:
Použijte ještě moditikátor i (ignore case)
s/<kaslová>/KASLOVÁ/ ig
Nejsem si jistý, jaký je tohle typ regulárních výrazů, ale nějak tak by to mohlo fungovat.
JoK1955
Profil *
Joker:
Úžasné. Funguje. Díky moc.
JoK
Tori
Profil
JoK1955:
Případně jestli tímto způsobem zpracováváte pouze jméno autora (a ne např. jméno autora uvnitř dalšího textu), šlo by to zjednodušit - první příkaz nahradí všechna jména končící na -ý, -á, -ů, -ých (Novotný, Novotných, Kaslová, Janů), ve druhém si vypíšete ostatní jména jako alternativy:
s/\([^ .,:!?)]\+\(ý\|á\|ých\|ů\)\)\([ .,]\|$\)/\U\1\3/ig
s/novák\|kozel\|fryntová/\U&/ig

Vaše odpověď


Prosím používejte diakritiku a interpunkci.

Ochrana proti spamu. Napište prosím číslo dvě-sta čtyřicet-sedm: