AWK

Technology
12 hours ago
8
4
2
Avatar
Author
Albert Flores

AWK je skriptovací jazyk a nástroj pro manipulaci a transformaci textových souborů. Je to jeden z nejstarších a nejběžněji používaných nástrojů pro textovou analýzu a zpracování v unixových systémech. AWK je vybaven sadou funkcí a operátorů pro extrakci, transformaci a formátování informací v textových souborech. Výraz AWK je zkratkou z anglického názvu "Aho, Weinberger a Kernighan" - jména tří autorů tohoto nástroje. AWK byl poprvé popsán v roce 1977 a začal být součástí BSD unixových systémů. Od té doby byl AWK dále vyvíjen a vylepšován, a ve verzi AWK/GNU je součástí balíčku GNU Core Utilities. AWK umožňuje definovat jednoduché nebo složitější vzorce a pravidla, která se aplikují na vstupní textový soubor. Tyto vzorce mohou obsahovat podmínky, které určují, jaká data se mají zpracovávat a jakou operaci na ně aplikovat. AWK také umožňuje vytvářet a manipulovat s proměnnými a polemi, což poskytuje velkou škálu možností pro transformaci a analýzu dat. AWK je často používán pro extrakci konkrétních informací z textových souborů, například vyhledávání, filtrování, formátování a zobrazování dat v tabulkové formě. Nástroj AWK je také integrován do mnoha dalších programovacích jazyků, jako je Perl, Python nebo Ruby, a slouží jako podporující nástroj pro práci s textem. AWK je velmi flexibilní a silný nástroj, který je stále využíván v unixových a linuxových systémech pro různé úlohy manipulace a analýzy textu.

AWK je univerzální počítačový jazyk, navržený pro zpracovávání textových dat, ať už v podobě textových souborů nebo proudů. Název AWK je odvozen z příjmení svých tvůrců, kterými jsou Alfred V. Aho, Peter J. Weinberger a Brian W. Kernighan.

AWK je příkladem jazyka, který značně využívá řetězcové datové typy, asociativní pole (tj. pole indexovaná řetězcovými klíči) a regulární výrazy. +more Síla, stručnost a omezení programů v AWK a skriptů v sedu inspirovaly Larryho Walla k vytvoření jazyka Perl.

AWK je jedním z prvních nástrojů v UNIXu verze 7 a popularitu si získal tím, že umožnil přidat aritmetické schopnosti UNIXové rouře. AWK je standardní součástí téměř každého dnešního operačního systému unixového typu. +more Implementace AWK jsou jako instalovaný software dostupné také pro většinu dalších operačních systémů.

Struktura programů v AWK

Obecně vzato jsou programu awk předány dva druhy dat: příkazový soubor a primární vstupní soubor. Příkazový soubor (kterým může být buď skutečný soubor, nebo jej lze zadat přímo na příkazovém řádku) obsahuje sérii příkazů, které awk říkají, jak má být vstupní soubor zpracován. +more Primární vstupní soubor je obvykle nějakým způsobem naformátovaný text a může jím být buď existující soubor, nebo jej AWK čte ze standardního vstupu. Typický program v AWK sestává z posloupnosti řádků ve tvaru:.

/vzor/ { akce }

…kde vzor je regulární výraz a akce zastupuje příkaz(y). AWK prochází vstupní soubor. Najde-li řádek vyhovující vzoru, provede příkaz(y) uvedené v akci. Dalšími možnostmi jsou:

BEGIN { akce } : Provede příkazy akce na začátku běhu skriptu ještě před tím, než jsou zpracována vstupní data. END { akce } : Podobně jako v předchozím případě, ale akce se provede až na konci běhu skriptu. +more /vzor/ : Vypíše všechny řádky vyhovující vzoru. { akce } : Provede akci pro každý vstupní řádek.

Každý z těchto zápisů může být v příkazovém souboru použit i víckrát. Řádky jsou v příkazovém souboru zpracovávány postupně, takže existují-li dvě konstrukce BEGIN, provede se nejprve první, poté druhá a pak se teprve provedou ostatní řádky. +more BEGIN a END nemusí být umístěny před a za ostatními řádky příkazového souboru.

Příkazy AWK

Příkazy AWK se umisťují namísto akce v předchozích příkladech. Příkazy AWK zahrnují volání funkcí, přiřazování do proměnných, provádění výpočtů či libovolnou kombinaci z nich. +more Podporuje mnoho vestavěných funkcí a mnoho dalších je k dispozici v nejrůznějších odrůdách. Některé verze AWK podporují dynamicky linkované knihovny, poskytující mnoho dalších funkcí.

Pro stručnost jsou v následujících příkladech vynechány složené závorky ({}).

Příkaz print

Příkaz print slouží k vypsání textu. Nejjednodušší formou příkazu je:

print

Toto zapříčiní vypsání zpracovávaného řádku. V AWK jsou řádky rozděleny na jednotlivá pole (sloupce), tyto je možno vypisovat zvlášť:

print $1 : Vypíše první pole (sloupec) zpracovávaného řádku. print $1, $3 : Vypíše první a třetí sloupec zpracovávaného řádku. +more Jako oddělovač je použit předdefinovaný řetězec zvaný output field separátor (oddělovač výstupního pole) (OFS), jehož implicitní hodnotou je znak jedné mezery.

Ačkoli tato pole ($X) mohou vypadat jako proměnné (v Perlu označuje symbol $ proměnné), ve skutečnosti se odkazují na pole zpracovávaného řádku. Zvláštním případem je $0 označující celý řádek. +more Ve skutečnosti jsou příkazy „print“ a „print $0“ svou funkcí identické.

Příkaz print může zobrazit také výsledek výpočtů nebo volání funkce:

print 3+2 print foobar(3) print foobar(proměnná) print sin(3-2)

Výstup lze přesměrovat do souboru:

print "výraz" > "název souboru"

Interní proměnné

AWK má interní proměnné, které mají speciální význam:

FS - Field Separator : Oddělovač polí v záznamu (Výchozí je mezera, tabulátor.)

RS - Record Separator : Oddělovač záznamů (Výchozí je znak nové řádky '\n'.)

NF - Number of Fields : Počet polí v aktuálně prováděném záznamu

NR - Number of Records : Pořadí prováděného záznamu

Proměnné atd.

Názvy proměnných lze sestavit ze znaků [A-Za-z0-9_] s výjimkou klíčových slov jazyka. Operátory + − * / označují (v pořadí) součet, rozdíl, součin a podíl. +more Pro spojování řetězců se jednoduše umístí dvě proměnné (nebo řetězcové konstanty) vedle sebe, volitelně s mezerou mezi nimi. Řetězcové konstanty jsou ohraničeny uvozovkami. Příkazy nemusí být ukončeny středníky. A konečně, komentáře lze do programu vložit pomocí znaku # na začátku řádku.

Uživatelsky definované funkce

Podobně jako v jazyku C je deklarace funkce složena z názvu funkce a jejích argumentů:

function pricti_tri (cislo ,temp) { temp = cislo + 3 return temp }

Funkci pak lze zavolat následovně:

print pricti_tri(36) # vypise 39

Funkce může obsahovat lokální proměnné. Jejich názvy jsou pak uvedeny na konci seznamu argumentů, ačkoli jejich hodnoty by měly být při volání funkce vynechány. +more Konvencí je přidat před lokální proměnné nějaké bílé znaky, aby bylo zřejmé, kde končí parametry a začínají lokální proměnné.

Ukázkové programy

Zde je tradiční program Hello world, napsaný v AWK:

BEGIN { print "Hello, world!" }

Následující program vypíše všechny řádky delší 80 znaků. Povšimněte si, že výchozí akcí je vypsání aktuálního řádku.

length > 80

Spočítání řádků, slov a znaků:

{ w += NF; c += length} END { print NR, w, c }

Součet prvního sloupce ze vstupu:

{ s += $1 } END { print s }

Četnost výskytu slov (s využitím asociativních polí):

{ for (i=1; i

Verze a implementace AWK

Původní jazyk AWK vznikl v roce 1977 a byl distribuován s Unixem verze 7.

V roce 1985 jej začali jeho autoři rozšiřovat, nejvýznamnější změnou bylo přidání uživatelsky definovaných funkcí. Jazyk je popsán v knize The AWK Programming Language, vydané v roce 1988 a jeho implementace byla dostupná v UNIX System V. +more Aby se zabránilo zmatkům s nekompatibilitou se starší verzí, byla tato verze občas označována jako „new awk“ (nová awk) nebo nawk. Tato implementace byla v roce 1996 uveřejněna pod licencí svobodného software a dodnes je spravována Brianem Kernighanem.

GNU awk, neboli gawk, je další svobodnou implementací. Vznikl před tím, než byla svobodně dostupná originální implementace a dodnes je široce používán.

mawk je velmi rychlá implementace Mika Brennana, založená na interpretru byte kódu.

Literatura

[url=http://knihy. cpress. +morecz/pocitac/Book. asp. ID=1193]awk & sed: Příručka pro dávkové zpracování textu, Helmut Herold[/url] , [url=http://cpress. cz]Computer Press[/url], 2004 * [url=http://www. ics. muni. cz/bulletin/issues/vol05num05/brandejs/brandejs. html]Programovací jazyk textových manipulací: awk - dobrý český webový AWK tutoriál[/url] * [url=http://www. ucw. cz/~hubicka/skolicky/skolicka20. html]Hubičkova školička: AWK[/url].

Externí odkazy

[news:comp. lang. +moreawk comp. lang. awk] je diskusní skupina na USENETu, zaměřená na awk. * [url=http://www. gnu. org/software/gawk/gawk. html]Domovská stránka GAWK (GNU Awk)[/url] * [url=https://web. archive. org/web/20060418234040/http://freshmeat. net/projects/mawk/]Stránka umožňující stažení mawk[/url] * [url=http://www. abclinuxu. cz/clanky/unixove-nastroje-21-awk]Unixové nástroje - 21 (awk)[/url].

Kategorie:Unix Kategorie:Doménově specifické jazyky

5 min read
Share this post:
Like it 8

Leave a Comment

Please, enter your name.
Please, provide a valid email address.
Please, enter your comment.
Enjoy this post? Join Cesko.wiki
Don’t forget to share it
Top