LZW

Technology
12 hours ago
8
4
2
Avatar
Author
Albert Flores

LZW84 (Lempel-Ziv-Welch 84) je bezeztrátový kompresní algoritmus vyvinutý Abrahamem Lempelem, Jacobem Zivem a Terry Welchem. Byl publikován v roce 1984 jako vylepšení algoritmů LZ77 a LZ78 publikovaných v letech 1977 a 1978. Je relativně jednoduchý a rychlý, ale nedosahuje zdaleka tak dobré komprese jako náročnější algoritmy jako LZMA, je většinou horší než Deflate a neprovádí analýzu dat. Data prošlá algoritmem LZW84 jsou dále nekomprimovatelná, toto je rozdíl oproti algoritmu LZ77, po kterém lze data dále komprimovat pomocí algoritmu Huffman nebo podobného. Algoritmus byl až do roku 2004 zatížený patentem, dnes je patent prošlý, ale algoritmus byl mezitím překonán. Byl využíván (a je částečně dodnes) v archívech ARC a ZOO, starých verzích ZIPu (PKZIP 0.x a 1.x), unixovém komprimačním programu compress (soubory s příponou „Z“), grafickém formátu GIF a dokumentech PDF.

Popis algoritmu

Algoritmus nepotřebuje žádný slovník. Při kompresi a dekompresi si pouze vytváří pomocný seznam frází. +more Jedinou další informaci, kterou potřebuje znát, je seznam znaků, ze kterých si má vytvořit jednoznakový seznam frází (typicky 256 znaků ASCII). Algoritmus se tak hodí především pro síťové účely, kde ještě není znám konec přijímaných dat, ale jejich začátek už se může dekomprimovat.

Komprese

Nejdříve se do nalezených frází zapíší všechny znaky abecedy. Pro demonstraci budeme předpokládat, že má abeceda pouze znaky a, b, c a d. +more Poté se opakují následující kroky, dokud je na vstupu text.

# Na vstupu se najde nejdelší fráze, která je už zapsaná v nových frázích, a její index se zapíše na výstup. # Nalezená fráze se pak ze vstupu odstraní. +more # Jako nová fráze se pak zapíše nalezená fráze + první znak ze vstupu.

a0
b1
c2
d3
+1abacdacacadaada0ab
2bacdacacadaadb1ba5
3acdacacadaada0ac6
4cdacacadaadc2cd7
5dacacadaadd3da8
6acacadaadac6aca9
7acadaadaca9acad10
8daadda8daa11
9ada0ad12
10dd3
Výstupem je pak řetězec 0102369803.

Dekomprese

Opět je nejprve potřeba zapsat do nových frází všechny znaky abecedy. My budeme vycházet opět z abecedy obsahující znaky a, b, c a d. +more Poté se opakují následující kroky, dokud je na vstupu číslo.

# Ze vstupu se odstraní číslo a na výstup se přidá odpovídající fráze (podle seznamu frází, které už jsou). # Jako nová fráze se doplní ta z minulého kroku + první znak fráze z tohoto kroku.

a0
b1
c2
d3
10a
21bab4
30aba5
42cac6
53dcd7
66acda8
79acaaca9
88daacad10
90adaa11
103dad12
Výstupem je pak řetězec abacdacacadaad.

Tento postup má však jednu výjimku. Pokud je na vstupu větší číslo, než je index poslední nalezené fráze, vloží se znovu na výstup poslední výstup + jeho první znak. +more To samé se přidá také do nových frází.

Odkazy

Reference

SOBOTA, Branislav, MILIÁN, Ján: Grafické formáty, nakl. Kopp, zejm. +more str. 37 a 75. * [url=http://phoenix. inf. upol. cz/~outrata/download/programs/lzw. txt]Kompresni metoda LZW - navrh implementace[/url].

Související články

LZ77 * LZ78 * Deflate * LZMA * Huffmanovo kódování * GIF

Externí odkazy

Kategorie:Kompresní algoritmy Kategorie:Zkratky

5 min read
Share this post:
Like it 8

Leave a Comment

Please, enter your name.
Please, provide a valid email address.
Please, enter your comment.
Enjoy this post? Join Cesko.wiki
Don’t forget to share it
Top