Co je informace?
- Informace je množství poznatků nebo dat, které snižují neurčitost o nějaké události či stavu systému.
- V kvantifikované podobě se informace měří v jednotkách (nejčastěji bit). Jeden bit představuje rozhodnutí mezi dvěma stejně pravděpodobnými možnostmi.
- Teorie informace se zabývá množstvím informace, efektivním kódováním, přenosem přes kanály a ochranou proti chybám.
Měření informace — bit a další jednotky
- Bit (binary digit) – základní jednotka informace; 1 bit = informace, že jsme vybrali jednu z 2 rovných možností.
- Nat – jednotka založená na přirozených logaritmech (log e).
- Hartley – jednotka založená na logaritmu o základu 10.
- Převod: 1 bit = log₂(e) nat ≈ 0.6931 nat; ale v praxi se používá převážně bit.
Entropie (Shannonova entropie)
- Entropie popisuje průměrné množství informace (nejistoty) v náhodné proměnné X s diskrétním rozdělením p(x).
- Matematicky:
H(X) = -Σ p(x) · log₂ p(x)
(v bitech).
- Pokud jsou všechny symboly stejně pravděpodobné, entropie je maximální. Například spravedlivý hod mincí má entropii 1 bit.
- Příklad: mincí s pravděpodobností padnutí "hlava" p = 0,75 je entropie
H = −(0,75·log₂0,75 + 0,25·log₂0,25) ≈ 0,8113 bitu
.
Kódování a komprese
- Zdrojové kódování (source coding) se snaží reprezentovat data co nejkratším směrem podle jejich pravděpodobností (např. Huffmanovo kódování, aritmetické kódování).
- Bezeztrátová komprese (lossless) – data lze přesně obnovit (ZIP, PNG).
- Ztrátová komprese (lossy) – část informace je ztracena výměnou za vyšší kompresní poměr (JPEG, MP3); používá se tam, kde lidské vnímání toleruje drobné chyby.
- Shannonův limit: průměrná délka kódu nemůže být (ve střednědobém měřítku) menší než entropie zdroje; entropie určuje hranici nejefektivnější bezeztrátové komprese.
Kanál, šum a kapacita
- Komunikační kanál přenáší symboly ze zdroje k příjemci, přičemž může dojít k chybám (šumu).
- Kanalová kapacita (Shannonova kapacita) udává maximální rychlost přenosu informace (v bitech za sekundu) při dané úrovni šumu, za které lze dosáhnout libovolně nízké pravděpodobnosti chyby pomocí vhodného kódování.
- Pro spojitý kanál s šumem bílým Gaussianem platí Shannon–Hartleyova formule:
C = B · log₂(1 + S/N)
, kde B je šířka pásma, S/N je poměr signálu k šumu (SNR).
Detekce a oprava chyb
- Praktické přenosy používají kódování pro detekci a opravu chyb:
- Detekční kódy: kontrolní součty, parity, CRC (cyclic redundancy check) – umí zjistit chyby, ale obvykle je neopraví.
- Opravné kódy: Hammingovy kódy, Reed–Solomon, konvoluční kódy, LDPC – umožňují opravit některé chyby bez opětovného zaslání dat.
- Výběr kódu je kompromis mezi redundancí (přidanými bity), možností opravy chyb a složitostí dekodéru.
Redundance a efektivita
- Redundance = rozdíl mezi maximální možnou entropií a skutečnou entropií zdroje; vyjadřuje opakující se či předvídatelné části dat.
- Vyšší redundance usnadňuje detekci a opravu chyb, ale zhoršuje kompresní poměr; systémová optimalizace hledá vyvážený kompromis.
Praktické příklady a aplikace
- Datová komprese (archivy, média), kódování v síťových protokolech, zabezpečení přenosu, ukládání dat a RAID systémy.
- Multimédia: použití ztrátových algoritmů (MP3, JPEG) s ohledem na psychofyzikální vlastnosti lidského vnímání.
- Strojové učení a měření informace: entropie a křížová entropie se používají jako metriky při učení modelů.
Základní vzorce (rychlý přehled)
- Entropie:
H(X) = -Σ p(x) log₂ p(x)
- Průměrná délka kódu ≥ H(X) (Shannonův limit pro bezeztrátové kódování).
- Shannon–Hartley:
C = B · log₂(1 + S/N)
(kapacita kanálu se šumem).