平均符号長の解説
1. 平均符号長とは?
平均符号長は、符号化されたデータの「1記号あたりの平均的なビット数」を表します。
情報源の各記号に割り当てられた符号語の長さと、その記号の出現確率を使って計算します。
2. 平均符号長の計算式
$$ L = \sum_{i} p_i \ell_i $$
($p_i$:記号$i$の確率, $\ell_i$:記号$i$の符号語長)
3. 具体例
例えば、次のような情報源があるとします:
記号 | 確率 $p_i$ | 符号語 | 符号語長 $\ell_i$ |
A | 0.5 | 0 | 1 |
B | 0.25 | 10 | 2 |
C | 0.25 | 11 | 2 |
この場合、平均符号長は
$$ L = 0.5 \times 1 + 0.25 \times 2 + 0.25 \times 2 = 1.5 $$
4. 平均符号長とエントロピーの関係
エントロピー $H(X)$ は情報源の理論的な最小平均符号長を示します。
$$ H(X) = -\sum_{i} p_i \log_2 p_i $$
平均符号長 $L$ は $H(X)$ 以上になります($L \geq H(X)$)。
ハフマン符号など最適符号化では $L$ は $H(X)$ に近づきます。
5. 平均符号長の応用と重要性
平均符号長はデータ圧縮効率や通信路設計の評価指標として重要です。
平均符号長が短いほど、効率的な符号化・圧縮ができていることを意味します。
- ハフマン符号や算術符号などの設計・評価
- 通信路容量の計算
- 実用的なデータ圧縮技術の基礎
6. 専門的な内容:クラフトの不等式・最適符号化
クラフトの不等式: プレフィックス符号の設計条件。
$$ \sum_{i} 2^{-\ell_i} \leq 1 $$
最適符号化: 平均符号長を最小化する符号設計(例:ハフマン符号)。