平均符号長の解説

1. 平均符号長とは?

平均符号長は、符号化されたデータの「1記号あたりの平均的なビット数」を表します。
情報源の各記号に割り当てられた符号語の長さと、その記号の出現確率を使って計算します。

2. 平均符号長の計算式

$$ L = \sum_{i} p_i \ell_i $$ ($p_i$:記号$i$の確率, $\ell_i$:記号$i$の符号語長)

3. 具体例

例えば、次のような情報源があるとします:
記号確率 $p_i$符号語符号語長 $\ell_i$
A0.501
B0.25102
C0.25112
この場合、平均符号長は
$$ L = 0.5 \times 1 + 0.25 \times 2 + 0.25 \times 2 = 1.5 $$
A:0 B:10 C:11 確率:0.5 確率:0.25 確率:0.25

4. 平均符号長とエントロピーの関係

エントロピー $H(X)$ は情報源の理論的な最小平均符号長を示します。
$$ H(X) = -\sum_{i} p_i \log_2 p_i $$
平均符号長 $L$ は $H(X)$ 以上になります($L \geq H(X)$)。
ハフマン符号など最適符号化では $L$ は $H(X)$ に近づきます。

5. 平均符号長の応用と重要性

平均符号長はデータ圧縮効率や通信路設計の評価指標として重要です。
平均符号長が短いほど、効率的な符号化・圧縮ができていることを意味します。

6. 専門的な内容:クラフトの不等式・最適符号化

クラフトの不等式: プレフィックス符号の設計条件。
$$ \sum_{i} 2^{-\ell_i} \leq 1 $$
最適符号化: 平均符号長を最小化する符号設計(例:ハフマン符号)。