拡大情報源記号の解説
1. 拡大情報源記号とは?
拡大情報源記号とは、元の情報源の複数記号(例:2個、3個…)をまとめて1つの新しい記号として扱う方法です。
例:元の情報源が {A, B, C} なら、2記号拡大では {AA, AB, AC, BA, BB, ...} のような新しい記号集合を作ります。
2. なぜ拡大情報源を使うのか?
- 符号化効率の向上(平均符号長の短縮)
- エントロピーに近い符号化が可能
- 複雑な情報源(依存関係あり)でも最適符号化がしやすい
拡大することで、ハフマン符号などの最適符号化がより理論限界(エントロピー)に近づきます。
3. 拡大情報源の例
例:元の情報源 {A, B} の2記号拡大
新しい記号集合:{AA, AB, BA, BB}
各記号の確率は元の情報源の確率の積で計算します。
$$ P(AA) = P(A) \times P(A), \quad P(AB) = P(A) \times P(B) $$
4. 拡大情報源のメリット
- 平均符号長をエントロピーに近づけることができる
- 符号化の最適化(ハフマン符号など)で理論限界に近い圧縮が可能
- 情報源の依存関係(マルコフ情報源など)にも対応しやすい
まとめ: 拡大情報源記号は、情報理論でより効率的な符号化・圧縮を実現するための重要な手法です。
5. 専門的な内容:拡大情報源とエントロピーの関係
拡大情報源のエントロピー $H_n$ は、元の情報源のエントロピー $H$ に近づきます。
$$ H_n = \frac{1}{n} H(X^n) $$
$n$ を大きくすると、平均符号長は $H$ に限りなく近づきます。