next token prediction等于压缩的原因是对每个词预测的越准,词的不确定度就越小,平均每个词的熵就越小。平均每个词的最短编码长度就越小。

Prediction and entropy of printed English - ‎Shannon 1951

其中是任意一个n-1个词的序列,是下一个词,是给定上文N-1个词的情况下,对下一个词的条件概率,或者说是一个N-gram的语言模型。
上面的其实就是条件熵,。也就是在这种语言中,连续N个词的序列的熵,减去N-1个词的序列的熵。

压缩算法入门

qemu,ffmpeg作者写的压缩工具: ts_zip: Text Compression using Large Language Models


2306.04050.pdf

GitHub - erika-n/GPTzip: An implementation of LLMzip using GPT-2