语言模型与压缩

next token prediction等于压缩的原因是对每个词预测的越准，词的不确定度就越小，平均每个词的熵就越小。平均每个词的最短编码长度就越小。

其中是任意一个n-1个词的序列，是下一个词，是给定上文N-1个词的情况下，对下一个词的条件概率，或者说是一个N-gram的语言模型。
上面的其实就是条件熵，。也就是在这种语言中，连续N个词的序列的熵，减去N-1个词的序列的熵。

👾 xlinker's blog