next token prediction等于压缩的原因是对每个词预测的越准,词的不确定度就越小,平均每个词的熵就越小。平均每个词的最短编码长度就越小。
Prediction and entropy of printed English - Shannon 1951
其中
上面的
qemu,ffmpeg作者写的压缩工具: ts_zip: Text Compression using Large Language Models
GitHub - erika-n/GPTzip: An implementation of LLMzip using GPT-2