KolmogorovComplexity - cccbook/py2gpt GitHub Wiki

ccc:

雖然 ChatGPT , Claude 這類的 LLM 很有用,但是背後的理論是個謎

LLM 可以看成一個『容錯的語料壓縮技術』,就像 JPEG 一樣。

但是因為容錯,所以不需要是無損壓縮,因此和 Kolmogorov complexity 所說的壓縮是不同的。

所以像 Ilya 將 LLM 類比為 Kolmogorov complexity 時,必須要注意機率式壓縮的這個特性。

如果從『高階馬可夫模型』來進行理論分析,或許會有些數學結果出來。

我想未來有可能會有『高階馬可夫模型的機率式 Kolmogorov Complexity 壓縮分析』這樣的數學出現 ...

請問有這方面的研究相關資訊嗎?

ChatGPT:

我問 ChatGPT ,果然有這樣的研究

更多論文

ccc: 如果不用容忍重建時的小概率錯誤,而是用類似 Huffman 編碼那樣,只是改用變動長度壓縮,類似 lz77 那樣,但是又是機率式的,用高階馬可夫模型來壓縮整個語料庫,有這樣的研究主題或領域嗎?

ChatGPT: https://chatgpt.com/c/674fb688-e8f8-8012-98e8-b23458de97a2