05b ChatGPT - cccbook/py2gpt GitHub Wiki

ChatGPT

ChatGPT - Explained!
- ChatGPT 有用強化學習的 Proximal Policy Optimization (PPO)，然後又用了 reward model 去評量結果。
Chat GPT Rewards Model Explained!
ChatGPT and Reinforcement Learning
What does GPT in ChatGPT do?

陳鍾誠於金門大學資訊工程系 -- 本書衍生自維基百科與 Karpathy 的 micrograd 與 minGPT ，採用 CC: BY-SA 授權

⚠️ GitHub.com Fallback ⚠️