反饋

GPT-3.5

GPT-3.5 是 OpenAI 設計的一系列 NLP 模型中的第四個。此前還出現了 GPT-1、GPT-2 和 GPT-3。

在 2022 年，OpenAI 的預訓練語言模型之路，又出現了顛覆式的迭代，產生了技術路線上的又一次方向性變化。

GPT 3.5 基於人工標註數據 + 強化學習的推理和生成。在人工標註訓練數據的基礎上，再使用強化學習來增強預訓練模型的能力。強化學習，簡單理解就是做對了獎勵、做錯了懲罰，不斷根據系統的打分來更新參數，從而產生越來越高質量的回答。所以人們在互動中發現，ChatGPT 會承認錯誤、會修改自己的答覆，這正是因為它具備從人類的反饋中強化學習並重新思考的能力。^[1]