课后思考 #3 - 强化学习中的奖励设计哲学
题目
请结合强化学习基础相关内容展开思考,正文不少于100字。
如果我们要设计一个“辅导高中生写数学作业”的 AI 智能体,你会如何设计它的奖励函数(Reward Function)?如果 AI 为了拿高分,直接把最终答案“喂”给学生,导致学生失去思考过程,你应该如何修改奖励机制来防止这种“作弊”?
提交要求
请同学们按照以下三个步骤完成作业:
- 闭卷阶段:在不借助任何工具书和大模型的情况下,写出自己对题目的理解。
- 开卷阶段:在可以查看 PPT 的情况下,再次写出自己的理解。
- 参考模型:将任务输给大模型,获得大模型视角下的理解。
将以上三部分内容整理到一个文档中,加上比较和分析,最终在 Canvas 平台提交一份 Word 文档。可接受后缀名:.doc、.docx。