强化学习中的奖励设计哲学 - 走近大模型 / 学森挑战计划导论课程

题目

请结合强化学习基础相关内容展开思考，正文不少于100字。

如果我们要设计一个“辅导高中生写数学作业”的 AI 智能体，你会如何设计它的奖励函数（Reward Function）？如果 AI 为了拿高分，直接把最终答案“喂”给学生，导致学生失去思考过程，你应该如何修改奖励机制来防止这种“作弊”？

请同学们按照以下三个步骤完成作业：

将以上三部分内容整理到一个文档中，加上比较和分析，最终在 Canvas 平台提交一份 Word 文档。可接受后缀名：.doc、.docx。