题目

请结合强化学习基础相关内容展开思考,正文不少于100字。

如果我们要设计一个“辅导高中生写数学作业”的 AI 智能体,你会如何设计它的奖励函数(Reward Function)?如果 AI 为了拿高分,直接把最终答案“喂”给学生,导致学生失去思考过程,你应该如何修改奖励机制来防止这种“作弊”?

提交要求

请同学们按照以下三个步骤完成作业:

  1. 闭卷阶段:在不借助任何工具书和大模型的情况下,写出自己对题目的理解。
  2. 开卷阶段:在可以查看 PPT 的情况下,再次写出自己的理解。
  3. 参考模型:将任务输给大模型,获得大模型视角下的理解。

将以上三部分内容整理到一个文档中,加上比较和分析,最终在 Canvas 平台提交一份 Word 文档。可接受后缀名:.doc.docx