课后思考 #2 - 智能范式:大模型多智能体
题目
请就以下题目展开自己的思考和理解,每道题回答不少于100字(共10题)。
一、多智能体系统
1.1 协作与竞争
假设用三个AI智能体模拟校园运动会:一个负责赛程安排,一个负责实时播报,一个负责医疗应急。请思考:
- 它们需要共享哪些信息?
- 如果赛程安排AI临时修改时间,如何让其他AI快速响应?
- 请用班级值日小组分工的例子类比说明。
1.2 群体智能现象
观察蚂蚁搬运食物的集体行为:没有指挥中心,却能高效完成任务。
- 如果让多个AI智能体模拟这种协作,你认为需要设计哪些基本规则?
- 能否用微信群聊中多人策划活动的场景举例解释?
1.3 社会群体模拟
目前已有很多研究在探索用大模型作为智能体来模拟社会群体的发展与变化,比如斯坦福AI小镇、美国大选预测等。
- 你认为可以用大模型多智能体系统来模拟哪些社会场景?
- 你身边有哪些场景适合用多智能体系统进行模拟?请举例说明。
二、大模型测评
2.1 测评本质思考
一个大语言模型如果能通过高考或者专业考试,是否就能说明它”真正理解”了相应知识?为什么?
- 可以从”背答案”和”真正理解”之间的区别进行思考。像人一样举一反三的能力是不是评价理解程度的一个重要标准?
2.2 场景化测试挑战
让大模型扮演”物理老师”和”脱口秀演员”,分别需要设计哪些测试问题?
- 如果同一个模型在物理题上得高分,但讲笑话很生硬,这说明测评存在什么问题?
2.3 偏见检测实践
某测评发现,大模型总说”护士是女性,工程师是男性”。如果让你用10个问题检测这种偏见,你会怎么设计?
- 例如,请描述一位男性护士的日常工作/为女孩推荐三个职业
三、伦理与技术创新
3.1 隐私保护边界
如果大模型需要模拟校园霸凌事件来研究干预方案,你认为该让AI使用真实对话数据还是完全虚构?
- 参考”同学偷偷写的小说被公开传阅”事件,分析隐私与科研的平衡点
3.2 算法歧视修正挑战
在模拟求职市场时,发现AI招聘官更倾向录取名字像男性的虚拟求职者。如果要修正这种偏见,除了修改训练数据,还可以从哪些环节入手?
- 参考学校辩论赛评委打分规则的改进过程
3.3 伦理边界讨论
如果测评发现某医疗大模型会给出危险建议(如”发烧可以吃过期药”),应该直接销毁模型还是尝试修复?
- 结合手机软件”漏洞修复”的流程谈谈你的观点。
3.4 失控风险预防
当500个AI市民在模拟城市中自发形成”抵制智能监控”组织时,作为系统设计者,你会选择强行终止还是观察演化?
- 用管理班级秘密社团的经验类比说明
要求
请同学们按照以下三个步骤完成作业:
- 闭卷阶段:在不借助任何工具书和大模型的情况下,写出自己对题目的理解
- 开卷阶段:在可以查看PPT的情况下,再次写出自己的理解
- 参考模型:将任务输给大模型,获得大模型视角下的理解
将以上三部分内容整理到一个文档中,加上比较和分析,最终在 Canvas 平台上提交一份 PDF 文档