吕青璇夹著笔的手指收紧了一圈。
“什么印象?”
“之前犯病的时候,好像画过类似的东西。”林墨挠了挠后脑勺,“就那种……多个智能体之间怎么分配任务、怎么协调的框架。”
教室前排,教授的ppt已经翻到了苏美尔泥板文书的图片。没人在听。至少后三排没人在听。
吕青璇的呼吸节奏变了,快了半拍。
她把笔记本往林墨那边推了推,指尖落在流程图中间一个標著红色问號的节点上。
“这个位置。多个智能体在博弈环境下做实时决策,存在一个纳什均衡的收敛问题。当智能体数量超过一百个,现有的算法框架算力消耗会呈指数级爆炸。”
她的声音压得很低,语速却比平时快了不少。
“我导师的联合课题组在这个位置卡了將近一年。全世界做多智能体强化学习的团队,没有一个交出过满意的解法。”
她停了一下。
“你画的那个框架里,这个问题是怎么处理的?”
林墨听完,脸上的表情复杂得很。
他確实有印象。
不是那种清清楚楚的记忆,更像是做过一个很真实的梦,醒来之后大部分內容都散了,只剩几个画面残片。
但偏偏这个“收敛问题”,他脑子里留了个影。
不是公式,不是代码,是一种直觉。
“分层。”
这个字从嘴里冒出来的时候,林墨自己都愣了一下。
“分层?”吕青璇的笔停了。
【写到这里我希望读者记一下我们域名追书就上101看书网,101??????。??????超讚】
“对……把一百个智能体按照任务类型分成几个小组,每个小组內部先达成局部最优,然后小组之间再做一次全局协调。”
林墨边说边用手指在桌面上画。
“就是別让一百个一起算,拆开。先让十个一组自己搞定內部分工,然后十个组长再坐一块开个会,把大方向定了。这样算力不就下来了?”
他说完抬起头,看见吕青璇整个人僵在那儿。
手里的笔悬在半空,一动不动。
“怎么了?”林墨被她的反应弄得心里发毛,“我说的不对?”
吕青璇没回答。
她脑子里正在进行高速运算。
分层博弈。局部纳什均衡先行收敛,再通过层间通信机制实现全局协调优化。
这个思路……
不是没有人提过。早在三年前,mit的一篇预印论文里就有过类似的模糊构想。但那篇论文的作者自己都在结论部分承认,分层后的层间信息损失问题无法解决,最终放弃了这个方向。
全世界的研究者看完那篇论文,也跟著放弃了。
但林墨刚才那句话——“十个组长坐一块开个会”——这种大白话背后的逻辑,恰恰指向了一种全新的层间通信协议。
如果用博弈论的语言翻译过来:每个子群在完成局部纳什均衡后,只向上层传递压缩后的策略摘要,而非完整的状態空间信息。