报告题目:带约束深度强化学习求解在线装箱问题
报 告 人:徐凯教授 国防科技大学
报告时间:2020/10/15 9:40-10:20
报告地点:腾讯会议ID:129 960 052 密码:1230
或点击链接入会:
https://meeting.tencent.com/s/5lCKST0qZSKW
校内联系人:伍铁如wutr@jlu.edu.cn
报告摘要:
本次报告介绍基于带约束深度强化学习实现在线装箱(码垛)问题的求解。装箱问题是一个经典的NP难题。我们聚焦该问题的一个更难的变种——在线装箱问题,即智能体仅能看到即将摆放的有限个箱子,而无法观察到完整的箱子序列,因而很难实现全局优化。同时,一个箱子到来时,智能体必须马上将其摆放好,不允许临时暂存或反复调整。此外,箱子的摆放还必须考虑到箱子间的碰撞和垛体的稳定性。我们将该问题形式化为一个带约束的马尔可夫决策过程。为求解该问题,提出了一种简单且有效的带约束强化学习方法:基于actor-critic框架,提出了“预测-投影”的带约束策略学习方法。该方法训练一个网络来预测可摆放区域作为辅助任务,并用预测的可摆放区域来调制强化学习的动作输出。大量实验表明,该方法在空间利用率、摆放数量和决策时间等方面都远优于已有的、基于启发式规则的方法。此外,我们的方法还可以很容易地扩展到前瞻k个箱子,多垛体同时摆放,以及允许箱子方向调整等诸多情形。
报告人简介:
徐凯,国防科技大学教授。2011年于国防科大计算机学院获得博士学位。西蒙弗雷泽大学、普林斯顿大学访问学者。研究方向为数据驱动的几何处理与建模、三维视觉及其机器人应用等。发表ACM SIGGRAPH/Transactions on Graphics论文20余篇。共发表CCF A类论文40余篇。担任ACM Transactions on Graphics、Computer Graphics Forum、Computers and Graphics和The Visual Computer等期刊的编委。担任CAD/Graphics 2017、ISVC 2018等国际会议的论文共同主席,以及SIGGRAPH、Eurographics等国际会议的程序委员。现任中国图象图形学会三维视觉专委会副主任,中国工业与应用数学学会几何设计与计算专委会秘书长。曾获湖南省自然科学一等奖、军队科技进步二等奖、全军优秀博士论文奖、几何设计与计算青年学者奖、湖湘青年英才奖、陆增镛CAD&CG高科技奖二等奖。获国家优秀青年基金和湖南省杰出青年基金。