与一般问题求解相比,智能规划更注重于问题的求解过程,而不是求解结果。与强化学习问题不同,规划问题假设环境模型是已知的。
智能规划问题的难度取决于如下假设条件的强弱:①行动是确定性的还是非确定性的?对于非确定性行动,行动结果的概率是否可获得?②状态变量是连续的还是离散的?③当前状态是否完全可观察?④初始状态的数目是有限的还是无限的?⑤一个时刻能执行一个行动还是多个行动?⑥规划的目标是到达一个目标状态还是最大化期望回报?⑦环境中有一个智能体还是多个智能体?对于多智能体系统,还需要进一步考虑智能体间是合作的还是对抗的,规划过程是分布式的还是集中式的,智能体间是否存在通信等。
经典规划问题是最简单的规划问题,它考虑的是单一智能体从单一初始状态出发,每一时刻采取单一的确定性行动,到达目标状态所需执行的行动序列。STRIPS和PDDL是两种表示经典规划问题的语言。前向状态空间搜索、后向相关状态搜索和偏序规划是求解经典规划问题的常见算法。离散时间的马尔可夫决策过程在经典规划的基础上,减弱了假设条件①和⑤,即假设行动是不确定性的。部分可观测马尔可夫决策过程在马尔可夫决策过程的基础上,进一步减弱了假设条件③,即假设状态是部分可观察的。马尔可夫决策过程和部分可观测马尔可夫决策过程属于概率规划模型,常用求解方法有值迭代和策略迭代等。当环境中有多个智能体时,则为多智能体规划,这是一个与博弈论紧密相关的研究领域。另外,从不同的角度,还可以把规划分为离线规划、在线规划、分层规划和基于偏好的规划等。
联系客服