随机控制
随机控制(stochastic control)或随机最优控制(stochastic optimal control)是控制理论中的一个领域,是针对有不确定性的系统进行控制,不确定性可能是在量测上,也有可能是因为噪声的影响。系统设计者会假设影响状态变数的随机噪声,(以贝叶斯概率的观点来看)其几率分布是已知的。随机控制的目的是在噪声存在的情形下,设计受控变数的时间轨迹,在最小成本的情形下(其成本可能会适有适当的定义)使系统完成预期的控制任务[1]。随机控制可能是配合离散时间系统,也可能是连续时间系统。
确定性等效
随机控制中最常被探讨的控制器是线性平方高斯控制(LQG控制),其模型为线性的,目标函数的期望值为二次性,而扰动是纯叠加性的。若是离散时间集中式系统,其不确定性是纯叠加性,有一个基本的特性为“确定性等效性质”(certainty equivalence property)[2]:其最佳控制的解和没有叠加性扰动下的解一样。所有线性系统方程、二次目标函数、噪声为纯叠加性的集中式系统中,确定性等效性质都会成立,二次目标函数的假设是让(配合确定性等效性质)的最佳控制律是控制器观测值的线性函数。
若有任何和上述假设不同的地方:非线性状态方程、非二次目标函数、乘数不确定性或是系统为分散式控制系统都会让确定性等效性质不成立。例如在分散式系统中的Witsenhausen反例就是说明确定性等效性质在分散式系统中不成立。
离散时间系统
在离散时间系统中,控制器会在每个时间周期观测状态变数(也可能包括估测噪声)。其目标可以针对所有时间内的非线性(可能是二次的)目标函数计算不同时间期望值的加权和,也可以只针对最后时间的目标函数进行最佳化。每个时间区间内会产生新的估测值,依最佳化的方式调整控制变数。找目前时间最佳解的作法是后向迭代计算线性平方高斯控制(矩阵Riccati方程),从最后的时间一直倒退迭代到目前时间。
考虑离散时间系统,其传递矩阵或控制响应矩阵中的参数有不确定性(因此状态变数的目前值会有变化),但仍然是线性状态函数以及二次性目标函数,仍然可以用每一个时间周期的解,用后向迭代的方式求解Riccati方程,不过可能没有确定性等效的特性[2]ch.13[3]。若离散时间系统的目标函数不是二次性的,但是只要处理加性不确定性,也可以进行随机控制,不过会比较复杂[4]。
例子
以下是一个典型的离散时间随机线性二次控制问题,要最小化[2]:ch. 13;[3][5]
其中E1为在y0条件下的期望值运算子,上标T表示是转置矩阵,S为时间区间,其状态方程如下
其中y是n × 1的可观察状态变数向量,u是k × 1的控制变数向量,At是时间t时的随机n × n状态转移矩阵的实现,Bt是时间t时的随机n × k控制乘数矩阵的实现,Q (n × n)和R (k × k)是已知的正定费用矩阵。假设A和B的每个元素都是在时间上联合的独立同分布,因此期望值运算不用考虑时间的条件。
可以用贝尔曼方程得到每个时间的最佳控制解[2]:ch. 13
配合对称正定cost-to-go矩阵X,从 开始,以倒退时间方式迭代,方程式为
这个就是此问题离散时间下的动态Riccati方程。有关矩阵A和B中未知参数所需要知道的资讯只有每个矩中每个元素的期望值、方差,同个矩阵不同元素的共变异数,以及不同矩阵中元素的共变异数。
若在状态方程中有平均值为0、独立且相同分布(i.i.d.)的加性扰动出现,只要和矩阵A和B的元素没有关系,此扰动不会影响最佳方程。假如扰动和矩阵有关,每个时间的最佳控制解会包括额外的加性常数向量。若加性常数向量出现在状态方程中,则每个时间的最佳控制解会再包括额外的加性常数向量。
X的稳态特征若存在,会和S延伸到无限大的的无限时间问题相关。可以用重复迭代动态方程中的X,一直到收敛为止来计算,此时的动态方程中的X就不用有关时间的下标了。
连续时间
若模型是连续时间下的系统,控制器知道系统在每一个时间下的状态。其目标可能是最大化状态变数凹函数(Concave Function)的在时间区间0到最后时间T之间的积分。随着时间的演进,会持续的观测到新的值,也会依最佳化的方式来调整控制变数。
随机模型预测控制
在文献中,有二种随机系统的模型预测控制:强健模型预测控制(Robust model predictive control)及随机模型预测控制(Stochastic Model Predictive Control,SMPC)。强健模型预测控制是较保守的方式,在最佳化过程中会考虑最差的情形,不过此方式和其他强健控制类似,会让整个控制器的性能变差,只适用不确定性有明确范围在系统。而随机模型预测控制是用软性的限制。是用几率的不等式来让违反限制的几率不会超过一定范围[6]。
金融的应用
在金融领域连续系统的研究中,随机微分方程的状态变数多半是财富或是净值,控制变数是不同时间下各资产的配置情形。给定任一时间下的资产配置,财富变化的决定因素是资产的随机收益以及无风险资产的利率。随机控制的领域在1970年代开始大幅发展,有不少人应用在金融上。Robert Merton用随机控制来研究安全资产以及风险资产的最佳投资组合[7]。Merton投资组合问题以及布莱克-舒尔兹模型改变了金融文献的特质。有影响力的相关数学教科书包括Wendell FlemingFleming及Rishel合著的教科书[8]、以及Fleming和Soner合著的教科书[9]。Jerome Stein将这些技巧应用在2007年–2008年环球金融危机[10]。
在最后日期T的净值期望值对数的最大值,和财富成分的随机过程有关。在连续系统中,伊藤引理是主要分析工具。若是要探讨在时间(0,T)内凹函数积分的最大值,会使用动态规划。这里没有类似较旧的文献的确定等效关系,因为控制变数的系数(所选资产份额所获得的回报)也是随机性的。
相关条目
参考文献
- ^ Definition from Answers.com. [2018-09-05]. (原始内容存档于2019-03-31).
- ^ 2.0 2.1 2.2 2.3 Chow, Gregory P. Analysis and Control of Dynamic Economic Systems. New York: Wiley. 1976. ISBN 0-471-15616-7.
- ^ 3.0 3.1 Turnovsky, Stephen. Optimal Stabilization Policies for Stochastic Linear Systems: The Case of Correlated Multiplicative and Additive disturbances. Review of Economic Studies. 1976, 43 (1): 191–94. doi:10.2307/2296614.
- ^ Mitchell, Douglas W. Tractable Risk Sensitive Control Based on Approximate Expected Utility. Economic Modelling. 1990, 7 (2): 161–164. doi:10.1016/0264-9993(90)90018-Y.
- ^ Turnovsky, Stephen. The stability properties of optimal economic policies. American Economic Review. 1974, 64 (1): 136–148. JSTOR 1814888.
- ^ Hashemian; Armaou. Stochastic MPC Design for a Two-Component Granulation Process. IEEE Proceedings. 2017: 4386–4391. Bibcode:2017arXiv170404710H. arXiv:1704.04710 .
- ^ Merton, Robert. Continuous Time Finance. Blackwell. 1990.
- ^ Fleming, W.; Rishel, R. Deterministic and Stochastic Optimal Control. 1975 [2018-10-01]. ISBN 0-387-90155-8. (原始内容存档于2021-04-28).
- ^ Fleming, W.; Soner, M. Controlled Markov Processes and Viscosity Solutions. Springer. 2006.
- ^ Stein, J. L. Stochastic Optimal Control and the US Financial Crisis. Springer-Science. 2012.