制作更好的决策结果的不确定性

马尔可夫决策过程是时用来确定行动的最佳课程目前的情况和未来的后果是不确定的数学模型。他们已经大量的应用程序 — — 在天然资源管理、制造、运营管理、机器人控制、财务、流行病学、科学实验设计和网球战略，只是仅举几例。

但通常涉及马尔可夫决策过程 (Mdp) 的分析做出一些简化的假设。MDP，在一个特定的决定并不产生可预测的结果。相反，MDP 使用概率分布来描述一系列可能的结果。表征这种分布不需要收集的实证数据，可能令人望而却步非常耗费时间，所以分析师通常只是猜测。然而，这意味着，MDP 分析并不能保证在所有情况下的最好的决定。

来自麻省理工学院和杜克大学的研究人员在神经信息处理系统上, 个月，发表会议论文集将 MDP 分析放在更安全的基础上一步。他们表明，通过采用一个简单的技巧，早就知道统计但几乎在机器学习中的应用，是可以同时收集更少实证数据，比以前看起来有必要建立准确 Mdp。

他们会议演示文稿中，研究人员描述了一个简单的例子，在这表征概率的标准做法将需要执行近 4 万倍，以便产生可靠的 MDP 的相同决定。

研究人员的方法，它将需要运行 167,000 倍。这仍然是一个巨大的数字 — — 除外，也许，在服务器场的上下文中处理数以百万计的网页点击每秒，MDP 分析有助于分配计算资源。在其他情况下，工作至少表示在正确的方向前进一大步。

杰森 · 帕齐斯，一个博士后在麻省理工学院实验室信息和决策系统和新的论文第一作者说:”人不会要开始使用现在所以样本密集型的东西”。”我们已经证明降低样品复杂性的一种方法。并希望，它正交到很多其他方面，所以我们可以将它们合并。

不可预知的结果

在论文中，研究人员还报告运行模拟探索它的环境，在其中他们的方法更有成果始终比现有的方法，即使有更合理的样本大小的机器人 — — 九和 105。但是，帕齐斯强调，本文的理论结果只施加生成准确的 Mdp; 所需的样本数目他们并不能证明任何关于在低样本大小的不同算法的相对性能。

帕齐斯被加入乔纳森如何、南京航空航天大学在麻省理工学院，和由夏帕尔，杜克大学的计算机科学教授理查德 · 科克马克劳林教授在纸上。

一般来说，MDP 分析不需要的精确描述的概率分布;它是通常足以计算分布平均，或平均，值。在所谓的正常分布熟悉的钟形曲线，意味着定义响铃的最高点。

研究者的算法采用这个把戏叫做手段的中位数。如果你有一大堆的随机值，并且你要估计他们来自的概率分布平均，自然的方式去做是对他们的平均。但如果您的示例包括一些罕见但极端的异常值，平均能给歪曲的真实分布。例如，如果你有一个样本的高度之 10 的美国人，其中 9 人围绕真实均值为 5 英尺 10 英寸，但其中一人是 7 英尺 2 英寸的中锋，直平均会产生约一个半英寸是关闭的意思。

与手段的中位数，你反而将您的样品分成子群，取其中的平均值（平均）的每个，，然后中位数的结果。中位数是介于中间的值，如果你安排你的价值观，从最低到最高。

价值主张

MDP 分析的目的是确定一套政策 — — 或在特定情况下的行动 — — 那一些奖励功能价值最大化。在制造环境中，回报函数可能衡量运营成本生产卷;在机器人控制中，它可能测量任务的完成进度。

但一个特定的决定进行评估，根据复杂得多的措施，被称为”价值函数”，这是一个概率的估计的不只是这一决定，但每一个可以遵循的可能决定的预期回报。

研究人员表明，直平均样本估计分布的平均所需的数量是成正比的平方值函数可以在的值的范围。由于该范围可能很大，所以是的样本数。但与手段的中位数，样品的数量是成正比的各种不同的值，叫行李员操作员，通常要小得多。研究人员还展示了如何计算最优标本的大小在中位数均值的估计。

“本文结果与这种类型，多数结果仍反映悲观情绪很大程度因为他们处理最坏情况的分析，在那里我们的正确性证明给受灾最严重的可能环境，”Marc Bellemare，谷歌拥有人工智能公司谷歌 DeepMind 研究员说。”但这种分析并不需要结转给应用程序。我认为杰森的办法，在那里我们允许自己有点乐观地说，’让我们希望外面的世界并不是所有可怕，几乎可以肯定是正确的方式去思考这个问题。我期待这种做法，是非常有用的实践”。

工作是由波音公司、美国海军研究办公室和国家自然科学基金支持的。

制作更好的决策结果的不确定性

相关新闻