行动中的人工智能

一个观看视频的人打开门,一本书,一个窗帘,一朵盛开的花,一只打哈欠的狗——很容易理解每一个片段都有同样的动作。
“计算机模型很难识别这些东西。人类是如何毫不费力地做到这一点的?“Dan Gutfreund问,在mit-ibm沃森人工智能实验室的首席研究员和IBM的研究人员。“我们处理信息,因为它发生在空间和时间上。我们怎样教计算机模型呢?“
这是一个新的项目在mit-ibm沃森人工智能实验室正在背后的大问题,为人工智能的前沿研究合作。实验室于去年秋天推出,麻省理工学院和IBM的研究人员一起致力于人工智能算法、人工智能在工业中的应用、人工智能的物理学以及利用人工智能促进共享繁荣的方法。
 ; 时间数据的时刻;是一个关系到项目的AI算法是通过实验室中对古特弗罗因德与Aude Oliva的资助,在麻省理工学院计算机科学和人工智能实验室的首席研究科学家,作为项目的主要研究人员。时间的时间是建立在100万个注释的动态事件的视频在三秒内展开的集合。古特弗罗因德和奥利娃,他们也在mit-ibm沃森人工智能实验室,麻省理工学院的执行董事,在使用这些剪辑一个AI的下一个大步骤地址:教学机器识别行动。
动态场景学习
研究人员说,目标是提供深度学习算法,覆盖视觉和听觉瞬间的生态系统,使模型能够学习不必要的有监督的信息,并推广到新的情境和任务中。
当我们长大了,我们环顾四周,看到人们和物体在移动,我们听到人们和物体发出的声音。我们有很多视觉和听觉经验。AI系统需要学习相同的方式和提供视频和动态的信息,”奥利娃说。
对于数据集中的每一个操作类,比如烹饪、运行或打开,都有2000多个视频。简短的剪辑使计算机模型能够更好地了解围绕特定行动和事件的含义的多样性。
“这个数据集可以作为AI的开发模式,规模,复杂性和抽象的推理,在日常生活中人类的工艺水平提出了新的挑战,”奥利娃说,描述所涉及的因素。事件可以包括人、物、动物和自然。它们在时间上可能是对称的,例如,打开意味着以相反的顺序关闭。它们可能是短暂的,也可能是持续的。
奥利瓦和古特弗罗因德,以及来自麻省理工学院和IBM的额外人员,每周开会,一年多的时间来解决技术问题,比如如何选择注释动作类,哪里可以找到视频,和如何把一系列这样的人工智能系统学习不偏。该小组还开发了机器学习模型,然后将其用于缩放数据收集。“我们将非常好,因为我们有相同的热情和相同的目标,”奥利娃说。
增强人类智力
该实验室的一个主要目标是开发人工智能系统,超越专业任务,处理更复杂的问题,并从持续不断的学习中受益。“我们正在寻求新的算法,不仅利用大数据可用时,还要学会从有限的数据来增加人类的智慧,”Sophie V. Vandebroek说,IBM研究所的首席运营官,对于合作。
除了对每个组织的独特的科技优势,IBM还将麻省理工学院的研究人员资源的涌入,向其投资2亿4000万美元的人工智能在未来10年的努力,致力于mit-ibm沃森人工智能实验室和mit-ibm AI的兴趣比对证明是有益的,根据奥利瓦。
IBM来到麻省理工学院,对开发基于视觉的人工智能系统的新想法很感兴趣。我提出了一个项目,我们构建数据集来提供关于世界的模型。在这个级别之前没有做过。这是一部长篇小说。现在,我们已经达到了100万个视觉AI培训视频的里程碑,人们可以到我们的网站,下载数据集和我们的深入学习计算机模型,已被教导认识行动。
定性迄今为止的结果表明模型可以识别的时刻当行动框架和关闭,但他们失火时类是细粒或有背景杂波,在其他事情上。奥利娃说,麻省理工学院和IBM的研究人员提交了一篇描述性能的神经网络模型的训练数据集,这本身是由共同的观点深化。“IBM的研究人员给我们的想法加入动作类有如医疗保健和体育领域更加丰富。他们开阔了我们的视野。他们给了我们的想法,AI如何从业务的角度作出的影响,世界的需要,”她说。
这一版本的时间数据的时刻是一个最大的人工标注的视频数据采集的视觉和听觉短期事件,所有这些都带有一个动作或活动标签339个不同的类别,包括范围广泛的常用动词之间。研究人员打算生产各种抽象层次作为垫脚石的算法,可以建立类比事物之间的学习发展更多的数据集,想象和合成新的事件,并解释方案。
换句话说,他们是刚刚开始,古特弗罗因德说。“我们预计时间数据的时刻使模型的丰富理解视频中的动作和力度。”