人工智能学会从视频中预测人类行为

导读 在一项新的研究中,哥伦比亚工程的研究人员推出了一种计算机视觉技术,通过利用人、动物和物体之间的更高层次的关联,让机器对接下来会发生

在一项新的研究中,哥伦比亚工程的研究人员推出了一种计算机视觉技术,通过利用人、动物和物体之间的更高层次的关联,让机器对接下来会发生的事情有更直观的感觉。

哥伦比亚大学计算机科学助理教授卡尔·冯德里克 (Carl Vondrick) 指导了这项研究,他说:“我们的算法是朝着能够对人类行为做出更好预测的机器迈出的一步,从而更好地协调他们的行动与我们的行动。” 2021 年 6 月 24 日举行的计算机视觉和模式识别国际会议。“我们的结果为人机协作、自动驾驶汽车和辅助技术开辟了许多可能性。”

研究人员说,这是迄今为止预测未来几分钟内视频动作事件的最准确方法。在分析了数千小时的电影、体育比赛和“办公室”等节目后,该系统学会了预测数百种活动,从握手到拳头碰撞。当它无法预测具体的动作时,它会找到将它们联系起来的更高级别的概念,在这种情况下,就是“问候”这个词。

过去在预测机器学习方面的尝试,包括团队的尝试,都集中在一次只预测一个动作。算法决定是否将动作归类为拥抱、击掌、握手,甚至是“忽略”等非动作。但是当不确定性很高时,大多数机器学习模型都无法找到可能选项之间的共性。

哥伦比亚工程博士生 Didac Suris 和 Ruoshi Liu 决定从不同的角度看待更长期的预测问题。“并非未来的一切都是可以预测的,”该论文的共同主要作者苏里斯说。“当一个人无法准确预见会发生什么时,他们会谨慎行事并在更高的抽象层次上进行预测。我们的算法是第一个学习这种对未来事件进行抽象推理的能力的算法。”

苏里斯和刘不得不重新审视可追溯到古希腊的数学问题。在高中,学生们学习了熟悉且直观的几何规则——直线是笔直的,平行线永远不会交叉。大多数机器学习系统也遵守这些规则。但是,其他几何图形具有奇异的、违反直觉的特性。直线弯曲,三角形凸出。Suris 和 Liu 使用这些不寻常的几何形状来构建 AI 模型,这些模型可以组织高级概念并预测未来的人类行为。

“预测是人类智能的基础,”麻省理工学院高级研究科学家兼麻省理工学院-IBM 沃森人工智能实验室联合主任奥德奥利瓦说,他是人工智能和人类认知方面的专家,他没有参与这项研究。 . “机器会犯人类永远不会犯的错误,因为它们缺乏我们抽象推理的能力。这项工作是弥合这一技术差距的关键一步。”

免责声明:本文由用户上传,如有侵权请联系删除!