协作是执行超出oneagent功能的任务的必要技能。广泛应用于传统和现代AI,多代理协作通常在简单的网格世界中进行研究。我们认为合作存在固有的视觉方面,应该在视觉丰富的环境中进行研究。一个关键的元素合作是通过显式,通过消息或隐式,通过对其他代理和视觉世界的感知来进行的交流。学习在视觉环境中进行协作需要学习(1)执行任务,(2)何时和沟通的内容,以及(3)如何根据这些沟通和视觉世界的感知采取行动。在本文中,我们研究了在AI2-THOR中学习直接从像素协作的问题,并展示了显式和隐式通信模式对于执行视觉任务的好处。有关更多详细信息,请参阅我们的项目页面:https://prior.allenai.org/projects/two-body-problem
translated by 谷歌翻译
大多数现有的工作都是以图像中的自然语言短语为基础,假设所讨论的短语与图像相关。在本文中,我们讨论了一个更加真实的自然语言背景任务版本,我们必须确定该短语是否与图像相关并将该词组本地化。这也可以被视为对开放式词汇表的对象检测的概括,主要是引入少量和零射击检测的元素。我们为此任务提出了一个短语R-CNN网络,它扩展了更快的R-CNN以关联图像区域和短语。通过使用规范相关分析(CCA)仔细初始化我们网络的分类层,我们鼓励在相似短语之间进行推理时更加清晰的解决方案,导致与两个流行的短语接地数据,Flickr30K实体和引用游戏的天真适应相比,性能超过两倍,测试时间短语词汇分别为5K和39K。
translated by 谷歌翻译
准确回答关于给定图像的问题需要将观察与一般知识相结合。虽然这对人类来说毫不费力,但使用一般知识进行推理仍然是算法挑战。为了推进这方面的研究,最近引入了一种新的“基于事实的”视觉问答(FVQA)任务以及一系列通过关系将两个实体(即两个可能的答案)联系起来的策展事件。给出一个问题图像对,深度网络技术已经被用于连续地减少大量事实,直到最终剩余事实的两个实体中的一个被预测为答案。我们观察到一个连续的过程,它一次考虑一个事实,形成一个局部决策,是最优的。相反,我们开发一个实体图并使用图形卷积网络通过共同考虑相关性来“推理”正确的答案。我们在具有挑战性的FVQA数据集上展示,与现有技术相比,这导致精度提高约7%。
translated by 谷歌翻译
本文介绍了一种在图像中对短语进行接地的方法,这种方法在单个端到端模型中共同连接多个文本条件嵌入。为了将文本短语区分为语义上不同的子空间,我们提出了一个概念权重分支,它自动将短语分配给嵌入,而先前的工作预定义了这样的分配。我们提出的解决方案简化了单个嵌入的表示要求,并允许代表性不足的概念在将它们提供给特定于概念的层之前利用共享表示。综合实验验证了我们的方法在三个词汇表地理数据集,Flickr30K实体,ReferIt游戏和视觉基因组中的有效性,我们获得了(相应)4%,3%和4%的基础地区短语嵌入基线的接地性能改善。
translated by 谷歌翻译
We present an active detection model for localizing objects in scenes. Themodel is class-specific and allows an agent to focus attention on candidateregions for identifying the correct location of a target object. This agentlearns to deform a bounding box using simple transformation actions, with thegoal of determining the most specific location of target objects followingtop-down reasoning. The proposed localization agent is trained using deepreinforcement learning, and evaluated on the Pascal VOC 2007 dataset. We showthat agents guided by the proposed model are able to localize a single instanceof an object after analyzing only between 11 and 25 regions in an image, andobtain the best detection results among systems that do not use objectproposals for object localization.
translated by 谷歌翻译
投票中心负责收集和汇总选民偏好。在迭代过程中,中心向选民发送比较查询,要求他们在两个项目之间提交他们的偏好。选民可能会在候选人中讨论候选人,在启发过程中找出候选人有机会获胜而哪些人没有。因此,战略选民可能会试图通过偏离他们的真实偏好来操纵,而是提交不同的回应以试图最大化他们的利润。我们提供了一个实用的算法forstrategic选民,计算最好的操纵投票,并在投票存在时最大化选民的自私结果。我们还提供了一个谨慎的投票中心,该中心了解可能的操作并尽可能避免操纵查询。在对四个真实世界域的实证研究中,我们表明在实践中,操纵发生在较低的设定百分比中,并且对最终结果的影响较小。谨慎的投票中心进一步减少了操纵,从而允许进行非扭曲的群体决策过程。因此,我们提供了一个关于avoting过程的核心技术研究,可以在意见或信息聚合系统和众包应用中采用,例如,Massive OpenOnline课程(MOOCs)中的同伴评分。
translated by 谷歌翻译