基于细粒的草图的图像检索(FG-SBIR)解决了在给定查询草图中检索特定照片的问题。然而,它的广泛适用性受到大多数人为大多数人绘制完整草图的事实的限制,并且绘图过程经常需要时间。在这项研究中,我们的目标是用最少数量的笔划检索目标照片(不完整草图),命名为vs-the-fry fg-sbir(bhunia等人.2020),它一旦尽快开始检索每个行程绘图开始。我们认为每张照片的草图绘图集中的这些不完整草图之间存在显着相关性。为了了解照片和ITS不完整的草图之间共享的更高效的联合嵌入空间,我们提出了一个多粒度关联学习框架,进一步优化了所有不完整草图的嵌入空间。具体地,基于草图的完整性,我们可以将完整的草图插曲分为几个阶段,每个阶段对应于简单的线性映射层。此外,我们的框架指导了当前草图的矢量空间表示,以近似速写,以实现草图的检索性能,以利用更多的笔触来接近草图的草图。在实验中,我们提出了更现实的挑战,我们的方法在两个公开的细粒草图检索数据集上实现了最先进的方法和替代基线的卓越的早期检索效率。
translated by 谷歌翻译
我们在本文中重新审视语义场景(SSC),是预测3D场景的语义和占用表示的有用任务。此任务的许多方法始终基于用于保存本地场景结构的体蛋白化场景表示。然而,由于存在可见空体素,当网络更深时,这些方法总是遭受重型计算冗余,从而限制完成质量。为了解决这种困境,我们提出了我们为此任务的新型点体素聚集网络。首先,我们通过去除这些可见的空体素来将Voxized场景传输到点云,并采用深点流,以有效地从场景中捕获语义信息。同时,仅包含两个3D卷积层的轻重体素流保留了体蛋白化场景的局部结构。此外,我们设计一个各向异性体素聚合运算符,将结构细节从体素流融合到点流中,并通过语义标签来增强点流中的上采样过程的语义感知传播模块。我们展示了我们的模型在两个基准上超越了最先进的余量,只有深度图像作为输入。
translated by 谷歌翻译
机械化新鲜市场水果的手工采伐构成了水果产业可持续性的最大挑战之一。在手动收获草莓和桌葡萄等新鲜市场作物时,拾取器花费大量的时间行走,将全托盘携带到领域边缘的收集站。增加对这种作物的收获自动化的一步是部署运输空和全托盘的收获辅助协作机器人(共用机器人),从而通过减少拾取器的非生产步行时间来增加收获效率。这项工作介绍了在商业草莓收获过程中开发合作机器收获援助系统及其评估。在系统的核心上,提示了一种预测随机调度算法,其最小化了预期的非拾取时间,从而最大化了收获效率。在评估实验期间,当机器人到拾取器的比例为1:3时,共同机器人将平均收获效率提高约10%并将平均非生产时间减少60%。在这项工作中开发的概念可以应用于机器人收获艾滋病,用于其他手动收获的作物,这些作物涉及用于行走的作物运输。
translated by 谷歌翻译
汤普森抽样(TS)吸引了对强盗区域的兴趣。它在20世纪30年代介绍,但近年来尚未经过理论上证明。其在组合多武装强盗(CMAB)设置中的所有分析都需要精确的Oracle来提供任何输入的最佳解决方案。然而,这种Oracle通常是不可行的,因为许多组合优化问题是NP - 硬,并且只有近似oracles可用。一个例子(王和陈,2018)已经表明TS的失败来学习近似Oracle。但是,此Oracle罕见,仅用于特定问题实例。它仍然是一个开放的问题,无论TS的收敛分析是否可以扩展到CMAB中的精确oracle。在本文中,我们在贪婪的Oracle下研究了这个问题,这是一个常见的(近似)Oracle,具有理论上的保证来解决许多(离线)组合优化问题。我们提供了一个问题依赖性遗憾的遗憾下限为$ \ omega(\ log t / delta ^ 2)$,以量化Ts的硬度来解决贪婪的甲骨文的CMAB问题,其中$ T $是时间范围和$ Delta $是一些奖励差距。我们还提供几乎匹配的遗憾上限。这些是TS解决CMAB与常见近似甲骨文的第一个理论结果,并打破TS无法使用近似神谕的误解。
translated by 谷歌翻译
Interpreting the predictions of existing Question Answering (QA) models is critical to many real-world intelligent applications, such as QA systems for healthcare, education, and finance. However, existing QA models lack interpretability and provide no feedback or explanation for end-users to help them understand why a specific prediction is the answer to a question. In this research, we argue that the evidences of an answer is critical to enhancing the interpretability of QA models. Unlike previous research that simply extracts several sentence(s) in the context as evidence, we are the first to explicitly define the concept of evidence as the supporting facts in a context which are informative, concise, and readable. Besides, we provide effective strategies to quantitatively measure the informativeness, conciseness and readability of evidence. Furthermore, we propose Grow-and-Clip Evidence Distillation (GCED) algorithm to extract evidences from the contexts by trade-off informativeness, conciseness, and readability. We conduct extensive experiments on the SQuAD and TriviaQA datasets with several baseline models to evaluate the effect of GCED on interpreting answers to questions. Human evaluation are also carried out to check the quality of distilled evidences. Experimental results show that automatic distilled evidences have human-like informativeness, conciseness and readability, which can enhance the interpretability of the answers to questions.
translated by 谷歌翻译
轨迹预测是自动车辆(AVS)执行安全规划和导航的关键组件。然而,很少有研究分析了轨迹预测的对抗性稳健性,或者调查了最坏情况的预测是否仍然可以导致安全规划。为了弥合这种差距,我们通过提出普通车辆轨迹来最大化预测误差来研究轨迹预测模型的对抗鲁棒性。我们在三个模型和三个数据集上的实验表明,对手预测将预测误差增加超过150%。我们的案例研究表明,如果对手在对手轨迹之后驱动靠近目标AV的车辆,则AV可以进行不准确的预测,甚至不安全的驾驶决策。我们还通过数据增强和轨迹平滑探索可能的缓解技术。
translated by 谷歌翻译
近几十年来,Camera-IMU(惯性测量单元)传感器融合已经过度研究。已经提出了具有自校准的运动估计的许多可观察性分析和融合方案。然而,它一直不确定是否在一般运动下观察到相机和IMU内在参数。为了回答这个问题,我们首先证明,对于全球快门Camera-IMU系统,所有内在和外在参数都可以观察到未知的地标。鉴于此,滚动快门(RS)相机的时间偏移和读出时间也证明是可观察到的。接下来,为了验证该分析并解决静止期间结构无轨滤波器的漂移问题,我们开发了一种基于关键帧的滑动窗滤波器(KSWF),用于测量和自校准,它适用于单眼RS摄像机或立体声RS摄像机。虽然关键帧概念广泛用于基于视觉的传感器融合,但对于我们的知识,KSWF是支持自我校准的首先。我们的模拟和实际数据测试验证了,可以使用不同运动的机会主义地标的观察来完全校准相机-IMU系统。实际数据测试确认了先前的典故,即保持状态矢量的地标可以弥补静止漂移,并显示基于关键帧的方案是替代治疗方法。
translated by 谷歌翻译
建议制度,依靠历史观察数据来模仿用户和物品之间的复杂关系,取得了巨大的成功,在现实世界中取得了巨大的成功。选择偏见是现有的现有观测数据基于方法的最重要问题之一,其实际上是由多种类型的不观察室的暴露策略引起的(例如促销和假期效应)。虽然已经提出了各种方法来解决这个问题,但它们主要依赖于隐含的脱叠技术,但没有明确建立未观察的曝光策略。通过明确重建曝光策略(简称休息),我们将推荐问题正式化为反事实推理,并提出了脱叠的社会推荐方法。在休息时,我们假设项目的曝光由潜在曝光策略,用户和项目控制。基于上述生成过程,首先通过识别分析提供我们方法的理论保证。其次,在社交网络和项目的帮助下,我们采用了变分自动编码器来重建潜在的曝光策略。第三,我们通过利用回收的曝光策略制定基于反事实推理的建议算法。四个现实世界数据集的实验,包括三个已发布的数据集和一个私人微信官方帐户数据集,展示了几种最先进的方法的显着改进。
translated by 谷歌翻译
多变量时间序列(MTS)预测在智能应用的自动化和优化中起着重要作用。这是一个具有挑战性的任务,因为我们需要考虑复杂的变量依赖关系和可变间依赖关系。现有的作品仅在单个可变依赖项的帮助下学习时间模式。然而,许多真实世界MTS中有多种时间模式。单个可变间依赖项使模型更倾向于学习一种类型的突出和共享的时间模式。在本文中,我们提出了一个多尺度自适应图形神经网络(MOLDN)来解决上述问题。 MOLDN利用多尺度金字塔网络,以在不同的时间尺度上保留潜在的时间依赖关系。由于可变间依赖关系可以在不同的时间尺度下不同,所以自适应图学习模块被设计为在没有预先定义的前沿的情况下推断规模特定的可变依赖关系。鉴于多尺度特征表示和规模特定的可变间依赖关系,引入了一个多尺度的时间图神经网络,以共同模拟帧内依赖性和可变间依赖性。之后,我们开发一个尺度明智的融合模块,以在不同时间尺度上有效地促进协作,并自动捕获贡献的时间模式的重要性。四个真实数据集的实验表明,Magnn在各种设置上表明了最先进的方法。
translated by 谷歌翻译
$ k $ -means集群是各学科的基本问题。此问题是非核解,并且标准算法仅保证找到本地最佳算法。利用[1]的本地解决方案的结构,我们提出了一种用于逃离不良局部解决方案并恢复全球解决方案(或地面真理)的一般算法框架。该框架包括迭代:(i)在本地解决方案中检测MIS指定的群集,并通过非本地操作来改进当前本地解决方案。我们讨论这些步骤的实施,并阐明所提出的框架如何从几何视角统一文献中的k $ -means算法的变体。此外,我们介绍了所提出的框架的两个自然扩展,其中初始数量的群集被遗漏。我们为我们的方法提供了理论理的理由,这是通过广泛的实验证实的。
translated by 谷歌翻译