本文讨论了具有丰富记录数据的域中的政策选择问题,但互动预算有限。解决此问题将在行业,机器人和推荐领域中安全评估和部署离线强化学习政策等。已经提出了几种违规评估(OPE)技术以评估仅使用记录数据的策略的值。然而,OPE的评估与真实环境中的完整在线评估之间仍然存在巨大差距。然而,在实践中通常不可能进行大量的在线互动。为了克服这个问题,我们介绍了\ emph {主动脱机策略选择} - 一种新的顺序决策方法,将记录数据与在线交互相结合,以识别最佳策略。这种方法使用ope估计来热启动在线评估。然后,为了利用有限的环境相互作用,我们决定基于具有表示政策相似性的内核函数的贝叶斯优化方法来评估哪个策略。我们使用大量候选政策的多个基准,以表明所提出的方法提高了最先进的OPE估计和纯在线策略评估。
translated by 谷歌翻译
我们提出了对形式文件的任意查询的价值检索,以减少处理表格的人力努力。与以前的方法不同,仅解决一个固定的字段项,我们的方法基于对表单的布局和语义的理解,预测任意查询的目标值。为了进一步提高模型性能,我们提出了一种简单的文档语言建模(SimpleDLM)策略,以提高对大型模型预培训的文档理解。实验结果表明,我们的方法显着优于我们的基线,而SimpleDLM进一步提高了我们的价值检索的性能约为17 \%F1分数与最先进的预训练方法相比。代码将公开可用。
translated by 谷歌翻译
深度学习已被广​​泛用于医学图像细分和其他方面。但是,现有的医学图像分割模型的性能受到获得足够数量的高质量数据的挑战的限制。为了克服限制,我们提出了一个新的视觉医学图像分割模型LVIT(语言符合视觉变压器)。在我们的模型中,引入了医学文本注释,以弥补图像数据的质量缺陷。此外,文本信息可以在一定程度上指导伪标签的产生,并进一步保证半监督学习中伪标签的质量。我们还提出了指数伪标签迭代机制(EPI),以帮助扩展LVIT和像素级注意模块(PLAM)的半监督版本,以保留图像的局部特征。在我们的模型中,LV(语言视觉)损失旨在直接使用文本信息监督未标记图像的培训。为了验证LVIT的性能,我们构建了包含病理图像,X射线等的多模式医学分割数据集(图像 +文本)。实验结果表明,我们提出的LVIT在完全和半监督条件下具有更好的分割性能。代码和数据集可在https://github.com/huanglizi/lvit上找到。
translated by 谷歌翻译
我们已经调查了对抗性示例的新应用,即对地标识别系统的位置隐私保护。我们介绍了掩模引导的多模式投影梯度下降(MM-PGD),其中对抗示例在不同的深层模型上进行了培训。图像内容受到分析区域的特性,以识别最适合在对抗示例中混合的区域的性质。我们研究了两种区域识别策略:基于类激活图的MM-PGD,其中训练有素的深层模型的内部行为是针对的;和基于人视觉的MM-PGD,其中吸引人类注意力较少的地区的目标是针对的。Ploce365数据集的实验表明,这些策略在不需要大量图像操作的情况下可能有效地防御Black-Box Landmark识别系统。
translated by 谷歌翻译
图形神经网络(GNNS)可以使用深度学习对图进行分析,并在图中捕获结构化信息的结果有希望的结果。本文着重于创建一个小图来表示原始图,以便在尺寸降低的图上训练的GNN可以做出准确的预测。我们将原始图视为接收场的分布,并旨在合成一个小图,其接受场具有相似的分布。因此,我们通过接受场分布匹配(GCDM)提出了图形屈服,该图是通过使用最大平均差异(MMD)量化的分布匹配损耗来优化合成图来完成的。此外,我们证明了GCDM生成的合成图在评估阶段高度概括为各种模型,并且使用此框架可显着提高冷凝速度。
translated by 谷歌翻译
数值验证是机器学习研究的核心,因为它允许评估新方法的实际影响,并确认理论和实践之间的一致性。然而,该领域的快速发展构成了一些挑战:研究人员面临着大量的方法来比较,有限的透明度和最佳实践的共识以及乏味的重新实施工作。结果,验证通常是非常部分的,这可能会导致错误的结论,从而减慢研究的进展。我们提出了Benchopt,这是一个协作框架,旨在在跨编程语言和硬件体系结构的机器学习中自动化,复制和发布优化基准。 Benchopt通过提供用于运行,共享和扩展实验的现成工具来简化社区的基准测试。为了展示其广泛的可用性,我们在三个标准学习任务上展示基准:$ \ ell_2 $ regulaine的逻辑回归,套索和RESNET18用于图像分类的培训。这些基准强调了关键的实际发现,这些发现对这些问题的最新问题更加细微,这表明在实际评估中,魔鬼在细节上。我们希望Benchopt能在社区中促进合作工作,从而改善研究结果的可重复性。
translated by 谷歌翻译
在本文中,我们利用涉及视觉和语言互动的人类感知过程来生成对未修剪视频的连贯段落描述。我们提出了视觉语言(VL)功能,这些功能由两种模态组成,即(i)视觉方式,以捕获整个场景的全局视觉内容以及(ii)语言方式来提取人类和非人类对象的场景元素描述(例如,动物,车辆等),视觉和非视觉元素(例如关系,活动等)。此外,我们建议在对比度学习VL损失下培训我们提出的VLCAP。有关活动网字幕和YouCookii数据集的实验和消融研究表明,我们的VLCAP在准确性和多样性指标上都优于现有的SOTA方法。
translated by 谷歌翻译
在许多社会和工业互动中,参与者通常更喜欢纯粹的自身利益,以牺牲全球福利为代价。这类非合作游戏被称为社会困境,提供了多个演员都应合作以实现最佳结果的情况,但贪婪和恐惧导致了最坏的自我利益问题。最近,深入强化学习(RL)的出现通过引入顺序社会困境(SSD)引起了人们对社会困境的复兴兴趣。混合RL政策和TIT-TAT(TFT)策略的合作社成功解决了一些非最佳的NASH平衡问题。但是,这种范式需要参与者之间的对称和直接合作,当相互合作变得不对称并且只有至少以圆形的方式使用第三个参与者时,这些范式没有满足的条件。为了解决这个问题,本文通过循环顺序社会困境(CSSD)扩展了SSD,这是一种新型的马尔可夫游戏,可以更好地概括代理商之间的合作多样性。其次,为了解决这种循环和不对称合作,我们提出了基于RL策略和基于图的TFT的候选解决方案。我们在简单的多玩家网格世界上进行了一些实验,该网格世界提供了适应性的合作结构。我们的工作证实,我们的基于图形的方法有益于通过鼓励自我利益的代理进行相互合作来解决循环情况。
translated by 谷歌翻译
在过去的几年中,按照可区分的编程范式,人们对计算物理过程的梯度信息(例如,物理模拟,图像渲染)的梯度越来越兴趣。但是,此类过程可能是不可差异的,也可能产生非信息性梯度(I.D.几乎到处都是无效的)。当面对以前的陷阱时,通过分析表达或数值技术(例如自动分化和有限差异)估算的梯度使经典优化方案融合到质量较差的解决方案中。因此,仅依靠这些梯度提供的本地信息通常不足以解决涉及此类物理过程的高级优化问题,尤其是当它们受到非平滑度和不稳定性问题的影响。零订单优化,我们通过估计邻域中的梯度来利用随机平滑来增强可微分的物理。我们的实验表明,在优化算法中整合这种方法可能对像网格重建的任务相似,从图像或对机器人系统的最佳控制也有所不同。
translated by 谷歌翻译
本文研究了通过机器学习模型估计特征对特定实例预测的贡献的问题,以及功能对模型的总体贡献。特征(变量)对预测结果的因果效应反映了该特征对预测的贡献。一个挑战是,如果没有已知的因果图,就无法从数据中估算大多数现有的因果效应。在本文中,我们根据假设的理想实验定义了解释性因果效应。该定义给不可知论的解释带来了一些好处。首先,解释是透明的,具有因果关系。其次,解释性因果效应估计可以数据驱动。第三,因果效应既提供了特定预测的局部解释,又提供了一个全局解释,显示了一个特征在预测模型中的总体重要性。我们进一步提出了一种基于解释性因果效应来解释的方法和组合变量的方法。我们显示了对某些现实世界数据集的实验的定义和方法。
translated by 谷歌翻译