神经网络很容易受到对抗性攻击 - 视觉上不易察觉的小噪声,当加到输入端时会大大改变输出。防御这些敌对攻击的最有效方法是使用对抗性训练的方法。我们分析了经过对侧训练的强大模型,以研究它们在潜层层面对抗对抗性攻击的脆弱性。我们的分析揭示了与对抗性攻击具有鲁棒性的输入层相反,这些鲁棒模型的特征层非常容易受到小幅度的对抗性扰动。利用这些信息,我们引入了一种新技术潜在对抗训练(LAT),其中包括对经过对侧训练的模型进行微调,以确保在特征层中的稳健性。我们还提出潜在攻击(LA),一种用于构建对抗性示例的新算法。 LAT导致测试精度的微小改进,并导致针对MNIST,CIFAR-10,CIFAR-100数据集显示的通用一阶对抗性PGD攻击的最新对抗精度。
translated by 谷歌翻译
In this work, we focus on the problem of grounding language by training an agent to follow a set of natural language instructions and navigate to a target object in an environment. The agent receives visual information through raw pixels and a natural language instruction telling what task needs to be achieved and is trained in an end-to-end way. We develop an attention mechanism for multi-modal fusion of visual and textual modalities that allows the agent to learn to complete the task and achieve language grounding. Our experimental results show that our attention mechanism outperforms the existing multi-modal fusion mechanisms proposed for both 2D and 3D environments in order to solve the above-mentioned task in terms of both speed and success rate. We show that the learnt textual representations are semantically meaningful as they follow vector arithmetic in the embedding space. The effectiveness of our attention approach over the contemporary fusion mechanisms is also highlighted from the textual embeddings learnt by the different approaches. We also show that our model generalizes effectively to unseen scenarios and exhibit zero-shot generalization capabilities both in 2D and 3D environments. The code for our 2D environment as well as the models that we developed for both 2D and 3D are available at https://github.com/rl-lang-grounding/rl-lang-ground.
translated by 谷歌翻译
机器学习正在从艺术和科学转变为可供每个开发人员使用的技术。在不久的将来,每个平台上的每个应用程序都将包含训练有素的模型,以编码开发人员无法创作的基于数据的决策。这提出了一个重要的工程挑战,因为目前数据科学和建模在很大程度上与标准软件开发过程脱钩。这种分离使得在应用程序内部的机器学习能力不必要地变得困难,并且进一步阻碍了开发人员将MLin置于首位。在本文中,我们介绍了ML .NET,这是一个在过去十年中在Microsoft开发的框架,用于应对在大型软件应用程序中轻松发布机器学习模型的挑战。我们提出了它的架构,并阐明了形成它的应用程序需求。具体而言,我们引入了DataView,它是ML .NET的核心数据抽象,它可以有效地,一致地捕获完整的预测管道,并在训练和推理生命周期中进行。我们结束了论文,对ML .NET进行了令人惊讶的有利的性能研究,与更多的接受者相比,并讨论了一些经验教训。
translated by 谷歌翻译
高级综合(HLS)缩短了硬件设计的开发时间,并在更高的抽象级别上实现了更快的设计空间探索。由于路由拥塞等实现问题的影响,HLS中复杂应用的优化具有挑战性。在现有的HLS设计方法和工具中,路由拥塞估计不存在或不准确。早期准确的拥塞估计对于指导HLS的优化和提高实现效率具有很大的好处。然而,在没有分析布局布线后的实施后细节的情况下,难以在HLS中评估可编程性,这是FPGA设计中的一个严重问题。为此,我们提出了一种利用机器学习预测HLS中路由拥塞的新方法,并将设计中预期的拥塞区域映射到相关的高级源代码。这对于在不运行耗时的寄存器传输级别(RTL)实现流程的早期识别高级源代码中的可路由性瓶颈非常有益。实验表明,我们的方法准确地估计了垂直和水平路由拥塞,误差分别为6.71%和10.05%。通过将人脸检测应用程序作为案例研究,我们通过发现高级源代码中的瓶颈来表明,与RTL实现和设计反馈所涉及的工作相比,可以轻松快速地解决路由拥塞问题。
translated by 谷歌翻译
模型通常需要被约束到一定的大小以使它们被认为是可解释的,例如,深度5的决策树比深度30中的一个更容易理解。这表明在可解释性和准确性之间进行权衡。我们的工作试图通过提供数据的最佳分布以便从中学习来最小化这种权衡,令人惊讶的是,这可能与原始分布不同。我们使用无限Beta混合模型(IBMM)来表示一组特定的样本。使用贝叶斯优化器(BO)学习IBMM的参数。虽然在简单的假设下,原始$ d $ -dimensional空间中的分布需要针对$ O(d)$变量进行优化 - 对于大多数真实世界的数据来说是繁琐的 - 我们的技术将这个数字显着降低到8个变量的固定集合。一些额外预处理的成本。提出的技术是\ emph {model-agnostic};它可以应用于任何分类器。它还承认模型大小的一般概念。我们使用多个真实世界数据集来证明其有效性,以构建决策树,线性概率模型和梯度增强模型。
translated by 谷歌翻译
从单眼图像估计3d人体姿势是一个具有挑战性的问题,因为人体姿势的多样性和复杂性以及从单一视图中恢复深度的固有模糊性。最近基于深度学习的方法通过在3d姿势注释数据集上使用监督学习来显示预测结果。然而,缺乏在野外设置下捕获的大规模3D注释训练数据使得在野外情况下难以进行3d姿势估计。很少有方法利用来自3d和2d posedatasets的训练图像以弱监督的方式在无约束的设置中学习3d姿势。在本文中,我们提出了一种方法,该方法能够有效地预测2d姿势的3dhuman姿势,使用深受神经网络训练,以严谨监督的方式对地面实况3d姿势和地面实况2d姿势进行组合。我们的方法使用重新投影误差最小化作为约束来预测身体关节的三维位置,这对于不存在三维基础事实的数据是至关重要的。由于单独最小化投影误差可能无法保证精确的三维姿态,我们还会在骨架姿态上使用额外的几何约束来规范3d中的姿态。我们通过对具有挑战性的三维基准数据集MPI的交叉数据集验证证明了我们方法的优越泛化能力。 INF-3DHP包含在狂野的3d姿势。
translated by 谷歌翻译
我们提供了一种实用且强大的深度学习解决方案,用于捕捉和渲染复杂现实世界场景的新视图以进行虚拟探索。以前的方法要么需要难以置信的密集视图采样,要么提供用户应该如何对场景进行采样以提供高质量可靠性的指导新意见。相反,我们从采样视图的不规则网格提出了一种用于视图合成的算法,该算法首先通过多平面图像(MPI)场景表示将每个采样视图扩展为局部光场,然后通过混合相邻的局部光场来渲染新颖视图。我们扩展了传统的全光采样理论,以推导出一个界限,用于精确指定用户在使用我们的算法时应该如何密集地对给定场景的视图进行采样。在实践中,我们应用此界限捕获和渲染真实世界场景,实现奈奎斯特速率视图采样的感知质量,同时使用多达4000倍的视图。我们通过增强现实智能手机应用程序展示了ourapproach的实用性,该应用程序引导用户捕获场景的输入图像,以及在桌面和移动平台上实现实时虚拟探索的查看器。
translated by 谷歌翻译
细粒度实体识别(FgER)是检测实体提及并将其分类为跨越多种领域(如生物医学,金融和体育)的大型类型的任务。我们观察到,当类型集跨越几个域时,实体提及的检测成为受限制的监督学习模型。缺少数据集轮廓边界的主要原因是在覆盖大量实体类型时进行了适当注释。我们的工作直接解决了这个问题我们提出HeuristicsAllied with Distant Supervision(HAnDS)框架来自动构建适合FgER任务的水生数据集。 HAnDS框架以流水线方式利用维基百科和Freebase之间的高度链接,减少了天真使用远程监控方法引入的注释错误。使用HAnDS框架,我们创建了两个数据集,一个适用于构建FgERsystems,基于FIGER类型层次结构识别多达118个实体类型另一个基于TypeNet层次结构的多达1115种实体类型。 Ourextensive经验实验保证了生成的数据集的质量。除此之外,我们还提供了一个手动注释的数据集,用于对FgER系统进行基准测试。
translated by 谷歌翻译
由于数据驱动的应用,递归随机算法在过去的过去引起了极大的关注。例子包括用于解决大规模优化问题的随机梯度下降和用于解决马尔可夫决策问题的经验动态编程算法。这些递归随机算法近似于某些收缩算子,并且可以在迭代随机映射的框架内查看。因此,我们考虑在波兰空间上迭代的随机地图,模拟波兰空间上的收缩操作员。假设迭代映射由$ n $索引,如$ n \ rightarrow \ infty $,随机映射的每个实现(在某种意义上)汇总到它正在模拟的收缩映射。我们表明,从相同的初始条件开始,由迭代随机图生成的随机序列的分布弱收敛到由收缩运算符生成的轨迹。我们进一步表明,在某些条件下,随机序列的时间平均收敛于不变分布的空间平均值。然后,我们将这些结果应用于有限状态有限动作MDP的经验回归,经验值迭代,经验Q值迭代和经验相对值迭代。
translated by 谷歌翻译
手动图像注释,例如定义和标记感兴趣的区域,是许多研究项目和工业应用的基本处理阶段。在本文中,我们介绍了一个简单而独立的手动图像注释工具:VGG图像注释器(\ href {http://www.robots.ox.ac.uk/~vgg/software/via/} {VIA})。这是一个轻量级,独立和脱机的软件包,不需要任何安装或设置,只能在Web浏览器中运行。由于其轻巧和灵活性,威盛软件已迅速成为许多学科中必不可少的宝贵研究支持工具。此外,它在一些工业部门中也非常受欢迎,这些部门已经投资使这种开源软件适应他们的要求。自2017年公开发布以来,VIA软件的使用时间已超过50万美元,并且已经培育了一个庞大而蓬勃发展的开源社区。
translated by 谷歌翻译