机器学习正在从艺术和科学转变为可供每个开发人员使用的技术。在不久的将来,每个平台上的每个应用程序都将包含训练有素的模型,以编码开发人员无法创作的基于数据的决策。这提出了一个重要的工程挑战,因为目前数据科学和建模在很大程度上与标准软件开发过程脱钩。这种分离使得在应用程序内部的机器学习能力不必要地变得困难,并且进一步阻碍了开发人员将MLin置于首位。在本文中,我们介绍了ML .NET,这是一个在过去十年中在Microsoft开发的框架,用于应对在大型软件应用程序中轻松发布机器学习模型的挑战。我们提出了它的架构,并阐明了形成它的应用程序需求。具体而言,我们引入了DataView,它是ML .NET的核心数据抽象,它可以有效地,一致地捕获完整的预测管道,并在训练和推理生命周期中进行。我们结束了论文,对ML .NET进行了令人惊讶的有利的性能研究,与更多的接受者相比,并讨论了一些经验教训。
translated by 谷歌翻译
神经网络很容易受到对抗性攻击 - 视觉上不易察觉的小噪声,当加到输入端时会大大改变输出。防御这些敌对攻击的最有效方法是使用对抗性训练的方法。我们分析了经过对侧训练的强大模型,以研究它们在潜层层面对抗对抗性攻击的脆弱性。我们的分析揭示了与对抗性攻击具有鲁棒性的输入层相反,这些鲁棒模型的特征层非常容易受到小幅度的对抗性扰动。利用这些信息,我们引入了一种新技术潜在对抗训练(LAT),其中包括对经过对侧训练的模型进行微调,以确保在特征层中的稳健性。我们还提出潜在攻击(LA),一种用于构建对抗性示例的新算法。 LAT导致测试精度的微小改进,并导致针对MNIST,CIFAR-10,CIFAR-100数据集显示的通用一阶对抗性PGD攻击的最新对抗精度。
translated by 谷歌翻译
模型通常需要被约束到一定的大小以使它们被认为是可解释的,例如,深度5的决策树比深度30中的一个更容易理解。这表明在可解释性和准确性之间进行权衡。我们的工作试图通过提供数据的最佳分布以便从中学习来最小化这种权衡,令人惊讶的是,这可能与原始分布不同。我们使用无限Beta混合模型(IBMM)来表示一组特定的样本。使用贝叶斯优化器(BO)学习IBMM的参数。虽然在简单的假设下,原始$ d $ -dimensional空间中的分布需要针对$ O(d)$变量进行优化 - 对于大多数真实世界的数据来说是繁琐的 - 我们的技术将这个数字显着降低到8个变量的固定集合。一些额外预处理的成本。提出的技术是\ emph {model-agnostic};它可以应用于任何分类器。它还承认模型大小的一般概念。我们使用多个真实世界数据集来证明其有效性,以构建决策树,线性概率模型和梯度增强模型。
translated by 谷歌翻译
我们提供了一种实用且强大的深度学习解决方案,用于捕捉和渲染复杂现实世界场景的新视图以进行虚拟探索。以前的方法要么需要难以置信的密集视图采样,要么提供用户应该如何对场景进行采样以提供高质量可靠性的指导新意见。相反,我们从采样视图的不规则网格提出了一种用于视图合成的算法,该算法首先通过多平面图像(MPI)场景表示将每个采样视图扩展为局部光场,然后通过混合相邻的局部光场来渲染新颖视图。我们扩展了传统的全光采样理论,以推导出一个界限,用于精确指定用户在使用我们的算法时应该如何密集地对给定场景的视图进行采样。在实践中,我们应用此界限捕获和渲染真实世界场景,实现奈奎斯特速率视图采样的感知质量,同时使用多达4000倍的视图。我们通过增强现实智能手机应用程序展示了ourapproach的实用性,该应用程序引导用户捕获场景的输入图像,以及在桌面和移动平台上实现实时虚拟探索的查看器。
translated by 谷歌翻译
细粒度实体识别(FgER)是检测实体提及并将其分类为跨越多种领域(如生物医学,金融和体育)的大型类型的任务。我们观察到,当类型集跨越几个域时,实体提及的检测成为受限制的监督学习模型。缺少数据集轮廓边界的主要原因是在覆盖大量实体类型时进行了适当注释。我们的工作直接解决了这个问题我们提出HeuristicsAllied with Distant Supervision(HAnDS)框架来自动构建适合FgER任务的水生数据集。 HAnDS框架以流水线方式利用维基百科和Freebase之间的高度链接,减少了天真使用远程监控方法引入的注释错误。使用HAnDS框架,我们创建了两个数据集,一个适用于构建FgERsystems,基于FIGER类型层次结构识别多达118个实体类型另一个基于TypeNet层次结构的多达1115种实体类型。 Ourextensive经验实验保证了生成的数据集的质量。除此之外,我们还提供了一个手动注释的数据集,用于对FgER系统进行基准测试。
translated by 谷歌翻译
由于数据驱动的应用,递归随机算法在过去的过去引起了极大的关注。例子包括用于解决大规模优化问题的随机梯度下降和用于解决马尔可夫决策问题的经验动态编程算法。这些递归随机算法近似于某些收缩算子,并且可以在迭代随机映射的框架内查看。因此,我们考虑在波兰空间上迭代的随机地图,模拟波兰空间上的收缩操作员。假设迭代映射由$ n $索引,如$ n \ rightarrow \ infty $,随机映射的每个实现(在某种意义上)汇总到它正在模拟的收缩映射。我们表明,从相同的初始条件开始,由迭代随机图生成的随机序列的分布弱收敛到由收缩运算符生成的轨迹。我们进一步表明,在某些条件下,随机序列的时间平均收敛于不变分布的空间平均值。然后,我们将这些结果应用于有限状态有限动作MDP的经验回归,经验值迭代,经验Q值迭代和经验相对值迭代。
translated by 谷歌翻译
手动图像注释,例如定义和标记感兴趣的区域,是许多研究项目和工业应用的基本处理阶段。在本文中,我们介绍了一个简单而独立的手动图像注释工具:VGG图像注释器(\ href {http://www.robots.ox.ac.uk/~vgg/software/via/} {VIA})。这是一个轻量级,独立和脱机的软件包,不需要任何安装或设置,只能在Web浏览器中运行。由于其轻巧和灵活性,威盛软件已迅速成为许多学科中必不可少的宝贵研究支持工具。此外,它在一些工业部门中也非常受欢迎,这些部门已经投资使这种开源软件适应他们的要求。自2017年公开发布以来,VIA软件的使用时间已超过50万美元,并且已经培育了一个庞大而蓬勃发展的开源社区。
translated by 谷歌翻译
我们描述了一种配备好奇心算法(CA)的化学机器人助手,可以有效地探索复杂的化学系统canexhibit状态。 CA机器人旨在以开放式方式探索配方,没有明确的优化目标。通过将CA机器人应用于自行推进的多组分水包油滴的研究,我们能够观察到与随机参数搜索相比可能具有更多种类的液滴行为并给出相同的预算。我们证明了CA机器人能够发现液滴突然且高度特异性地响应微小的温度变化。鉴定了六种自推进液滴运动模式,并使用包括NMR在内的各种技术探测时间 - 温度相位图进行分类。这项工作说明了目标免费搜索可以显着提高不可预测的观察率,从而导致具有潜在应用信息化学的新发现。
translated by 谷歌翻译
异常活动识别需要检测遭受严重数据不平衡的异常事件的发生。在视频中,normal用于描述符合常规事件的活动,而不符合法线的不规则事件被称为异常。观察正常数据比在视觉监控中获取异常数据更为常见。在本文中,我们提出了一种方法,我们可以通过转换正常数据来获得异常数据。这是一项具有挑战性的任务,通过多阶段管道方法实现。我们利用来自无监督分割的许多技术来合成从现有的一组正常示例转换的新数据样本。此外,该合成方法作为数据增强技术具有有用的应用。使用增量训练的贝叶斯卷积神经网络(CNN)来仔细选择可以添加的异常样本集。最后,通过这种合成方法,我们获得了一组可比较的异常样本,可用于训练CNN用于正常分类。异常样本。我们展示了这种方法通过在两个真实世界数据集上进行评估来推广到多个设置,并且通过过去用于此任务的其他概率技术实现了改进的性能。
translated by 谷歌翻译
尽管在使用卷积神经网络的图像分割领域已经进行了许多改进,但是这些改进中的大多数依赖于具有较大数据集,模型架构修改,新颖损失函数和更好的优化器的训练。在本文中,我们提出了一种新的分段性能提升范例,它依赖于最优地修改网络输入而不是网络本身。特别地,我们利用训练的分割网络的梯度来考虑输入,将其转移到分割准确度提高的空间。我们在三个公开的医学图像分割数据集上测试了所提出的方法:ISIC 2017皮肤损伤分割数据集,深圳胸部X射线数据集和CVC-ColonDB数据集,我们的方法实现了5.8%,0.5%和4.8%的改进在平均Dice分数中。
translated by 谷歌翻译