视觉检测器的域适应是一个关键挑战,但现有方法忽略了像素外观变换,而是关注引导和/或域混淆损失。我们提出了一种语义像素级适应变换(SPLAT)方法,用于检测器自适应,有效生成跨域图像对。我们的模型使用对齐对和/或假标签损失来使对象检测器适应目标域,并且可以在源中具有或不具有密集标记数据的情况下进行转换(例如,语义分段注释)。如果没有密集标签,就像在源中只有检测标签的情况那样,使用CycleGAN对齐来学习转换。否则,当密集标签可用时,我们引入了一种更有效的无循环方法,该方法利用像素级语义标签来调节转换网络的训练。然后使用来自源的检测框标签训练末端任务,可能包括在未标记的源数据上推断的标签。我们展示了像素级变换优于先前的检测器域适应方法,并且我们的无循环方法优于先前的模型,用于通用变换的无约束循环学习,同时运行速度快3.8倍。我们的组合模型改进了先前的检测基线12.5mAP,从Sim 10K改编为Cityscapes,恢复了未适应基线和标记目标上限之间缺失性能的50%以上。
translated by 谷歌翻译
我们提出了一个新的数据集,用于评估问答模型,以及它们推理信念的能力。我们的任务受到心理学实验的启发,这些实验检查儿童是否能够推理出他人的信仰,特别是当这些信念与现实不同时。我们通过记忆增强来评估一些最近的神经模型。我们发现所有任务都失败了,这需要跟踪世界的不一致状态;此外,当在测试中将随机句子引入任务时,模型的准确性显着降低。
translated by 谷歌翻译
已知大多数机器学习方法捕获和利用训练数据的偏差。虽然有些偏见有利于学习,但其他偏见却是有害的。具体而言,图像字幕模型倾向于夸大训练数据中存在的偏差。由于过度依赖于学习的前端和图像上下文,这可能导致需要或需要无偏字幕的域中的字幕不正确。我们根据人的外观或图像背景调查性别特定字幕词(例如男人,女人)的生成。我们引入了一个新的均衡器模型,该模型确保在场景中阻止证据的相同性别概率和存在性别证据时的自信预测。由此产生的模型被迫查看一个人,而不是使用上下文线索来进行性别特定的预测。包含我们模型的损失,外观混淆损失和置信损失,一般都可以添加到任何描述模型中,以减轻描述数据集中不需要的偏差的影响。我们提出的模型在向人们描述图像时提出了较低的错误,并提及他们的性别,并且更接近地匹配包括男性在内的女性的句子的基本真实比率。
translated by 谷歌翻译
在过去的几年里,机器学习引起了新的兴趣,之前有许多研究表明神经网络在一系列任务中的有效性,而这些任务以前被认为是非常难以理解的。神经网络在图像识别和自然语言处理领域的有效性主要源于公司和研究人员可用的大量数据,以及现代加速器(如GPU,FPGA和ASIC)中可用的大量计算能力。开发人员可以使用的方法来利用SYGP,OpenCL和CUDA等GPGPU技术,但是许多应用程序需要相同的低级数学例程。致力于加速这些通用例程的库允许开发人员轻松地充分利用可用的硬件,而不需要对硬件本身的低级知识,但是这些库通常由硬件制造商提供特定的硬件,例如用于Nvidia硬件的cuDNN或用于AMD硬件的MIOpen。 SYCL-DNN是一个新的开源库,专门为神经网络操作提供加速程序,这些程序是硬件和供应商无关的。建立在SYCL开放标准之上,完全用标准C ++编写,SYCL-DNN允许用户轻松加速神经使用现代C ++接口的各种硬件的网络代码。该库在用于GPU的AMD'sOpenCL,用于CPU和GPU的Intel的OpenCL,用于Mali GPU的ARM的OpenCL以及用于R-Car CV引擎和主机CPU的ComputeAorta的OpenCL上进行了测试。在本次演讲中,我们将介绍SYCL-DNN在这一系列硬件上的性能数据,并讨论如何在具有这些不同硬件功能的各种加速器上实现高性能。
translated by 谷歌翻译
儿童孤独症谱系障碍(ASD)的诊断通常还伴有感觉加工障碍的诊断。异常通常在多个感觉加工领域中报告,表现出较高的异常反应,尤其是触觉,听觉和视觉刺激。本文讨论了一种新型的基于机器人的框架,旨在针对ASD患儿在控制环境中面临的感觉困难。该装置包括许多感觉站,以及机器人代理,这些机器人代理在导航站点并在呈现时与刺激物相互作用。这些刺激被设计成类似于真实世界场景,形成了一个人日常经历的共同部分。在一般技术和机器人中,我们非常关注ASD患儿的兴趣,我们尝试利用我们的机器人平台在互动的教学环境中展示社会可接受的刺激反应,从而鼓励孩子的社交,运动和声乐技巧,同时提供adiverse感官体验。进行了一项用户研究,以评估拟议框架的有效性,共有18名参与者(5名ASD和13名正常发展),年龄在4至12岁之间。我们描述了我们的数据收集方法,视频数据编码以及从研究中获得的结果分析。我们还讨论了当前工作的局限性,并详细说明了我们未来工作的计划,以提高获得结果的有效性。
translated by 谷歌翻译
Seglearn是一个开源的python包,用于使用滑动窗口分割方法的机器学习时间序列序列。该实现提供了一个灵活的管道,用于处理多变量序列和上下文数据的分类,回归和预测问题。此包与scikit-learn兼容,并列在scikit-learnRelated Projects下。该软件包依赖于numpy,scipy和scikit-learn.Seglearn是根据BSD 3条款许可证分发的。文档包括详细的API描述,用户指南和示例。单元测试提供高度的代码覆盖率。
translated by 谷歌翻译
由物体引起的色感取决于照明的光谱功率分布和被照射的物体的反射特性。色感可以通过三个颜色空间值来表征,例如XYZ,RGB,HSV,L * a * b *等。在给定光源和反射率曲线的情况下,可以直接计算三个值。给定颜色空间值和光源计算反射率曲线的逆过程由于无限多个不同的反射率曲线可以产生单组颜色空间值(同色异谱)这一事实而变得复杂。本文提出了五种算法,用于从特定的sRGB三元组生成反射曲线,这是针对一个特定的。算法设计用于生成与天然彩色物体相似的反射曲线。将计算出的反射率曲线与数千个反射曲线的数据库进行比较,所述反射曲线是从商业和固有的油漆和颜料测量的,并且量化相似性。这些算法的一个特别有用的应用是计算机图形学领域,其中建模变换有时需要波长特定的信息,例如当建模减色混合时。
translated by 谷歌翻译
To solve key biomedical issues, experimentalists now routinely measure millions or billions of features (dimensions) per individual, with the hope that machine learning techniques will be able to build an accurate data-driven assay. Because sample sizes are typically orders of magnitude smaller than the dimensionality of these data, success requires finding a low-dimensional representation that preserves the discriminating information (e.g., whether the individual suffers from a particular disease). Although principal components analysis (PCA) is widely used to find low-dimensional representations, it ignores class labels, thereby discarding information that could substantially improve downstream classification performance. We introduce "Linear Optimal Low-rank" projection (LOL), which extends PCA by incorporating class labels in a simple and straightforward fashion (computing the means and variances per class, rather than pooling across classes). The simplicity of LOL enables straightforward generalizations, such as learning nonlinear class boundaries and being robust to outliers. We prove, and substantiate with both synthetic and real data benchmarks, that LOL leads to a better representation of the data for subsequent classification than other linear approaches, while adding negligible computational cost. In particular, using a brain imaging dataset consisting of >500 million features and 400 gigabytes of data, LOL achieves better accuracy than other methods for any dimensionality, while only requiring a few minutes on a standard desktop computer. Supervised learning-the art and science of estimating statistical relationships using labeled training data-has enabled a wide variety of basic and applied findings, ranging from discovering biomarkers in omics data [1] to recognizing objects from images [2]. A special case of supervised learning is classification, where a classifier predicts the "class" of a novel observation (for example, by predicting sex from an MRI scan). One of the most foundational and important approaches to classification is Fisher's Linear Discriminant Analysis (LDA) [3]. LDA has a number of highly desirable properties for a classifier. First, it is based on simple geometric reasoning: when the data are Gaussian, all the information is in the means and variances, so the optimal classifier uses both the means and the variances. Second, LDA can be applied to multiclass problems. Third, theorems guarantee that when the sample size n is large and the dimensionality p is relatively small, LDA converges to the optimal classifier under the Gaussian assumption. Finally, algorithms for implementing it are highly efficient. Modern scientific datasets, however, present challenges for classification that were not addressed in Fisher's era. Specifically, the dimensionality of datasets is quickly ballooning. Current raw data can consist of hundreds of millions of features or dimensions; for example, an entire genome or connectome. Yet, t
translated by 谷歌翻译
集合方法 - 特别是基于决策树的方法 - 最近在各种机器学习环境中表现出优异的性能。我们引入了许多现有决策树方法的概括,称为“随机投影森林”(RPF),它是使用(可能是数据相关和随机)线性投影的任何决策林。使用这个框架,我们引入了一个名为“Lumberjack”的特殊情况,使用非常稀疏的randomprojection,即一小部分特征的线性组合.Lumberjack在RandomForests,Gradient Boosted Trees和其他方法上获得统计上显着提高的准确性。用于分类的标准基准测试,具有不同的尺寸,样本大小和类别数量。为了说明Lumberjack如何,为什么以及何时优于其他方法,我们在矢量,图像和非线性流形中进行了广泛的模拟实验。 Lumberjack通常比现有的决策树集合产生更好的性能,同时降低计算效率和可扩展性,并保持可解释性。伐木工人可以很容易地融入其他集合方法,例如加强以获得潜在的相似收益。
translated by 谷歌翻译