大规模数据集可能包含大量噪声(不正确)类标签,众所周知,现代深度神经网络(DNN)很难从这种嘈杂的训练数据集中推广出来。为了缓解这个问题,我们提出了一种新的推理方法,称为鲁棒生成分类器(RoG),适用于在噪声数据集上预训练的任何判别(例如,softmax)神经分类器。特别地,我们在预训练的DNN的隐藏特征空间的顶部诱导生成分类器,以获得更鲁棒的决策边界。通过使用最小协方差行列式估计器估计生成分类器的参数,我们显着提高了分类准确性,既没有重新训练深度模型也没有改变体系结构。通过对特征的高斯分布假设,证明了RoG在噪声标记下的推广优于基线。最后,我们提出了RoG的集合版本,通过研究DNN的分层特征来提高其性能。我们广泛的实验结果证明了RoG的优越性,给出了通过几种训练技术优化的不同学习模型来处理噪声标签的多样性。
translated by 谷歌翻译
在视觉监控系统中,有必要认识到人们处理诸如电话,杯子或塑料袋之类物体的行为。在本文中,为了解决这个问题,我们提出了一个新的框架,用于通过图形卷积网络使用人类和对象姿势识别与对象相关的人类行为。在此框架中,我们通过选择性地对视频中的信息帧进行采样来构建可靠人类的骨架图,其中包括在姿势估计中获得的具有高置信度分数的人类关节。从采样帧生成的骨架图表示与空间域和时域中的对象位置相关的人体姿势,并且这些图被用作图卷积网络的输入。通过开放基准和我们自己的数据集进行实验,我们验证了框架的有效性,因为我们的方法优于基于骨架的动作识别的最先进方法。
translated by 谷歌翻译
给定图形模型(GM),计算其分区函数是最重要的推理任务,但它在计算上通常是难以处理的。针对该问题,探索GM的某些局部结构/一致性的迭代近似算法已被研究作为实践中的流行选择。然而,由于它们的局部/迭代性质,它们经常输出异常或甚至不收敛,例如,在低温状态(大参数的硬实例)中。为了克服这个限制,我们提出了利用GM的全局光谱特征的新方法。我们的贡献是双重的:(a)我们首先提出一种完全多项式时间近似方案(FPTAS),用于近似与低阶秩耦合矩阵相关的GM的分区函数; (b)对于一般的高阶GM,我们利用(a)作为子程序设计一个光谱领域方案,其中它将高阶GM近似为秩-1 GM的乘积,以便有效地近似分区函数。所提出的算法在运行时间和精度上比现有方法更稳健,即,既不会遇到收敛问题,也不依赖于硬局部结构,如我们的实验所示。
translated by 谷歌翻译
已经提出了区域辍学策略来增强卷积神经网络分类器的性能。事实证明,它们可以有效地指导模型参与对象的较少辨别部分(例如,与人的头部相对应的腿),从而使网络更好地概括并具有更好的对象定位能力。另一方面,当前用于区域性丢失的方法通过覆盖黑色像素或随机噪声的斑块来移除训练图像上的信息像素。 {这种移除是不可取的,因为它会导致信息丢失和训练期间的低效率。}因此,我们提出了CutMix增强策略:在训练图像之间切割和粘贴补丁,其中地面实况标签与补丁区域成比例地混合。通过有效利用训练像素和\ mbox {保持}区域放弃的正规化效果,CutMix始终优于CIFAR和ImageNet分类任务以及ImageNet弱监督本地化任务的最新增强策略。此外,与先前的增强方法不同,我们的CutMix训练的ImageNet分类器在用作预训练模型时,可以在Pascal检测和MS-COCO图像字幕基准测试中获得一致的性能提升。我们还展示了CutMix改进了针对输入损坏及其分布式检测性能的模型稳健性。
translated by 谷歌翻译
我们研究了无监督域适应的问题,该问题旨在使在标记源域上训练的模型适应完全未标记的靶域。领域对抗训练是一种很有前途的方法,并且已成为许多最先进的无监督领域适应方法的基础。领域对抗训练的思想是通过对抗训练域分类器来对齐源域和目标域之间的特征空间。特征编码器。最近,聚类假设已经应用于无监督域适应并且实现了强大的性能。在本文中,我们提出了一种称为虚拟混合训练(VMT)的新正则化方法,它能够进一步约束聚类假设的假设.VMT的思想是通过平滑输出分布来对模型施加局部Lipschitz约束。训练样本之间的界限。与传统的混合模型不同,我们的方法构建没有标签信息的组合样本,允许它适用于受监督的域自适应。所提出的方法是通用的,并且可以使用域对抗训练与现有方法组合。我们将VMT与最近最先进的VADA模型结合起来,广泛的实验表明VMT显着提高了VADA在severaldomain自适应基准数据集上的性能。对于将MNIST适应SVHN的挑战性任务,当不使用实例规范化时,VMT将VADA的准确性提高了30%以上。当使用实例归一化时,我们的模型实现了96.4%的准确度,这非常接近于目标模型的准确度(96.5%)。代码将公开发布。
translated by 谷歌翻译
在这项工作中,我们定义了一个具有多个分布式教师的协作和隐私保护机器教学范例。我们专注于共识教学。它的目的是组织分布式教师共同选择紧凑型教学,同时从教师托管的数据中获取信息性训练子集,以使学习者更好地学习。挑战来自三个方面。首先,最先进的基于池的超级教学方法应用混合整数非线性规划(MINLP),它不能很好地扩展到非常大的数据集。其次,希望在协作阶段期间将教师的数据访问仅限于他们自己的数据以减轻隐私泄漏。最后,教学协作应该是通信高效的,因为大的通信开销会导致教师之间的同步延迟。为了应对这些挑战,我们将协作教学制定为共识和保护隐私的优化过程,以最大限度地减少教学风险。我们理论上证明了教师之间合作的必要性,以改善学习者的学习。此外,我们证明了所提出的方法具有与adaptiveLasso的Oracle属性类似的属性。实证研究表明,我们的教学方法可以高速地提供更准确的教学结果,而基于MINLP的超级教学则变得过于昂贵。
translated by 谷歌翻译
图像生成在学术和工业领域引起了极大的关注,特别是对于有条件和面向目标的图像生成,例如犯罪肖像和时装设计。虽然目前的研究已经沿着这个方向取得了初步成果,但它们总是把重点放在类标签上,作为从潜在载体中随机生成空间内容的条件。边缘细节通常是模糊的,因为难以保留空间信息。鉴于此,我们提出了一种新颖的空间约束生成对抗网络(SCGAN),它将空间约束与潜在向量分离,并使这些约束可以作为附加的可控信号。为了增强空间可控性,生成器网络专门设计为逐步采用语义分割,潜在向量和属性级别标签作为输入。此外,构造分段网络以对发生器施加空间约束。在实验上,我们提供了CelebA和DeepFashion数据集的视觉和定量结果,并证明了所提出的SCGAN在控制空间内容以及生成高质量图像方面非常有效。
translated by 谷歌翻译
红外(IR)图像对于提高暗色或伪装物体的可见度至关重要。基于使用IR图像的神经网络的对象识别和分割比彩色可见图像提供更高的准确性和洞察力。但瓶颈是用于训练的相关红外图像的数量。为特殊目的收集真实的红外图像很困难,包括空间探索,军事和消防应用。为了解决这个问题,我们使用基于Unity的3D游戏编辑器创建了彩色可见光和红外图像。这些合成生成的彩色可见光和红外图像用于循环一致的对抗网络(CycleGAN)以将可见图像转换为IR图像。 CycleGAN的优势在于它不需要精确匹配可见和IR对进行转换训练。在本研究中,我们发现其他合成数据可以帮助改善CycleGAN性能。使用真实数据(N = 20)的神经网络训练比使用真实(N = 10)和合成(N = 10)数据组合的训练执行更准确的变换。结果表明合成数据可以说明真实数据的质量。使用实数(N = 10)和合成(N = 100)数据组合的神经网络训练显示出与使用真实数据(N = 20)的训练几乎相同的性能。要获得相同的性能,至少需要比实际数据多10倍的数据。总之,CycleGAN与合成数据一起使用,以改善可见图像的红外图像转换性能。
translated by 谷歌翻译
为搜索和救援行动尽快找到目标非常重要。监视摄像系统和无人驾驶飞行器(UAV)用于支持搜索和救援。自动物体检测非常重要,因为人无法在24小时内同时监控多个监控屏幕。此外,对象通常太小而无法被监视屏幕上的人道主义识别。这项研究使用了休斯顿港周围的无人机和固定监视摄像机来建立一个自动目标探测系统,该系统支持美国海岸警卫队(USCG)帮助寻找目标(例如,人员偏移)。我们将图像分割,增强和卷积神经网络相结合,以减少检测小目标的检测时间。我们比较了自动检测系统和人眼之间的性能。我们的系统在8秒内检测到目标,但人眼在25秒内检测到目标。我们的系统还使用合成数据生成和数据增强技术来提高目标检测精度。该解决方案可以及时地帮助第一响应者的搜索和救援操作。
translated by 谷歌翻译
多模态人体运动分析是一个关键且有吸引力的研究主题。大多数现有的多模态动作数据集仅提供视觉模态,例如RGB,深度或低质量骨架数据。在本文中,我们引入了一个名为EV-Action数据集的新的大规模数据集。它包括RGB,深度,肌电图(EMG)和两种骨架模态。与其他人相比,我们的数据库有两个主要的改进:(1)我们采用运动捕捉系统来获得高质量的骨架模态,提供更全面的运动信息,包括骨架,轨迹和加速度,具有高精度,采样频率和更多的骨架标记。 (2)我们包括EMGmodality。虽然EMG被用作生物力学领域的有效指标,但在多媒体,计算机视觉和机器学习领域尚未得到很好的探索。据我们所知,这是第一个具有EMG模态的动作数据集。在本文中,我们将介绍EV-Actiondataset的详细信息。提出了一种基于EMG的动作识别的简单而有效的框架。此外,我们为每种模式提供最先进的基线。当涉及EMG时,这些方法取得了相当大的改进,并且它证明了EMG模态在人类行动分析任务中的有效性。我们希望这个数据集能够对信号处理做出重大贡献。 ,多媒体,计算机视觉,机器学习,生物力学和其他交叉学科领域。
translated by 谷歌翻译