我们提出了引导式缩放,这种方法利用空间接地来做出更明智的预测。它通过确保模型具有预测的“正确理由”来实现,被定义为与在训练时间做出类似正确决策的一致的原因。深度神经网络进行预测的原因/证据被定义为在像素空间中对于模型输出中的特定类条件概率的空间基础。引导缩放问题用于进行预测的证据是多么合理。在最先进的深单标签分类模型中,top-k(k = 2,3,4,...)精度通常显着高于top-1精度。这是更明显的细粒度数据集,其中类之间的差异非常微妙。通过引导式缩放,可以在三个细粒度分类数据集上细化模型的分类精度。我们还探讨了不同基础技术的互补性,通过将它们的整体与一种对抗性擦除方法进行比较,该方法迭代地揭示了下一个最具歧视性的证据。
translated by 谷歌翻译
二进制矢量嵌入使得在高维对象的大数据库中能够快速最近邻检索,并且在诸如图像和视频检索的许多实际应用中起重要作用。我们研究了在监督环境下学习二元矢量嵌入的问题,也称为哈希。我们提出了一种基于信息理论数量优化的新型监督哈希方法:互信息。我们表明,优化相互信息可以减少学习汉明空间中诱导邻域结构的模糊性,这对于获得高检索性能至关重要。为此,我们利用小批量随机梯度下降优化深度神经网络中的互信息,并使用最大限度地有效利用可用监督的公式。关于图像检索基准的实验,包括ImageNet,证实了我们的方法在学习最近邻居检索的高质量二进制嵌入方面的有效性。
translated by 谷歌翻译
We present the Moments in Time Dataset, a large-scale human-annotated collection of one million short videos corresponding to dynamic events unfolding within three seconds. Modeling the spatial-audio-temporal dynamics even for actions occurring in 3 second videos poses many challenges: meaningful events do not include only people, but also objects, animals, and natural phenomena; visual and auditory events can be symmetrical in time ("opening" is "closing" in reverse), and either transient or sustained. We describe the annotation process of our dataset (each video is tagged with one action or activity label among 339 different classes), analyze its scale and diversity in comparison to other large-scale video datasets for action recognition, and report results of several baseline models addressing separately, and jointly, three modalities: spatial, temporal and auditory. The Moments in Time dataset, designed to have a large coverage and diversity of events in both visual and auditory modalities, can serve as a new challenge to develop models that scale to the level of complexity and abstract reasoning that a human processes on a daily basis.
translated by 谷歌翻译
哈希或学习二进制数据嵌入经常用于最近邻检索。在本文中,我们开发学习以对公式进行排序,旨在直接优化基于排名的评估指标,如平均精度(AP)和标准化折扣累积增益(NDCG)。我们首先观察到整数值汉明距离经常导致绑定,并建议使用绑定感知版本的AP和NDCG来评估搜索的搜索。然后,为了优化领带感知排名指标,我们推导出他们的连续松弛,并使用深度网络执行基于梯度的优化。我们的结果通过汉明在共同基准测试中的排名建立了最先进的图像检索技术。
translated by 谷歌翻译
生成性对抗网络(GAN)是一类强大的生成模型。尽管取得了成功,但仍然没有很好地理解GAN网络体系结构的最合适选择。用于图像合成的GAN模型采用了深度卷积网络架构,它消除或最小化完全连接和汇集层的使用,有利于GAN的生成器和鉴别器中的卷积层。在本文中,我们证明利用深度完全连接层和池化层的卷积网络架构比传统的仅卷积架构更有效,我们提出FCC-GAN,一种完全连接和卷积的GAN架构。基于我们的FCC-GAN架构的模型比传统架构学得更快,并且还可以生成更高质量的样本。我们展示了我们的四个流行图像数据集的有效性和稳定性。
translated by 谷歌翻译
生成对抗网络(GAN)是一种优雅的数据交换机制。但是,使用GAN时的一个关键挑战是如何最好地衡量他们生成实际数据的能力。在本文中,我们证明了由GAN模型学习的数据空间的内在维度表征导致了GAN质量的有效评估度量。特别是,我们提出了一种新的评估指标CrossLID,它评估了真实世界数据的局部内维度(LID)与在GAN生成的样本中发现的邻域。直观地,CrossLID测量两个数据分布的流形彼此重合的程度。在4个基准图像数据集的实验中,我们将我们提出的度量与几个最先进的评估指标进行比较。我们的实验表明,CrossLID与GAN训练的进展密切相关,对模式塌陷敏感,对小规模噪声和图像变换具有鲁棒性,并且对样本大小具有鲁棒性。此外,我们还展示了如何在GANtraining流程中使用CrossLID来提高发电质量。
translated by 谷歌翻译
红外(IR)图像对于提高暗色或伪装物体的可见度至关重要。基于使用IR图像的神经网络的对象识别和分割比彩色可见图像提供更高的准确性和洞察力。但瓶颈是用于训练的相关红外图像的数量。为特殊目的收集真实的红外图像很困难,包括空间探索,军事和消防应用。为了解决这个问题,我们使用基于Unity的3D游戏编辑器创建了彩色可见光和红外图像。这些合成生成的彩色可见光和红外图像用于循环一致的对抗网络(CycleGAN)以将可见图像转换为IR图像。 CycleGAN的优势在于它不需要精确匹配可见和IR对进行转换训练。在本研究中,我们发现其他合成数据可以帮助改善CycleGAN性能。使用真实数据(N = 20)的神经网络训练比使用真实(N = 10)和合成(N = 10)数据组合的训练执行更准确的变换。结果表明合成数据可以说明真实数据的质量。使用实数(N = 10)和合成(N = 100)数据组合的神经网络训练显示出与使用真实数据(N = 20)的训练几乎相同的性能。要获得相同的性能,至少需要比实际数据多10倍的数据。总之,CycleGAN与合成数据一起使用,以改善可见图像的红外图像转换性能。
translated by 谷歌翻译
为搜索和救援行动尽快找到目标非常重要。监视摄像系统和无人驾驶飞行器(UAV)用于支持搜索和救援。自动物体检测非常重要,因为人无法在24小时内同时监控多个监控屏幕。此外,对象通常太小而无法被监视屏幕上的人道主义识别。这项研究使用了休斯顿港周围的无人机和固定监视摄像机来建立一个自动目标探测系统,该系统支持美国海岸警卫队(USCG)帮助寻找目标(例如,人员偏移)。我们将图像分割,增强和卷积神经网络相结合,以减少检测小目标的检测时间。我们比较了自动检测系统和人眼之间的性能。我们的系统在8秒内检测到目标,但人眼在25秒内检测到目标。我们的系统还使用合成数据生成和数据增强技术来提高目标检测精度。该解决方案可以及时地帮助第一响应者的搜索和救援操作。
translated by 谷歌翻译
雷达在不同的天气和照明条件下探测稳定的远程物体,使其成为一种可靠且通用的传感器,非常适合放大运动估计。在这项工作中,我们提出了一种仅用于雷达的测距管道,它对雷达伪像(例如散斑噪声和假存储)非常鲁棒,并且只需要一个输入参数。我们展示了它能够适应各种环境,从英国城市到越野冰岛,在使用GPSas地面实况时(与视觉测距仪的5.77厘米和0.1032度相比)实现了大约5.20厘米和0.0929度的ascan匹配精度。我们提出了关键点提取和数据关联算法,将thelatter框架化为图匹配优化问题,并提供深入的系统分析。
translated by 谷歌翻译
虽然自闭症谱系障碍(ASD)的患病率正在增加,但对共同病因学定义的研究仍在继续。在这方面,现代机器学习和网络科学为更好地理解病理学和诊断辅助系统的发展铺平了道路。与此同时,数据共享的文化在这个方向上有利,有大型数据集的可用性,如自闭症脑成像数据交换(ABIDE)。目前的工作通过结合关于大脑的解剖学和功能活动的知识来解决非典型和ASD受试者的分类。特别地,我们将脑结构建模为图形,并且时变静止状态功能MRI(rs-fMRI)作为存在于该图的节点上的值发信号。然后,我们借助新兴的图形信号处理(GSP)领域的工具来构建与这些信号的频率内容相关的特征。为了使具有高度辨别力的特征,我们应用了Fukunaga-Koontz变换的扩展。最后,我们使用这些新标记来训练确定性树,这是一种可解释的分类方案,从而形成最终诊断辅助模型。有趣的是,最终的决策树优于ABIDE数据集上最先进的方法。此外,对预测标志物的分析揭示了额叶和颞叶对该疾病的诊断的影响,这与先前在神经科学文献中的发现一致。我们的研究结果表明,利用大脑的联合结构和功能信息可以揭示关于神经病理学复杂性的重要信息。
translated by 谷歌翻译