新颖的类发现(NCD)的目的是在一个未标记的数据集中推断出新的类别,该数据集利用了包含不相交但相关类别的标签集的先验知识。现有的研究主要侧重于利用方法学层面的标签集,而不太强调标记集合本身的分析。因此,在本文中,我们从标记的集合中重新考虑了小说类发现,并关注两个核心问题:(i)给定特定的未标记集,什么样的标签集可以最好地支持新颖的类发现? (ii)NCD的基本前提是标记的集合必须与未标记的集合有关,但是我们如何衡量这种关系?对于(i),我们提出并证实了这样的假设,即NCD可以从具有与未标记集的标签相似性的标签集中受益更多。具体而言,我们通过利用其层次结构结构来建立一个广泛而大规模的基准,在Imagenet上标记/未标记的数据集之间具有不同程度的语义相似性。作为鲜明的对比,现有的NCD基准是根据具有不同类别和图像的标签集开发的,并且完全忽略了语义关系。对于(ii),我们引入了一个数学定义,用于量化标记和未标记集之间的语义相似性。此外,我们使用此指标来确认我们提出的基准测试的有效性,并证明它与NCD性能高度相关。此外,在没有定量分析的情况下,以前的工作通常认为标签信息总是有益的。但是,违反直觉,我们的实验结果表明,使用标签可能会导致低相似性设置中的次级优势。
translated by 谷歌翻译
视觉和听力是两种在人类交流和场景理解中起着至关重要的作用的感觉。为了模仿人类的感知能力,旨在开发从音频和视觉方式学习的计算方法的视听学习一直是一个蓬勃发展的领域。预计可以系统地组织和分析视听领域的研究的全面调查。从对视听认知基础的分析开始,我们介绍了几个关键发现,这些发现激发了我们的计算研究。然后,我们系统地回顾了最近的视听学习研究,并将其分为三类:视听,跨模式感知和视听合作。通过我们的分析,我们发现,跨语义,空间和时间支持上述研究的视听数据的一致性。为了重新审视视听学习领域的当前发展,我们进一步提出了关于视听场景理解的新观点,然后讨论和分析视听学习领域的可行未来方向。总体而言,这项调查从不同方面审查并展示了当前视听学习领域。我们希望它可以为研究人员提供对这一领域的更好理解。发布了包括不断更新的调查在内的网站:\ url {https://gewu-lab.github.io/audio-visual-learning/}。
translated by 谷歌翻译
视觉和听觉信息对于确定视频中的显着区域都是有价值的。深度卷积神经网络(CNN)展示了应对视听显着性预测任务的强大能力。由于各种因素,例如拍摄场景和天气,源训练数据和目标测试数据之间通常存在适度的分布差异。域差异导致CNN模型目标测试数据的性能降解。本文提前尝试解决视听显着性预测的无监督域适应问题。我们提出了一种双重域交流学习算法,以减轻源数据和目标数据之间的域差异。首先,建立了一个特定的域歧视分支,以对齐听觉功能分布。然后,这些听觉功能通过跨模式自我发项模块融合到视觉特征中。设计了其他域歧视分支,以减少视觉特征的域差异和融合视听特征所隐含的视听相关性的差异。公共基准测试的实验表明,我们的方法可以减轻域差异引起的性能降解。
translated by 谷歌翻译
主动学习是自动化机器学习系统的重要技术。与旨在自动化神经网络体系结构设计的神经体系结构搜索(NAS)相反,主动学习旨在自动化培训数据选择。对于训练长尾巴的任务尤其重要,在该任务中,在该任务中,稀疏的样品分布稀疏。主动学习通过逐步培训模型,以有效的数据选择来减轻昂贵的数据注释问题。它没有注释所有未标记的样本,而是迭代选择并注释最有价值的样本。主动学习在图像分类中很受欢迎,但在对象检测中尚未得到充分探索。当前的大多数对象检测方法都通过不同的设置进行评估,因此很难公平地比较其性能。为了促进该领域的研究,本文贡献了一个活跃的学习基准框架,称为Albench,用于评估对象检测中的主动学习。该Albench框架在自动深层模型训练系统上开发,易于使用,与不同的主动学习算法兼容,并确保使用相同的培训和测试协议。我们希望这种自动化的基准系统能够帮助研究人员轻松复制文学的表现,并与先前的艺术进行客观的比较。该代码将通过GitHub发布。
translated by 谷歌翻译
在我们的日常生活中,视听场景是普遍存在的。对于人类来说是常见的常见地定位不同的探测物体,但是对于在没有类别注释的情况下实现类感知的声音对象本地化的机器非常具有挑战性,即,本地化声音对象并识别其类别。为了解决这个问题,我们提出了一个两阶段的逐步学习框架,以仅使用音频和视觉之间的对应方式本地化和识别复杂的视听方案中的探测对象。首先,我们建议通过单一源案例中通过粗粒化的视听对应来确定声音区域。然后,声音区域中的视觉功能被利用为候选对象表示,以建立类别表示对象字典,用于表达视觉字符提取。我们在鸡尾酒会方案中生成类感知对象本地化映射,并使用视听对应来抑制静音区域来引用此字典。最后,我们使用类别级视听一致性作为达到细粒度音频和探测物体分布对齐的监督。关于现实和综合视频的实验表明,我们的模型在本地化和识别物体方面是优越的,以及滤除静音。我们还将学习的视听网络转移到无监督的对象检测任务中,获得合理的性能。
translated by 谷歌翻译
深度卷积神经网络(DCNNS)的最新进展显示了热量的性能改进,可见的脸部合成和匹配问题。然而,当前的基于DCNN的合成模型在具有大姿势变化的热面上不太良好。为了处理该问题,需要异构面部额定化方法,其中模型采用热剖面图像并产生正面可见面。这是由于大域的一个极其困难的问题,以及两个模式之间的大姿态差异。尽管其在生物识别和监测中存在应用,但文献中的这种问题相对未探索。我们提出了一种域名不可知论的基于学习的生成对抗网络(DAL-GAN),其可以通过具有姿势变化的热面来合成可见域中的前视图。 Dal-GaN由具有辅助分类器的发电机和两个鉴别器,捕获局部和全局纹理鉴别以获得更好的合成。在双路径训练策略的帮助下,在发电机的潜在空间中强制实施对比度约束,这改善了特征向量辨别。最后,利用多功能损失函数来指导网络合成保存跨域累加的身份。广泛的实验结果表明,与其他基线方法相比,Dal-GaN可以产生更好的质量正面视图。
translated by 谷歌翻译
磁共振光谱(MRS)是揭示代谢信息的无创工具。 1H-MRS的一个挑战是低信号噪声比(SNR)。为了改善SNR,一种典型的方法是用M重复样品进行信号平均(SA)。但是,数据采集时间相应地增加了M次,并且在公共环境M = 128时,完整的临床MRS SCAN大约需要10分钟。最近,引入了深度学习以改善SNR,但大多数人将模拟数据用作培训集。这可能会阻碍MRS应用程序,因为某些潜在差异(例如获取系统的缺陷)以及模拟和体内数据之间可能存在生理和心理条件。在这里,我们提出了一种新方案,该方案纯粹使用了现实数据的重复样本。深度学习模型,拒绝长期记忆(RELSTM),旨在学习从低SNR时间域数据(24 SA)到高SNR ONE(128 SA)的映射。对7个健康受试者,2名脑肿瘤患者和1名脑梗塞患者的体内脑光谱进行实验表明,仅使用20%的重复样品,RelstM的DeNoed Spectra可以为128 SA提供可比的代谢物。与最先进的低级别去核法相比,RELSTM在量化某些重要的生物标志物时达到了较低的相对误差和cram \'er-rao下限。总而言之,RELSTM可以在快速获取(24 SA)下对光谱进行高保真降级,这对MRS临床研究很有价值。
translated by 谷歌翻译
仪表不变性在量子力学从冷凝物物理到高能物理中起着至关重要的作用。我们开发了一种构建量子晶格模型构建仪表不变自回归神经网络的方法。这些网络可以有效地采样和明确地遵循仪表对称性。我们为地面状态和各种模型的实时动态进行了各种优化我们的仪表不变自回归神经网络。我们精确地代表了2D和3D转矩代码的地面和激励状态,以及X-Cube Fracton模型。我们模拟$ \ text {u(1)} $格式理论的量子链路模型的动态和Gound状态,获取2d $ \ mathbb {z} _2 $仪表理论的相图,确定相位过渡和$ \文本的中心收费{su(2)} _ 3 $ anyonic链,也计算SU(2)不变的Heisenberg旋转链的地面状态能量。我们的方法提供了强大的工具,可探索凝聚物物理,高能量物理和量子信息科学。
translated by 谷歌翻译
在本文中,我们提出了一种新的双通方法来统一一个模型中的流和非流媒体端到端(E2E)语音识别。我们的型号采用混合CTC /注意架构,其中编码器中的构装层被修改。我们提出了一种基于动态的块的注意力策略,以允许任意右上下文长度。在推理时间,CTC解码器以流式方式生成n最佳假设。只有更改块大小,可以轻松控制推理延迟。然后,CTC假设被注意力解码器重新筛选以获得最终结果。这种有效的备用过程导致句子级延迟非常小。我们在开放的170小时Aishell-1数据集上的实验表明,所提出的方法可以简单有效地统一流和非流化模型。在Aishell-1测试集上,与标准的非流式变压器相比,我们的统一模型在非流式ASR中实现了5.60%的相对字符错误率(CER)减少。同一模型在流式ASR系统中实现了5.42%的CER,640ms延迟。
translated by 谷歌翻译
文本样式传输是自然语言生成中的重要任务,旨在控制生成的文本中的某些属性,例如礼貌,情感,幽默和许多其他特性。它在自然语言处理领域拥有悠久的历史,最近由于深神经模型带来的有希望的性能而重大关注。在本文中,我们对神经文本转移的研究进行了系统调查,自2017年首次神经文本转移工作以来跨越100多个代表文章。我们讨论了任务制定,现有数据集和子任务,评估,以及丰富的方法在存在并行和非平行数据存在下。我们还提供关于这项任务未来发展的各种重要主题的讨论。我们的策据纸张列表在https://github.com/zhijing-jin/text_style_transfer_survey
translated by 谷歌翻译