将2D人的姿势提升到3D姿势是一个重要而挑战的任务。现有的3D姿势估计遭受了1)2D和3D数据之间的固有模糊,2)野外缺少缺乏标记的2D-3D姿势对。人类能够从2D图像中的人体3D姿势或具有最低歧义的一组2D身体键点,这应该归因于我们在我们脑海中获得的人体的先验知识。灵感来自于此,我们提出了一个新的框架,利用标记的3D人类姿势来学习人体的3D概念来减少歧义。要在2D姿势上对身体概念进行达成共识,我们的主要洞察力是将2D人类姿势和3D人类姿势视为两个不同的域。通过调整两个域,从3D姿势中学到的身体知识应用于2D姿势并引导2D姿势编码器,以产生信息3D“想象力”,因为在姿势提升中嵌入。从域适应角度受益,所提出的框架统一了一个原则框架的监督和半监督的3D姿态估计。广泛的实验表明,所提出的方法可以在标准基准上实现最先进的性能。更重要的是,验证了明确学习的3D身体概念有效地减轻了2D姿势提升中的2D-3D模糊性,提高了泛化,并使网络能够利用丰富的未标记的2D数据。
translated by 谷歌翻译
学习良好的3D人类姿势代表对于人类姿势相关的任务是重要的,例如,人体3D姿势估计和行动识别。在所有这些问题中,保留内在姿势信息和调整以查看变化是两个关键问题。在这项工作中,我们提出了一种新颖的暹罗去噪,通过以完全无监督的方式解开来自人骨架数据的姿势相关和视图依赖性特征来学习3D姿态表示。这两个解缠绕特征被用作3D姿势的表示。要考虑运动学和几何依赖项,还提出了一种顺序双向递归网络(Sebirenet)以模拟人体骨架数据。广泛的实验表明,学习的表示1)保留人类姿势的内在信息,2)在数据集和任务中显示出良好的可转换性。值得注意的是,我们的方法在两个固有的不同任务上实现了最先进的表现:姿势​​去噪和无监督的行动识别。代码和模型可在:\ url {https://github.com/nieqiang001/unsupervised-humanpose.git}
translated by 谷歌翻译
正规化可以通过引入感应偏压来减轻训练与推理之间的泛化差距。现有的作品已经提出了各种视角的各种归纳偏见。然而,据我们所知,他们都没有探讨各种神经元的类依赖性响应分布的视角探讨归纳偏见。在本文中,我们对这种分布的特征进行了大量分析。基于分析结果,我们阐明了神经元稳定性假设:具有与同一类别的情况相似的神经元导致更好的概括。因此,我们提出了一种新的正则化方法,称为神经元稳定正则化,以减少神经元内响应方差。我们在多层的Perceptron,卷积神经网络和图形神经网络上进行了广泛的实验,具有不同域的流行基准数据集,这表明我们的神经元稳定性正则化始终优于Vanilla版本的模型,具有显着增益和低额外的开销。
translated by 谷歌翻译
参考图像分割旨在通过自然语言表达段段。在文本和图像之间的不同数据属性中,对网络充满良好的对齐文本和像素级别特征是具有挑战性的。现有方法使用借预制模型来促进学习,但分别从预磨料模型转移语言/视觉知识,忽略多模态对应信息。灵感来自最近对比语言 - 图像预测(剪辑)的预先推进(剪辑),在本文中,我们提出了一个端到端的剪辑驱动的参考图像分割框架(CRIS)。有效地转移多模态知识,克里斯语言解码和对比学习来实现文本到像素对齐的对比学习。更具体地,我们设计了一种视觉语言解码器,以将微粒语义信息从文本表示传播到每个像素级激活,这促进了两个模态之间的一致性。此外,我们呈现文本到像素对比学学习,明确强制执行类似于相关像素级别特征的文本特征,并与无关相似。三个基准数据集的实验结果表明,我们的拟议框架显着优于现有的性能而无需任何后处理。代码将被释放。
translated by 谷歌翻译
快速的基于立体声的3D对象探测器最近在推理时间感到很大进展。然而,它们的精确度远远落后于高精度的方法。我们认为主要原因是快速立体声方法中缺失或差的3D几何特征表示。为了解决这个问题,我们提出了一个有效的几何特征生成网络(EGFN)。我们的EGFN的关键是一种有效且有效的3D几何特征表示(EGFR)模块。在EGFR模块中,首先生成轻量级成本体积特征,然后将其有效地转换为3D空间,并且最后进行图像和3D空间中的多尺度特征,以获得3D几何特征:增强的轻量级voxel特色。此外,我们介绍了一种新的多尺度知识蒸馏策略,以指导多尺度3D几何特征学习。公共基准测试集的实验结果表明,建议的EGFN优于Yolostsereo3D,先进的快速方法,在Map $ 5.16 \%上的$ _ {3d} $以仅需12毫秒的成本,因此实现了更好的权衡立体声3D对象检测的准确性和效率。我们的代码将公开提供。
translated by 谷歌翻译
非负矩阵分解(NMF)已被广泛用于学习数据的低维表示。但是,NMF对数据点的所有属性都同样关注,这不可避免地导致不准确的代表性。例如,在人面数据集中,如果图像在头上包含帽子,则应删除帽子,或者在矩阵分组期间应减少其对应属性的重要性。本文提出了一种名为熵权的NMF(EWNMF)的新型NMF,其为每个数据点的每个属性使用可优化的权重,以强调它们的重要性。通过向成本函数添加熵规范器来实现此过程,然后使用拉格朗日乘法器方法来解决问题。具有若干数据集的实验结果证明了该方法的可行性和有效性。我们在https://github.com/poisson-em/entropy-weighted-nmf提供我们的代码。
translated by 谷歌翻译
基于Xornet的低功耗控制器是一种流行的技术,可以减少基于扫描的测试中的电路过渡。然而,现有解决方案构造Xordet均匀用于扫描链控制,并且可能导致次优溶液而没有任何设计指导。在本文中,我们提出了一种具有进化学习的新型可测试性感知的低功率控制器。从所提出的遗传算法(GA)产生的XorNET可以根据其使用,使扫描链的自适应控制能够显着提高XorNET编码容量,从而减少了ATPG的故障情况的数量和降低测试数据量。实验结果表明,在相同的控制比特下,我们的GA引导的Xornet设计可以将故障覆盖率提高至2.11%。所提出的GA引导的XorNET还允许降低控制比特的数量,并且总测试时间平均降低20.78%,与现有设计相比,在不牺牲测试覆盖的情况下相比,相比,高达47.09%。
translated by 谷歌翻译
在电子设计自动化(EDA)领域的应用深度学习(DL)技术已成为近年来的趋势主题。大多数现有解决方案适用于开发的DL模型来解决特定的EDA问题。在展示有希望的结果的同时,他们需要仔细模型调整每个问题。关于\ Texit的基本问题{“如何获得一般和有效的电路神经表征?”}尚未得到解答。在这项工作中,我们迈出了解决这个问题的第一步。我们提出\ Textit {DeepGate},一种新颖的表示学习解决方案,其有效地将电路的逻辑功能和结构信息嵌入为每个门上的向量。具体而言,我们将电路转换为统一和倒换图格式,以便学习和使用信号概率作为Deplegate中的监控任务。然后,我们介绍一种新的图形神经网络,该网络神经网络在实际电路中使用强烈的电感偏差作为信号概率预测的学习前沿。我们的实验结果表明了深度的功效和泛化能力。
translated by 谷歌翻译
考虑到迅速越来越多的学术论文,在纸张接线期间寻找和引用适当的参考资料已成为非审判任务。在出版物之前推荐给手稿的少数候选文件可以缓解作者的负担,并帮助审阅者检查所引用的资源的完整性。引文建议的常规方法通常考虑从输入稿件中建议一个地面真理引用查询上下文,但缺乏对共同引用建议的思考。然而,两种或更多的共同引用对通常需要支持的背景。在这里,我们提出了一种用于引用建议的新型科学纸张建模,即引文推荐的多正面BERT模型(MP-BERT4CR),符合一系列多阳性三联网目标,以推荐用于查询上下文的多个积极引用。建议的方法具有以下优势:首先,拟议的多积极目标是有效推荐多个积极候选人。其次,我们采用基于历史共同引用频率构建的噪声分布,因此MP-BERT4CR不仅有效地对推荐高频繁的共同传递对有效;但是,检索低频率的表演得到了显着改善。第三,我们提出了一种动态的上下文采样策略,它从手稿中捕获了piking意图的“宏观范围”,并赋予引文嵌入来依赖于内容,这允许算法进一步提高性能。单个和多个正面推荐实验证明了MP-BERT4CR提供了显着的改进。此外,MP-BERT4CR还有效地检索与先前作品相比检索共同引用的全部列表,历史低频的共同传递对。
translated by 谷歌翻译
Imbalanced-leasemble,缩写为IMBens,是一个开源Python工具箱,用于快速实现和部署类别 - 不平衡数据的集合学习算法。它提供对多个最先进的集合不平衡学习(EIL)方法,可视化器和公用事业功能的访问,以处理类别不平衡问题。这些集合方法包括基于重采样的,例如/过度采样,以及重量基于/过度采样,例如,敏感的学习。除了实现之外,我们还扩展了传统的二进制EIL算法,与多级支持和重采样调度程序等新功能,从而使它们能够处理更复杂的任务。该软件包是在简单的,良好的API设计中开发的,遵循Scikit-Gearn的易于使用。 IMBens在MIT开源许可证下发布,可以从Python包索引(PYPI)安装。 https://github.com/zhiningliu1998/imbalanced-ensemble可以使用源代码,二进制文件,详细文档和使用示例。
translated by 谷歌翻译