基于细粒的草图的图像检索(FG-SBIR)解决了在给定查询草图中检索特定照片的问题。然而,它的广泛适用性受到大多数人为大多数人绘制完整草图的事实的限制,并且绘图过程经常需要时间。在这项研究中,我们的目标是用最少数量的笔划检索目标照片(不完整草图),命名为vs-the-fry fg-sbir(bhunia等人.2020),它一旦尽快开始检索每个行程绘图开始。我们认为每张照片的草图绘图集中的这些不完整草图之间存在显着相关性。为了了解照片和ITS不完整的草图之间共享的更高效的联合嵌入空间,我们提出了一个多粒度关联学习框架,进一步优化了所有不完整草图的嵌入空间。具体地,基于草图的完整性,我们可以将完整的草图插曲分为几个阶段,每个阶段对应于简单的线性映射层。此外,我们的框架指导了当前草图的矢量空间表示,以近似速写,以实现草图的检索性能,以利用更多的笔触来接近草图的草图。在实验中,我们提出了更现实的挑战,我们的方法在两个公开的细粒草图检索数据集上实现了最先进的方法和替代基线的卓越的早期检索效率。
translated by 谷歌翻译
颗粒球计算是一种有效,坚固,可扩展,可扩展和粒度计算的学习方法。颗粒球计算的基础是颗粒球产生方法。本文提出了一种使用该划分加速粒度球的方法来代替$ k $ -means。它可以大大提高颗粒球生成的效率,同时确保与现有方法类似的准确性。此外,考虑粒子球的重叠消除和一些其他因素,提出了一种新的颗粒球生成的新自适应方法。这使得在真实意义上的无参数和完全自适应的颗粒球生成过程。此外,本文首先为颗粒球覆盖物提供了数学模型。一些真实数据集的实验结果表明,所提出的两个颗粒球生成方法具有与现有方法相似的准确性,而实现适应性或加速度。
translated by 谷歌翻译
基于$ K $ NN的神经电机翻译($ K $ NN-MT)已经实现了最先进的MT任务。 $ k $ nn-mt的一个重要缺点在于识别来自整个数据存储的查询表示的$ k $最近邻居的效率低下,这在数据存储大小大的情况下是毫无疑问的。在这项工作中,我们提出\ TextBF {更快$ k $ nn-mt}来解决这个问题。更快的k $ nn-mt的核心思想是使用分层聚类策略来近似数据存储区中的查询和数据点之间的距离,该数据点被分解为两个部分:查询与中心之间的距离群集数据点属于,以及数据点与群集中心之间的距离。我们提出了实际的方法来以明显更快的方式计算这两个部分。通过对不同的MT基准测试的大量实验,我们展示了\ TextBF {更快$ K $ NN-MT}速度快于Fast $ K $ NN-MT \ CITEP {Meng2021Fast},只略微(1.2次)比其香草对应物慢保持模型性能为$ k $ nn-mt。更快$ k $ nn-mt,可以在现实世界MT服务上部署$ K $ NN-MT模型。
translated by 谷歌翻译
社交网络对齐旨在将人身份对齐,跨社交网络。已经显示基于嵌入的模型对于通常采用模型训练通常采用结构接近保持目标的对准有效。在观察中,“过度关闭”用户嵌入对造成对齐不准确的这种模型是不可避免的,我们提出了一种新颖的学习框架,该框架试图通过引入仔细植入的伪伪植入用户在用户中更广泛地分开。锚。我们进一步提出了一种元学习算法,用于指导在学习过程中更新伪锚嵌入。通过使用伪锚和元学习的建议干预允许学习框架适用于广泛的网络对准方法。我们已将建议的学习框架纳入了几种最先进的模型。我们的实验结果表明了其植入伪锚的方法可以通过相当大的余量而没有伪锚的,特别是当仅存在非常少数标记的锚点时,其有效性可能会优于没有伪锚定的对应物。
translated by 谷歌翻译
近年来,卷积神经网络(CNNS)已成功应用于许多领域。然而,这种深层神经模型仍然被视为大多数任务中的黑匣子。此问题的基本问题之一是了解图像识别任务中最有影响力的特点以及它们是由CNN处理的方式。众所周知,CNN模型将低级功能组合以形成复杂的形状,直到物体可以容易地分类,然而,最近的几项研究表明,纹理特征比其他特征更重要。在本文中,我们假设某些功能的重要性根据特定任务,即特定任务表现出特征偏差而变化。我们设计了基于人类直觉的两个分类任务,以培训深度神经模型来识别预期的偏见。我们设计了包括许多任务来测试reset和densenet模型的这些偏差的实验。从结果中,我们得出结论(1)某些功能的综合效果通常比任何单一特征更具影响力; (2)在不同的任务中,神经模型可以执行不同的偏见,即我们可以设计特定任务,以使神经模型偏向于特定的预期特征。
translated by 谷歌翻译
我们介绍了CVSS,这是一种大规模的多语言对语音转换(S2ST)语料库,从21种语言覆盖了21种语言的句子级并行S2ST对。通过将Covost 2从Covost 2的翻译文本综合将翻译文本与最先进的TTS系统合成语音,源自公共语音语音语料库和COVOST 2语音到文本转换(ST)语料库。提供了两个版本的翻译演讲:1)CVSS-C:所有翻译演讲都是一种高质量的规范声音; 2)CVSS-T:翻译语音从相应的源语音传输。此外,CVSS提供标准化的翻译文本,它与翻译语音中的发音匹配。在每个版本的CVSS上,我们建立了基线多语言直接S2ST模型和Cascade S2ST模型,验证了语料库的有效性。为了构建强大的Cascade S2ST基准,我们在Covost 2上培训了St模型,这优于前一种最先进的培训,而无需额外的数据。尽管如此,直接S2ST模型的性能在从头开始训练时接近强级联基线,并且在匹配ST模型中初始化时,仅在ASR转换转换时的0.1或0.7bleu差异。
translated by 谷歌翻译
我们在本文中重新审视语义场景(SSC),是预测3D场景的语义和占用表示的有用任务。此任务的许多方法始终基于用于保存本地场景结构的体蛋白化场景表示。然而,由于存在可见空体素,当网络更深时,这些方法总是遭受重型计算冗余,从而限制完成质量。为了解决这种困境,我们提出了我们为此任务的新型点体素聚集网络。首先,我们通过去除这些可见的空体素来将Voxized场景传输到点云,并采用深点流,以有效地从场景中捕获语义信息。同时,仅包含两个3D卷积层的轻重体素流保留了体蛋白化场景的局部结构。此外,我们设计一个各向异性体素聚合运算符,将结构细节从体素流融合到点流中,并通过语义标签来增强点流中的上采样过程的语义感知传播模块。我们展示了我们的模型在两个基准上超越了最先进的余量,只有深度图像作为输入。
translated by 谷歌翻译
最优传输(OT)正式确定在给定成本矩阵的概率测量之间找到最佳耦合的问题。推断给出耦合的成本的逆问题是逆最佳传输(物联网)。IOT不太明朗地理解OT。我们使用熵正规的OT研究的工具来正式化和系统地分析物联网的属性。理论贡献包括横向比等同成本的歧管的表征,模型前沿的含义,以及MCMC采样器的推导。经验贡献包括对基本实施例和仿真验证理论结果的基本实施例的串联等效效果的可视化。
translated by 谷歌翻译
自我监督的学习是一种从自然数据中学习有用表示的强大方法。还建议作为在人类中建立视觉表现的一种可能手段,但具体的目标和算法是未知的。目前,大多数自我监督的方法都鼓励系统学习与其他图像相反的相同图像的不同变换的不变表示。然而,这种变换通常是非生物学上的,并且通常由具有随机裁剪和颜色抖动之类的具有相识的感知方案组成。在本文中,我们试图反向工程师这些增强术语更加生物学或感知可符号,同时仍然赋予鼓励鲁棒代表的相同益处。批判性地,我们发现随机裁剪可以被皮质倍率代替,并且图像的扫视样品也可以帮助表示学习。这些转变的可行性表明,生物视觉系统可以实施自我监督的潜在方式。此外,它们打破了许多计算机视觉算法中使用的广泛接受的空间均匀的处理假设,这表明在人类和机器中的空间自适应计算的作用。我们可以在此处找到我们的代码和演示。
translated by 谷歌翻译
自我监督的学习表明它有可能在没有人为注释的情况下提取强大的视觉表现。提出各种作品从不同的角度处理自我监督的学习:(1)对比学习方法(例如,MOCO,SIMCLR)利用阳性和阴性样品来引导训练方向; (2)不对称网络方法(例如,BYOL,SIMSIAM)通过引入预测器网络和止动梯度操作来摆脱阴性样本; (3)特征去相关方法(例如,Barlow Twins,ViCREG),而是旨在降低特征尺寸之间的冗余。这些方法在各种动机的设计损失功能中看起来非常不同。最终的准确度数也各不相同,其中不同的网络和技巧在不同的作品中使用。在这项工作中,我们证明这些方法可以统一成相同的形式。我们不是比较他们的损失函数,我们通过梯度分析推出统一的公式。此外,我们进行公平和详细的实验以比较他们的表现。事实证明,这些方法之间几乎没有差距,并且使用动量编码器是提高性能的关键因素。从这个统一的框架来看,我们提出了一个简单但有效的自我监督学习的简单但有效的渐变形式。它不需要内存银行或预测的网络,但仍然可以实现最先进的性能,并轻松采用其他培训策略。广泛的线性评估实验和许多下游任务也表现出其有效性。代码应释放。
translated by 谷歌翻译