Domain adaptation aims to transfer the knowledge acquired by models trained on (data-rich) source domains to (low-resource) target domains, for which a popular method is invariant representation learning. While they have been studied extensively for classification and regression problems, how they apply to ranking problems, where the data and metrics have a list structure, is not well understood. Theoretically, we establish a domain adaptation generalization bound for ranking under listwise metrics such as MRR and NDCG. The bound suggests an adaptation method via learning list-level domain-invariant feature representations, whose benefits are empirically demonstrated by unsupervised domain adaptation experiments on real-world ranking tasks, including passage reranking. A key message is that for domain adaptation, the representations should be analyzed at the same level at which the metric is computed, as we show that learning invariant representations at the list level is most effective for adaptation on ranking problems.
translated by 谷歌翻译
Geometry problem solving is a well-recognized testbed for evaluating the high-level multi-modal reasoning capability of deep models. In most existing works, two main geometry problems: calculation and proving, are usually treated as two specific tasks, hindering a deep model to unify its reasoning capability on multiple math tasks. However, in essence, these two tasks have similar problem representations and overlapped math knowledge which can improve the understanding and reasoning ability of a deep model on both two tasks. Therefore, we construct a large-scale Unified Geometry problem benchmark, UniGeo, which contains 4,998 calculation problems and 9,543 proving problems. Each proving problem is annotated with a multi-step proof with reasons and mathematical expressions. The proof can be easily reformulated as a proving sequence that shares the same formats with the annotated program sequence for calculation problems. Naturally, we also present a unified multi-task Geometric Transformer framework, Geoformer, to tackle calculation and proving problems simultaneously in the form of sequence generation, which finally shows the reasoning ability can be improved on both two tasks by unifying formulation. Furthermore, we propose a Mathematical Expression Pretraining (MEP) method that aims to predict the mathematical expressions in the problem solution, thus improving the Geoformer model. Experiments on the UniGeo demonstrate that our proposed Geoformer obtains state-of-the-art performance by outperforming task-specific model NGS with over 5.6% and 3.2% accuracies on calculation and proving problems, respectively.
translated by 谷歌翻译
This paper describes the submission of the RoyalFlush neural machine translation system for the WMT 2022 translation efficiency task. Unlike the commonly used autoregressive translation system, we adopted a two-stage translation paradigm called Hybrid Regression Translation (HRT) to combine the advantages of autoregressive and non-autoregressive translation. Specifically, HRT first autoregressively generates a discontinuous sequence (e.g., make a prediction every $k$ tokens, $k>1$) and then fills in all previously skipped tokens at once in a non-autoregressive manner. Thus, we can easily trade off the translation quality and speed by adjusting $k$. In addition, by integrating other modeling techniques (e.g., sequence-level knowledge distillation and deep-encoder-shallow-decoder layer allocation strategy) and a mass of engineering efforts, HRT improves 80\% inference speed and achieves equivalent translation performance with the same-capacity AT counterpart. Our fastest system reaches 6k+ words/second on the GPU latency setting, estimated to be about 3.1x faster than the last year's winner.
translated by 谷歌翻译
广告视频编辑旨在将广告视频自动编辑为较短的视频,同时保留广告商传达的连贯内容和关键信息。它主要包含两个阶段:视频细分和段组合。现有方法在视频分割阶段表现良好,但遭受了对额外繁琐模型的依赖性问题,并且在细分组合阶段的性能差。为了解决这些问题,我们提出了M-SAN(多模式段组合网络),该网络可以执行高效且连贯的段组合任务。它利用从段中提取的多模式表示形式,并遵循带有注意机制的编码器ptr-decoder ptr-net框架。重要性补偿奖励是为培训M-SAN设计的。我们在广告客户收集的丰富广告方案下,在ADS-1K数据集上使用1000多个视频进行实验。为了评估这些方法,我们提出了一个统一的imp-coh@Time,该指标可以全面评估同时评估产出的重要性,相干性和持续时间。实验结果表明,我们的方法比随机选择和公制上的先前方法更好的性能。消融实验进一步验证了多模式表示和重要性互动的奖励可显着改善性能。 ADS-1K数据集可用:https://github.com/yunlong10/ads-1k
translated by 谷歌翻译
人通常通过按音乐形式组织元素来表达音乐思想来创作音乐。但是,对于基于神经网络的音乐生成,由于缺乏音乐形式的标签数据,很难这样做。在本文中,我们开发了Meloform,该系统是使用专家系统和神经网络以音乐形式生成旋律的系统。具体而言,1)我们设计了一个专家系统,可以通过开发从图案到短语的音乐元素到并根据预授予的音乐形式进行重复和变化的部分来生成旋律; 2)考虑到产生的旋律缺乏音乐丰富性,我们设计了一个基于变压器的改进模型,以改善旋律而不改变其音乐形式。 Meloform享有专家系统和通过神经模型的音乐丰富性学习的精确音乐形式控制的优势。主观和客观的实验评估都表明,MeloForm以97.79%的精度生成具有精确的音乐形式控制的旋律,并且在主观评估评分方面的表现优于基线系统0.75、0.50、0.50、0.86和0.89,其结构,主题,丰富性和整体质量和整体质量无需主观评估,而没有主观评估。任何标记的音乐形式数据。此外,Meloform可以支持各种形式,例如诗歌和合唱形式,隆多形式,变异形式,奏鸣曲形式,等等。
translated by 谷歌翻译
最近,已经提出了许多有效的变压器,以降低由软磁性注意引起的标准变压器的二次计算复杂性。但是,他们中的大多数只是用有效的注意机制交换SoftMax,而无需考虑定制的体系结构,特别是为了有效的关注。在本文中,我们认为手工制作的香草变压器体系结构可用于软马克斯的注意力可能不适合有效的变压器。为了解决这个问题,我们提出了一个新框架,通过神经体系结构搜索(NAS)技术找到有效变压器的最佳体系结构。提出的方法在流行的机器翻译和图像分类任务上进行了验证。我们观察到,与标准变压器相比,有效变压器的最佳体系结构的计算降低,但总体准确性较低。这表明SoftMax的注意力和有效的注意力具有自己的区别,但它们都无法同时平衡准确性和效率。这激发了我们混合两种注意力以减少性能失衡。除了现有NAS变压器方法中常用的搜索空间外,我们还提出了一个新的搜索空间,该空间允许NAS算法与架构一起自动搜索注意变体。 WMT'EN-DE和CIFAR-10上的广泛实验表明,我们的搜索架构与标准变压器保持了可比的精度,并具有明显提高的计算效率。
translated by 谷歌翻译
Axie Infinity是一款复杂的纸牌游戏,具有巨大的动作空间。这使得很难使用通用增强学习(RL)算法解决这一挑战。我们提出了一个混合RL框架来学习行动表示和游戏策略。为了避免评估大型可行动作集中的每个动作,我们的方法评估使用动作表示确定的固定大小集中的动作。我们将方法的性能与其他两个基线方法的样本效率和受过训练模型的获胜率进行了比较。我们从经验上表明,我们的方法达到了三种方法中总体上最佳的获胜率和最佳样本效率。
translated by 谷歌翻译
联邦学习吸引了人们对建筑模型的越来越多的关注,而无需访问原始用户数据,尤其是在医疗保健方面。在实际应用中,由于可能的原因(例如数据异质性和中央服务器的不信任/不存在),不同的联合会很少合作。在本文中,我们提出了一个名为Metafed的新型框架,以促进不同联合会之间可信赖的FL。 METAFED通过提出的循环知识蒸馏为每个联邦提供一个个性化模型。具体而言,metafed将每个联盟视为元分布,并以环状方式汇总对每个联邦的知识。培训分为两个部分:常识的积累和个性化。在三个基准测试基准上进行的全面实验表明,与最先进的方法相比,无需服务器的METAFEF可以实现更好的准确性(例如,与PAMAP2的基线相比,沟通成本较少的基线相比,10%+的准确性提高了。
translated by 谷歌翻译
近年来,人群计数已成为计算机视觉中的重要问题。在大多数方法中,密度图是通过从地面图中与人头中心标记的地面图图中的高斯内核进行卷积而产生的。由于CNN中的固定几何结构和模糊的头尺度信息,因此无法完全获得头部特征。提出了可变形的卷积来利用头部中CNN特征的尺度自适应能力。通过学习采样点的坐标偏移,可以提高调整接受场的能力。但是,头部在可变形卷积中的采样点并不统一,从而导致头部信息丢失。为了处理不均匀的采样,在本文中提出了改进的规范性卷积(\ textit {i.e。受NDLOSS限制的采样点的偏移往往更加均匀。然后,更完整地获得了头部中的功能,从而获得更好的性能。尤其是,拟议的NDCONV是一个轻巧的模块,与可变形卷积具有相似的计算负担。在广泛的实验中,我们的方法优于上海A,Shanghaitech B,UCF \ _QNRF和UCF \ _CC \ _50数据集,分别实现61.4、7.8、91.2和167.2 MAE。该代码可从https://github.com/bingshuangzhuzi/ndconv获得
translated by 谷歌翻译
收集足够标记的数据以建立人类活动识别(HAR)模型是昂贵且耗时的。对现有数据的培训通常会使模型偏向于培训数据的分布,因此该模型可能会在具有不同分布的测试数据上执行。尽管现有的转移学习和域适应性的努力试图解决上述问题,但他们仍然需要访问目标域上的未标记数据,这在实际情况下可能是不可能的。很少有作品注意训练一个模型,该模型可以很好地概括为HAR看不见的目标域。在本文中,我们提出了一种新的方法,称为可推广跨域HAR的语义歧视混合(SDMIX)。首先,我们介绍了语义感知的混音,该混音考虑了活动语义范围,以克服域差异带来的语义不一致。其次,我们引入了较大的利润损失,以增强混合歧视,以防止虚拟标签带来的错误分类。在五个公共数据集上进行的综合概括实验表明,我们的SDMIX基本上优于最先进的方法,其平均准确度提高了跨人员,交叉数据库和交叉位置HAR的平均准确性6%。
translated by 谷歌翻译