In this paper, we take a significant step towards real-world applicability of monocular neural avatar reconstruction by contributing InstantAvatar, a system that can reconstruct human avatars from a monocular video within seconds, and these avatars can be animated and rendered at an interactive rate. To achieve this efficiency we propose a carefully designed and engineered system, that leverages emerging acceleration structures for neural fields, in combination with an efficient empty space-skipping strategy for dynamic scenes. We also contribute an efficient implementation that we will make available for research purposes. Compared to existing methods, InstantAvatar converges 130x faster and can be trained in minutes instead of hours. It achieves comparable or even better reconstruction quality and novel pose synthesis results. When given the same time budget, our method significantly outperforms SoTA methods. InstantAvatar can yield acceptable visual quality in as little as 10 seconds training time.
translated by 谷歌翻译
Script event prediction aims to predict the subsequent event given the context. This requires the capability to infer the correlations between events. Recent works have attempted to improve event correlation reasoning by using pretrained language models and incorporating external knowledge~(e.g., discourse relations). Though promising results have been achieved, some challenges still remain. First, the pretrained language models adopted by current works ignore event-level knowledge, resulting in an inability to capture the correlations between events well. Second, modeling correlations between events with discourse relations is limited because it can only capture explicit correlations between events with discourse markers, and cannot capture many implicit correlations. To this end, we propose a novel generative approach for this task, in which a pretrained language model is fine-tuned with an event-centric pretraining objective and predicts the next event within a generative paradigm. Specifically, we first introduce a novel event-level blank infilling strategy as the learning objective to inject event-level knowledge into the pretrained language model, and then design a likelihood-based contrastive loss for fine-tuning the generative model. Instead of using an additional prediction layer, we perform prediction by using sequence likelihoods generated by the generative model. Our approach models correlations between events in a soft way without any external knowledge. The likelihood-based prediction eliminates the need to use additional networks to make predictions and is somewhat interpretable since it scores each word in the event. Experimental results on the multi-choice narrative cloze~(MCNC) task demonstrate that our approach achieves better results than other state-of-the-art baselines. Our code will be available at \url{https://github.com/zhufq00/mcnc}.
translated by 谷歌翻译
In this paper, we investigate the problem of predictive confidence in face and kinship verification. Most existing face and kinship verification methods focus on accuracy performance while ignoring confidence estimation for their prediction results. However, confidence estimation is essential for modeling reliability in such high-risk tasks. To address this issue, we first introduce a novel yet simple confidence measure for face and kinship verification, which allows the verification models to transform the similarity score into a confidence score for a given face pair. We further propose a confidence-calibrated approach called angular scaling calibration (ASC). ASC is easy to implement and can be directly applied to existing face and kinship verification models without model modifications, yielding accuracy-preserving and confidence-calibrated probabilistic verification models. To the best of our knowledge, our approach is the first general confidence-calibrated solution to face and kinship verification in a modern context. We conduct extensive experiments on four widely used face and kinship verification datasets, and the results demonstrate the effectiveness of our approach.
translated by 谷歌翻译
本文介绍了Speakin团队提交的SPEAKER验证(SV)系统,该系统针对2022年远场演讲者验证挑战(FFSVC2022)的任务2和任务2。挑战的SV任务集中在完全监督的远场演讲者验证(任务1)和半监督远场扬声器验证(任务2)的问题上。在任务1中,我们将Voxceleb和FFSVC2020数据集用作火车数据集。对于任务2,我们仅将Voxceleb数据集用作火车集。为此挑战开发了基于重新连接和基于REPVGG的架构。全局统计池结构和MQMHA池结构用于跨时间汇总框架级特征,以获得语音级别的表示。我们采用了Am-Softmax和Aam-Softmax来对产生的嵌入进行分类。我们创新提出了一种分阶段的转移学习方法。在训练阶段,我们保留扬声器的权重,并且在此阶段没有积极的样本来训练它们。然后,我们在第二阶段用正面和负样品微调这些权重。与传统的转移学习策略相比,该策略可以更好地改善模型性能。亚均值和标志的后端方法用于解决域不匹配的问题。在融合阶段,任务1中融合了三个模型,并在任务2中融合了两个模型。在FFSVC2022排行榜上,我们提交的EER为3.0049%,在Task1中,相应的MindCF为0.2938。在任务2中,EER和MindCF分别为6.2060%和0.5232。我们的方法可以提高表现出色,并在两项挑战任务中排名第一。
translated by 谷歌翻译
本报告描述了我们针对CN-CELEB演讲者识别挑战2022(CNSRC 2022)任务的发言人验证系统。这项挑战包括两项任务,即演讲者验证(SV)和说话者检索(SR)。 SV任务涉及两个轨道:固定轨道和开放轨道。在固定轨道中,我们仅使用CN-CELEB.T作为训练集。对于SV任务和SR任务的开放轨道,我们添加了开源音频数据。为此挑战开发了基于重新连接的基于RESNET,基于REPVGG和基于TDNN的架构。全局统计池结构和MQMHA池结构用于跨时间汇总框架级特征,以获得语音级别的表示。我们采用了Am-Softmax和Aam-Softmax与子中心方法相结合,以对所得的嵌入进行分类。我们还使用了大规模细微调整策略来进一步提高模型性能。在后端,使用了亚均值和雅语。在SV任务固定轨道中,我们的系统是五个型号的融合,并且在SV任务打开轨道中融合了两个型号。我们在SR任务中使用了一个系统。我们的方法带来了卓越的性能,并成为SV任务的开放轨道,在SV任务的固定轨道中的第二名以及SR任务中的第三名。
translated by 谷歌翻译
运输电气化需要越来越多的电动机(例如电动机和电动机存储系统)上的电动机,并且对电动电气的控制通常涉及多个输入和多个输出(MIMO)。本文重点介绍了基于多代理增强学习(MARL)算法的多模式混合动力汽车的能源管理策略的在线优化,该算法旨在解决MIMO控制优化,而大多数现有方法仅处理单个输出控制。基于对基于深层确定性策略梯度(DDPG)基于的MARL算法优化的多模式混合动力汽车(HEV)的能源效率的分析,提出了一种新的与多代理的合作网络物理学习。然后,通过一种新颖的随机方法来设定学习驾驶周期,以加快训练过程。最终,网络设计,学习率和政策噪声被纳入了敏感性分析中,并确定了基于DDPG的算法参数,并研究了与多代理的不同关系的学习绩效,并证明与与不完全独立的关系比率0.2是最好的。与单一代理和多代理的同情研究表明,多代理可以在单一代理方案中获得总能量的4%提高。因此,MAL的多目标控制可以实现良好的优化效果和应用效率。
translated by 谷歌翻译
在本文中,我们提出了Satformer,这是一种基于新颖的变压器解决方案,可用于布尔(SAT)解决方案。与现有的基于学习的SAT求解器不同,在问题实例级别上学习的satformer学习了难以满足的问题实例的最低限度不满意的内核(MUC),这些实例为这些问题的因果关系提供了丰富的信息。具体而言,我们应用图形神经网络(GNN)以在连接正常格式(CNF)中获得条款的嵌入。层次变压器体系结构应用于子句嵌入以捕获条款之间的关系,并且当组成UNSAT核心的条款在一起时,自我发项权的权重被学到了很高,并将其设置为低。通过这样做,Satformer有效地了解了SAT预测条款之间的相关性。实验结果表明,Satformer比现有的基于端到端学习的SAT求解器更强大。
translated by 谷歌翻译
出色的图像文本检索模型取决于高质量标记的数据。尽管现有图像文本检索数据集的构建者努力确保标题与链接的图像匹配,但它们无法阻止字幕拟合其他图像。我们观察到,如此多的匹配现象在广泛使用的检索数据集中非常普遍,其中一个标题可以描述多达178张图像。这些较大的匹配失误数据不仅使训练中的模型混淆,而且还会削弱评估精度。受视觉和文本核心任务的启发,我们提出了一个多模式的核心分类器,以确定句子是否由图像和其链接的字幕所带来。随后,我们通过将这些需要的字幕添加为图像的附加标签来修改图像文本检索数据集,并制定通用可变率策略,以教授检索模型以区分所需的字幕和其他负样本。在实验中,我们手动注释了一个需要校正的图像文本检索数据集进行评估。结果表明,所提出的元素分类器可实现约78%的精度,并始终提高图像文本检索基线的性能。
translated by 谷歌翻译
我们开发了BenchPress,这是第一个用于编译器的ML基准生成器,它是在源代码的功能空间表示中可检测的。卧推通过在空序列或现有序列的任何部分中添加新代码,通过共同观察其左和右下文,从而综合编译函数,从而达到出色的汇编速率。卧推操纵基准的生成迈向了所需的目标特征,这对于最先进的合成器(或实际上人类)不可能达到。与(a)clgen-最先进的ML合成器,(b)Clsmith Fuzzer,(c)Srciror Mutator或(d)人写代码相比来自Github。 Benchpress是第一个通过主动学习搜索功能空间的生成器,以生成可以改善下游任务的基准。我们展示了Grewe's等人如何使用台式。与其他技术相比,CPU与GPU启发式模型在台式基准测试中进行训练时可以获得更高的加速。卧推是一个强大的代码生成器:其生成的样品以86%的速度编译,而Clgen的2.33%则以86%的速度编译。从一个空的固定输入开始,台式比CLGEN产生的10倍,可汇编的OpenCL基准测试,这些基准比Clgen更大,并且更具多样性。
translated by 谷歌翻译
为了使视频模型能够在不同环境中无缝应用,已经提出了各种视频无监督的域适应性(VUDA)方法来提高视频模型的鲁棒性和可传递性。尽管模型鲁棒性有所改进,但这些VUDA方法仍需要访问源数据和源模型参数以进行适应,从而提高了严重的数据隐私和模型可移植性问题。为了应对上述问题,本文首先将Black-Box视频域的适应(BVDA)制定为更现实但具有挑战性的场景,在该场景中,仅作为Black-Box预测器提供了源视频模型。尽管在图像域中提出了一些针对黑框域适应性(BDA)的方法,但这些方法不能适用于视频域,因为视频模式具有更复杂的时间特征,难以对齐。为了解决BVDA,我们通过应用蒙版到混合策略和视频量的正则化:内部正规化和外部正规化,提出了一个新颖的内野和外部正规化网络(EXTERS),在剪辑和时间特征上执行,并进行外部正规化,同时将知识从从黑框预测变量获得的预测中提炼出来。经验结果表明,在各种跨域封闭设置和部分集合动作识别基准中,外部的最先进性能甚至超过了具有源数据可访问性的大多数现有视频域适应方法。
translated by 谷歌翻译