In recent years, large amounts of effort have been put into pushing forward the real-world application of dynamic digital human (DDH). However, most current quality assessment research focuses on evaluating static 3D models and usually ignores motion distortions. Therefore, in this paper, we construct a large-scale dynamic digital human quality assessment (DDH-QA) database with diverse motion content as well as multiple distortions to comprehensively study the perceptual quality of DDHs. Both model-based distortion (noise, compression) and motion-based distortion (binding error, motion unnaturalness) are taken into consideration. Ten types of common motion are employed to drive the DDHs and a total of 800 DDHs are generated in the end. Afterward, we render the video sequences of the distorted DDHs as the evaluation media and carry out a well-controlled subjective experiment. Then a benchmark experiment is conducted with the state-of-the-art video quality assessment (VQA) methods and the experimental results show that existing VQA methods are limited in assessing the perceptual loss of DDHs. The database will be made publicly available to facilitate future research.
translated by 谷歌翻译
A household robot should be able to navigate to target locations without requiring users to first annotate everything in their home. Current approaches to this object navigation challenge do not test on real robots and rely on expensive semantically labeled 3D meshes. In this work, our aim is an agent that builds self-supervised models of the world via exploration, the same as a child might. We propose an end-to-end self-supervised embodied agent that leverages exploration to train a semantic segmentation model of 3D objects, and uses those representations to learn an object navigation policy purely from self-labeled 3D meshes. The key insight is that embodied agents can leverage location consistency as a supervision signal - collecting images from different views/angles and applying contrastive learning to fine-tune a semantic segmentation model. In our experiments, we observe that our framework performs better than other self-supervised baselines and competitively with supervised baselines, in both simulation and when deployed in real houses.
translated by 谷歌翻译
Script event prediction aims to predict the subsequent event given the context. This requires the capability to infer the correlations between events. Recent works have attempted to improve event correlation reasoning by using pretrained language models and incorporating external knowledge~(e.g., discourse relations). Though promising results have been achieved, some challenges still remain. First, the pretrained language models adopted by current works ignore event-level knowledge, resulting in an inability to capture the correlations between events well. Second, modeling correlations between events with discourse relations is limited because it can only capture explicit correlations between events with discourse markers, and cannot capture many implicit correlations. To this end, we propose a novel generative approach for this task, in which a pretrained language model is fine-tuned with an event-centric pretraining objective and predicts the next event within a generative paradigm. Specifically, we first introduce a novel event-level blank infilling strategy as the learning objective to inject event-level knowledge into the pretrained language model, and then design a likelihood-based contrastive loss for fine-tuning the generative model. Instead of using an additional prediction layer, we perform prediction by using sequence likelihoods generated by the generative model. Our approach models correlations between events in a soft way without any external knowledge. The likelihood-based prediction eliminates the need to use additional networks to make predictions and is somewhat interpretable since it scores each word in the event. Experimental results on the multi-choice narrative cloze~(MCNC) task demonstrate that our approach achieves better results than other state-of-the-art baselines. Our code will be available at \url{https://github.com/zhufq00/mcnc}.
translated by 谷歌翻译
在过去的十年中,数字人类吸引了越来越多的研究兴趣,而这些人的代表,渲染和动画已经付出了很大的努力。但是,数字人类的质量评估已落后。因此,为了应对数字人类质量评估问题的挑战,我们提出了第一个用于扫描数字人头(DHHS)的大规模质量评估数据库。构造的数据库由55个参考DHHS和1,540个扭曲的DHHS以及主观评分组成。然后,提出了一种简单而有效的全参考(FR)基于投影的方法。预处理的SWIN变压器微小用于分层提取,并将多头注意模块用于特征融合。实验结果表明,所提出的方法在主流FR指标中表现出最先进的表现。该工作中介绍的数据库和方法将公开可用。
translated by 谷歌翻译
本文旨在通过探索基于神经网络的方法(称为Sun)中的内在不确定性来提高文本到SQL解析的性能。从数据不确定性的角度来看,可以从多个语义等效的问题中学到单个SQL。从以前仅限于一对一映射的方法中不同,我们提出了一个数据不确定性限制来探索潜在的互补语义语义多个语义等效问题(多对一)中的信息,并以减少的虚假关联来学习稳健的特征表示。通过这种方式,我们可以降低学习表示的敏感性并改善解析器的鲁棒性。从模型的不确定性角度来看,神经网络的权重之间通常存在结构信息(依赖性)。为了提高神经文本到SQL解析器的普遍性和稳定性,我们提出了模型不确定性约束,以通过强制执行不同扰动编码网络的输出表示形式来完善查询表示形式,以使其彼此一致。在五个基准数据集上进行的广泛实验表明,我们的方法显着优于强大的竞争对手,并实现了新的最新结果。为了获得可重复性,我们在https://github.com/alibabaresearch/damo-convai/tree/main/main/sunsql上发布代码和数据。
translated by 谷歌翻译
无人驾驶飞机(UAV)的实时对象检测是一个具有挑战性的问题,因为Edge GPU设备作为物联网(IoT)节点的计算资源有限。为了解决这个问题,在本文中,我们提出了一种基于Yolox模型的新型轻型深度学习体系结构,用于Edge GPU上的实时对象检测。首先,我们设计了一个有效且轻巧的PixSF头,以更换Yolox的原始头部以更好地检测小物体,可以将其进一步嵌入深度可分离的卷积(DS Conv)中,以达到更轻的头。然后,开发为减少网络参数的颈层中的较小结构,这是精度和速度之间的权衡。此外,我们将注意模块嵌入头层中,以改善预测头的特征提取效果。同时,我们还改进了标签分配策略和损失功能,以减轻UAV数据集的类别不平衡和盒子优化问题。最后,提出了辅助头进行在线蒸馏,以提高PIXSF Head中嵌入位置嵌入和特征提取的能力。在NVIDIA Jetson NX和Jetson Nano GPU嵌入平台上,我们的轻质模型的性能得到了实验验证。扩展的实验表明,与目前的模型相比,Fasterx模型在Visdrone2021数据集中实现了更好的折衷和延迟之间的折衷。
translated by 谷歌翻译
运输电气化需要越来越多的电动机(例如电动机和电动机存储系统)上的电动机,并且对电动电气的控制通常涉及多个输入和多个输出(MIMO)。本文重点介绍了基于多代理增强学习(MARL)算法的多模式混合动力汽车的能源管理策略的在线优化,该算法旨在解决MIMO控制优化,而大多数现有方法仅处理单个输出控制。基于对基于深层确定性策略梯度(DDPG)基于的MARL算法优化的多模式混合动力汽车(HEV)的能源效率的分析,提出了一种新的与多代理的合作网络物理学习。然后,通过一种新颖的随机方法来设定学习驾驶周期,以加快训练过程。最终,网络设计,学习率和政策噪声被纳入了敏感性分析中,并确定了基于DDPG的算法参数,并研究了与多代理的不同关系的学习绩效,并证明与与不完全独立的关系比率0.2是最好的。与单一代理和多代理的同情研究表明,多代理可以在单一代理方案中获得总能量的4%提高。因此,MAL的多目标控制可以实现良好的优化效果和应用效率。
translated by 谷歌翻译
由于预计不断增长的3D视觉应用程序将为用户提供具有成本效益和高质量的体验,因此人们非常强调点云的视觉质量。回顾点云质量评估(PCQA)方法的开发,通常通过使用单模式信息,即从2D投影或3D点云中提取的视觉质量进行评估。 2D投影包含丰富的纹理和语义信息,但高度依赖于观点,而3D点云对几何变形更敏感,并且对观点不变。因此,为了利用点云和投影图像模式的优势,我们提出了一种新型的无引用点云质量评估(NR-PCQA),以多模式方式进行。在具体上,我们将点云分为子模型,以表示局部几何变形,例如点移和下采样。然后,我们将点云渲染为2D图像投影,以进行纹理特征提取。为了实现目标,子模型和投影图像由基于点和基于图像的神经网络编码。最后,使用对称的跨模式注意来融合多模式质量意识的信息。实验结果表明,我们的方法的表现都优于所有最新方法,并且远远超过了先前的NR-PCQA方法,这突出了所提出方法的有效性。
translated by 谷歌翻译
Point Cloud是3D内容使用最广泛使用的数字表示格式之一,其视觉质量可能会在生产过程中遇到噪声和几何变化,以及在传输过程中的压缩和压缩采样。为了应对点云质量评估(PCQA)的挑战,已经提出了许多PCQA方法来评估点云的视觉质量水平,以评估渲染的静态2D投影。尽管这种基于投影的PCQA方法在成熟图像质量评估(IQA)方法的帮助下实现了竞争性能,但它们忽略了动态质量感知信息,这与观察者倾向于通过两种静态感知点云的事实完全不符和动态视图。因此,在本文中,我们将点云视为移动相机视频,并通过使用视频质量评估(VQA)方法(NR)方式探索处理PCQA任务的方式。首先,我们通过四个圆形路径将相机围绕点云旋转来生成捕获的视频。然后,我们分别使用可训练的2D-CNN和预训练的3D-CNN模型从所选的关键帧和视频剪辑中提取空间和时间质量感知功能。最后,点云的视觉质量由回归的视频质量值表示。实验结果表明,所提出的方法可有效预测点云的视觉质量水平,甚至可以使用全参考(FR)PCQA方法竞争。消融研究进一步验证了提出的框架的合理性,并确认了从动态视图中提取的质量感知特征所做的贡献。
translated by 谷歌翻译
AD相关建模在包括Microsoft Bing在内的在线广告系统中起着至关重要的作用。为了利用强大的变压器在这种低延迟设置中,许多现有方法脱机执行广告端计算。虽然有效,但这些方法无法提供冷启动广告,从而导致对此类广告的相关性预测不佳。这项工作旨在通过结构化修剪设计一种新的低延迟BERT,以在CPU平台上授权实时在线推断对Cold Start Ads相关性。我们的挑战是,以前的方法通常将变压器的所有层都缩减为高,均匀的稀疏性,从而产生无法以可接受的精度实现令人满意的推理速度的模型。在本文中,我们提出了SwiftPruner - 一个有效的框架,利用基于进化的搜索自动在所需的延迟约束下自动找到表现最佳的稀疏BERT模型。与进行随机突变的现有进化算法不同,我们提出了一个具有潜伏意见的多目标奖励的增强突变器,以进行更好的突变,以有效地搜索层稀疏模型的大空间。广泛的实验表明,与均匀的稀疏基线和最先进的搜索方法相比,我们的方法始终达到更高的ROC AUC和更低的潜伏度。值得注意的是,根据我们在1900年的延迟需求,SwiftPruner的AUC比Bert-Mini在大型现实世界数据集中的最先进的稀疏基线高0.86%。在线A/B测试表明,我们的模型还达到了有缺陷的冷启动广告的比例,并获得了令人满意的实时服务延迟。
translated by 谷歌翻译