This paper presents an image-based visual servo control (IBVS) method for a first-person-view (FPV) quadrotor to conduct aggressive aerial tracking. There are three major challenges to maneuvering an underactuated vehicle using IBVS: (i) finding a visual feature representation that is robust to large rotations and is suited to be an optimization variable; (ii) keeping the target visible without sacrificing the robot's agility; and (iii) compensating for the rotational effects in the detected features. We propose a complete design framework to address these problems. First, we employ a rotation on $SO(3)$ to represent a spherical image feature on $S^{2}$ to gain singularity-free and second-order differentiable properties. To ensure target visibility, we formulate the IBVS as a nonlinear model predictive control (NMPC) problem with three constraints taken into account: the robot's physical limits, target visibility, and time-to-collision (TTC). Furthermore, we propose a novel attitude-compensation scheme to enable formulating the visibility constraint in the actual image plane instead of a virtual fix-orientation image plane. It guarantees that the visibility constraint is valid under large rotations. Extensive experimental results show that our method can track a fast-moving target stably and aggressively without the aid of a localization system.
translated by 谷歌翻译
成功的点云注册依赖于在强大的描述符上建立的准确对应关系。但是,现有的神经描述符要么利用旋转变化的主链,其性能在较大的旋转下下降,要么编码局部几何形状,而局部几何形状不太明显。为了解决这个问题,我们介绍Riga以学习由设计和全球了解的旋转不变的描述符。从稀疏局部区域的点对特征(PPF)中,旋转不变的局部几何形状被编码为几何描述符。随后,全球对3D结构和几何环境的认识都以旋转不变的方式合并。更具体地说,整个框架的3D结构首先由我们的全球PPF签名表示,从中学到了结构描述符,以帮助几何描述符感知本地区域以外的3D世界。然后将整个场景的几何上下文全局汇总到描述符中。最后,将稀疏区域的描述插值到密集的点描述符,从中提取对应关系进行注册。为了验证我们的方法,我们对对象和场景级数据进行了广泛的实验。在旋转较大的情况下,Riga就模型Net40的相对旋转误差而超过了最先进的方法8 \度,并将特征匹配的回忆提高了3DLOMATCH上的至少5个百分点。
translated by 谷歌翻译
本文介绍了Kings Arena的荣誉,Kings Arena是基于国王荣誉的强化学习(RL)环境,这是世界上最受欢迎的游戏之一。与以前大多数工作中研究的其他环境相比,我们的人对竞争性强化学习提出了新的概括挑战。与对手竞争的一个代理商是一个多代理的问题;它需要概括能力,因为它具有控制和不同的对手竞争的不同目标。我们描述了国王域名荣誉的观察,动作和奖励规范,并提供了一个基于python的开源界面,以与游戏引擎进行通信。我们为纪念国王竞技场的二十个目标英雄提供了各种任务,并为具有可行的计算资源的基于RL的方法提供了初始基线结果。最后,我们展示了国王竞技场的荣誉和对挑战的可能补救措施所面临的概括挑战。所有软件(包括环境级)均可在https://github.com/tencent-ailab/hok_env上公开获得。该文档可在https://aiarena.tencent.com/hok/doc/上获得。
translated by 谷歌翻译
人通常通过按音乐形式组织元素来表达音乐思想来创作音乐。但是,对于基于神经网络的音乐生成,由于缺乏音乐形式的标签数据,很难这样做。在本文中,我们开发了Meloform,该系统是使用专家系统和神经网络以音乐形式生成旋律的系统。具体而言,1)我们设计了一个专家系统,可以通过开发从图案到短语的音乐元素到并根据预授予的音乐形式进行重复和变化的部分来生成旋律; 2)考虑到产生的旋律缺乏音乐丰富性,我们设计了一个基于变压器的改进模型,以改善旋律而不改变其音乐形式。 Meloform享有专家系统和通过神经模型的音乐丰富性学习的精确音乐形式控制的优势。主观和客观的实验评估都表明,MeloForm以97.79%的精度生成具有精确的音乐形式控制的旋律,并且在主观评估评分方面的表现优于基线系统0.75、0.50、0.50、0.86和0.89,其结构,主题,丰富性和整体质量和整体质量无需主观评估,而没有主观评估。任何标记的音乐形式数据。此外,Meloform可以支持各种形式,例如诗歌和合唱形式,隆多形式,变异形式,奏鸣曲形式,等等。
translated by 谷歌翻译
本文回顾了AIM 2022上压缩图像和视频超级分辨率的挑战。这项挑战包括两条曲目。轨道1的目标是压缩图像的超分辨率,轨迹〜2靶向压缩视频的超分辨率。在轨道1中,我们使用流行的数据集DIV2K作为培训,验证和测试集。在轨道2中,我们提出了LDV 3.0数据集,其中包含365个视频,包括LDV 2.0数据集(335个视频)和30个其他视频。在这一挑战中,有12支球队和2支球队分别提交了赛道1和赛道2的最终结果。所提出的方法和解决方案衡量了压缩图像和视频上超分辨率的最先进。提出的LDV 3.0数据集可在https://github.com/renyang-home/ldv_dataset上找到。此挑战的首页是在https://github.com/renyang-home/aim22_compresssr。
translated by 谷歌翻译
数据驱动的预测方法可以有效,准确地将蛋白质序列转化为生物活性结构,对于科学研究和治疗发展非常有价值。使用共同进化信息确定准确的折叠格局是现代蛋白质结构预测方法的成功基础。作为最新的状态,AlphaFold2显着提高了准确性,而无需进行明确的共同进化分析。然而,其性能仍然显示出对可用序列同源物的强烈依赖。我们研究了这种依赖性的原因,并提出了一种元生成模型Evogen,以弥补较差的MSA靶标的Alphafold2的表现不佳。 Evogen使我们能够通过降低搜索的MSA或生成虚拟MSA来操纵折叠景观,并帮助Alphafold2在低数据表方面准确地折叠,甚至通过单序预测来实现令人鼓舞的性能。能够用很少的MSA做出准确的预测,不仅可以更好地概括为孤儿序列的Alphafold2,而且使其在高通量应用程序中的使用民主化。此外,Evogen与AlphaFold2结合产生了一种概率结构生成方法,该方法可以探索蛋白质序列的替代构象,并且序列生成的任务意识可区分算法将使包括蛋白质设计在内的其他相关任务受益。
translated by 谷歌翻译
本文通过连续行动解决了非平稳环境和游戏中的政策学习。我们提出了一种无需重新格局样式的增强算法porl,而不是受到跟随规范化领导者(FTRL)和镜像下降(MD)更新的想法的启发,而不是经典的奖励最大化机制。我们证明,PORL具有最后的融合保证,这对于对抗和合作游戏很重要。实证研究表明,在控制任务的静态环境中,PORL的性能同样好,甚至比软crip-Critic(SAC)算法更好。在包括动态环境,对抗性训练和竞争性游戏在内的非机构环境中,PORL在更好的最终政策表现和更稳定的培训过程中都优于SAC。
translated by 谷歌翻译
作为梯度引导的搜索方法,可区分的神经体系结构搜索(飞镖)大大降低了计算成本,并加快了搜索的速度。在飞镖中,将体系结构参数引入候选操作,但是某些配备权重的操作的参数可能在初始阶段训练不好,这会导致候选操作之间的不公平竞争。无重量的操作大量出现,导致性能崩溃现象。此外,在训练超网中将占用许多内存,这会导致内存利用率较低。在本文中,提出了基于通道注意的部分通道连接,以进行可区分的神经体系结构搜索(ADARTS)。一些具有较高权重的通道是通过注意机制选择的,并将其他通道直接与处理的通道接触到操作空间。选择一些具有较高注意力权重的通道可以更好地将重要的功能信息传输到搜索空间中,并大大提高搜索效率和内存利用率。也可以避免由随机选择引起的网络结构的不稳定性。实验结果表明,ADART在CIFAR-10和CIFAR-100上分别达到了2.46%和17.06%的分类错误率。 Adarts可以有效地解决一个问题,即搜索过程中出现过多的跳过连接并获得具有更好性能的网络结构。
translated by 谷歌翻译
近年来,随着新颖的策略和应用,神经网络一直在迅速扩展。然而,尽管不可避免地会针对关键应用程序来解决这些挑战,例如神经网络技术诸如神经网络技术中仍未解决诸如神经网络技术的挑战。已经尝试通过用符号表示来表示和嵌入域知识来克服神经网络计算中的挑战。因此,出现了神经符号学习(Nesyl)概念,其中结合了符号表示的各个方面,并将常识带入神经网络(Nesyl)。在可解释性,推理和解释性至关重要的领域中,例如视频和图像字幕,提问和推理,健康信息学和基因组学,Nesyl表现出了有希望的结果。这篇综述介绍了一项有关最先进的Nesyl方法的全面调查,其原理,机器和深度学习算法的进步,诸如Opthalmology之类的应用以及最重要的是该新兴领域的未来观点。
translated by 谷歌翻译
与传统方法相比,学到的图像压缩已在PSNR和MS-SSIM中取得了非凡的速率延伸性能。但是,它遭受了密集的计算,这对于现实世界的应用是无法忍受的,目前导致其工业应用有限。在本文中,我们将神经体系结构搜索(NAS)介绍到具有较低延迟的更有效网络,并利用量化以加速推理过程。同时,已经为提高效率而做出了工程努力。使用PSNR和MS-SSIM的混合损失以更好的视觉质量进行了优化,我们获得的MSSIM比JPEG,JPEG XL和AVIF在所有比特率上都高得多,而JPEG XL和AVIF之间的PSNR则获得了PSNR。与JPEG-Turbo相比,我们的LIC的软件实施实现了可比较甚至更快的推理速度,而多次比JPEG XL和AVIF快。此外,我们的LIC实施达到了145 fps的惊人吞吐量,用于编码为208 fps,用于在Tesla T4 GPU上解码1080p图像。在CPU上,我们实施的延迟与JPEG XL相当。
translated by 谷歌翻译