跟踪球员和团队运动中的球是分析表现或增强游戏体验的关键。当这些数据的唯一来源是广播视频时,需要运动场注册系统来估算同型并重新投影球或从图像空间到场地的球员。本文描述了在MMSPorts 2022 Camera Callibration Challenge的背景下,一个新的篮球法庭注册框架。该方法基于通过用透视感知约束采样的关键点的位置的编码器编码网络的估计。篮子位置的回归和重型数据增强技术使该模型稳健地对不同的领域。消融研究表明,我们的贡献对挑战测试集的积极影响。与挑战基线相比,我们的方法将平方误差除以4.7。
translated by 谷歌翻译
广播视频中的运动场注册通常被解释为同型估算的任务,该任务在平面场和图像的相应可见区域之间提供了映射。与以前的方法相反,我们将任务视为摄像机校准问题。首先,我们引入了一个可区分的目标函数,该功能能够根据已知校准对象的片段,即运动领域的片段,从段对应(例如,线,点云)中学习相机姿势和焦距。 。校准模块迭代地最小化了由估计的摄像机参数引起的段重新投影误差。其次,我们提出了一种从广播足球图像中进行3D运动场注册的新方法。校准模块不需要任何训练数据,并且与典型的解决方案进行了比较,该解决方案随后完善了初始估计,我们的解决方案在一个步骤中进行。评估了所提出的方法在两个数据集上进行运动现场注册,并与两种最先进的方法相比,取得了优越的结果。
translated by 谷歌翻译
This paper presents a robust end-to-end method for sports cameras extrinsic parameters optimization using a novel evolution strategy. First, we developed a neural network architecture for an edge or area-based segmentation of a sports field. Secondly, we implemented the evolution strategy, which purpose is to refine extrinsic camera parameters given a single, segmented sports field image. Experimental comparison with state-of-the-art camera pose refinement methods on real-world data demonstrates the superiority of the proposed algorithm. We also perform an ablation study and propose a way to generalize the method to additionally refine the intrinsic camera matrix.
translated by 谷歌翻译
随着深度学习的最新发展应用于计算机视觉,体育视频的理解引起了很多关注,为体育消费者和联赛提供了更丰富的信息。本文介绍了DeepSportradar-V1,这是一套计算机视觉任务,数据集和基准,以自动化运动。该框架的主要目的是缩小学术研究和现实世界环境之间的差距。为此,数据集提供了高分辨率的原始图像,相机参数和高质量注释。 DeepSportradar目前支持与篮球有关的四项具有挑战性的任务:Ball 3D定位,摄像头校准,播放器实例细分和播放器重新识别。对于四个任务中的每一个,都提供了数据集,目标,性能指标和提议的基线方法的详细说明。为了鼓励对运动理解的先进方法的进一步研究,竞争是在ACM Multimedia 2022会议上的MMSPorts研讨会的一部分组织的,参与者必须开发最先进的方法来解决上述任务。公开可用的四个数据集,开发套件和基线。
translated by 谷歌翻译
This paper addresses the challenge of 6DoF pose estimation from a single RGB image under severe occlusion or truncation. Many recent works have shown that a two-stage approach, which first detects keypoints and then solves a Perspective-n-Point (PnP) problem for pose estimation, achieves remarkable performance. However, most of these methods only localize a set of sparse keypoints by regressing their image coordinates or heatmaps, which are sensitive to occlusion and truncation. Instead, we introduce a Pixel-wise Voting Network (PVNet) to regress pixel-wise unit vectors pointing to the keypoints and use these vectors to vote for keypoint locations using RANSAC. This creates a flexible representation for localizing occluded or truncated keypoints. Another important feature of this representation is that it provides uncertainties of keypoint locations that can be further leveraged by the PnP solver. Experiments show that the proposed approach outperforms the state of the art on the LINEMOD, Occlusion LINEMOD and YCB-Video datasets by a large margin, while being efficient for real-time pose estimation. We further create a Truncation LINEMOD dataset to validate the robustness of our approach against truncation. The code will be avaliable at https://zju-3dv.github.io/pvnet/.
translated by 谷歌翻译
在双胞胎输血综合征(TTTS)中,单座管胎盘中的异常血管吻合可能会在两个胎儿之间产生不均匀的流量。在当前的实践中,通过使用激光消融闭合异常吻合来对TTT进行手术治疗。该手术在最小的侵入性中依赖于胎儿镜检查。有限的视野使吻合术识别成为外科医生的具有挑战性的任务。为了应对这一挑战,我们提出了一个基于学习的框架,用于视野扩展的体内胎儿镜框架注册。该框架的新颖性依赖于基于学习的关键点提案网络以及基于胎儿镜图像细分和(ii)不一致的同符的编码策略(i)无关的关键点。我们在来自6个不同女性的6个TTT手术的6个术中序列的数据集中验证了我们的框架,这是根据最新的最新算法状态,该算法依赖于胎盘血管的分割。与艺术的状态相比,提出的框架的性能更高,为稳健的马赛克在TTTS手术期间提供背景意识铺平了道路。
translated by 谷歌翻译
Estimating 6D poses of objects from images is an important problem in various applications such as robot manipulation and virtual reality. While direct regression of images to object poses has limited accuracy, matching rendered images of an object against the input image can produce accurate results. In this work, we propose a novel deep neural network for 6D pose matching named DeepIM. Given an initial pose estimation, our network is able to iteratively refine the pose by matching the rendered image against the observed image. The network is trained to predict a relative pose transformation using a disentangled representation of 3D location and 3D orientation and an iterative training process. Experiments on two commonly used benchmarks for 6D pose estimation demonstrate that DeepIM achieves large improvements over stateof-the-art methods. We furthermore show that DeepIM is able to match previously unseen objects.
translated by 谷歌翻译
胎儿镜检查激光​​光凝是一种广泛采用的方法,用于治疗双胞胎输血综合征(TTTS)。该过程涉及光凝病理吻合术以调节双胞胎之间的血液交换。由于观点有限,胎儿镜的可操作性差,可见性差和照明的可变性,因此该程序尤其具有挑战性。这些挑战可能导致手术时间增加和消融不完全。计算机辅助干预措施(CAI)可以通过识别场景中的关键结构并通过视频马赛克来扩展胎儿镜观景领域,从而为外科医生提供决策支持和背景意识。由于缺乏设计,开发和测试CAI算法的高质量数据,该领域的研究受到了阻碍。通过作为MICCAI2021内窥镜视觉挑战组织的胎儿镜胎盘胎盘分割和注册(FETREG2021)挑战,我们发布了第一个Largescale Multencentre TTTS数据集,用于开发广义和可靠的语义分割和视频摩擦质量algorithms。对于这一挑战,我们发布了一个2060张图像的数据集,该数据集是从18个体内TTTS胎儿镜检查程序和18个简短视频剪辑的船只,工具,胎儿和背景类别的像素通道。七个团队参与了这一挑战,他们的模型性能在一个看不见的测试数据集中评估了658个从6个胎儿镜程序和6个短剪辑的图像的图像。这项挑战为创建通用解决方案提供了用于胎儿镜面场景的理解和摩西式解决方案的机会。在本文中,我们介绍了FETREG2021挑战的发现,以及报告TTTS胎儿镜检查中CAI的详细文献综述。通过这一挑战,它的分析和多中心胎儿镜数据的发布,我们为该领域的未来研究提供了基准。
translated by 谷歌翻译
In this paper, we are interested in the human pose estimation problem with a focus on learning reliable highresolution representations. Most existing methods recover high-resolution representations from low-resolution representations produced by a high-to-low resolution network. Instead, our proposed network maintains high-resolution representations through the whole process.We start from a high-resolution subnetwork as the first stage, gradually add high-to-low resolution subnetworks one by one to form more stages, and connect the mutliresolution subnetworks in parallel. We conduct repeated multi-scale fusions such that each of the high-to-low resolution representations receives information from other parallel representations over and over, leading to rich highresolution representations. As a result, the predicted keypoint heatmap is potentially more accurate and spatially more precise. We empirically demonstrate the effectiveness of our network through the superior pose estimation results over two benchmark datasets: the COCO keypoint detection dataset and the MPII Human Pose dataset. In addition, we show the superiority of our network in pose tracking on the PoseTrack dataset. The code and models have been publicly available at https://github.com/leoxiaobin/ deep-high-resolution-net.pytorch.
translated by 谷歌翻译
尽管提取了通过手工制作和基于学习的描述符实现的本地特征的进步,但它们仍然受到不符合非刚性转换的不变性的限制。在本文中,我们提出了一种计算来自静止图像的特征的新方法,该特征对于非刚性变形稳健,以避免匹配可变形表面和物体的问题。我们的变形感知当地描述符,命名优惠,利用极性采样和空间变压器翘曲,以提供旋转,尺度和图像变形的不变性。我们通过将等距非刚性变形应用于模拟环境中的对象作为指导来提供高度辨别的本地特征来培训模型架构端到端。该实验表明,我们的方法优于静止图像中的实际和现实合成可变形对象的不同数据集中的最先进的手工制作,基于学习的图像和RGB-D描述符。描述符的源代码和培训模型在https://www.verlab.dcc.ufmg.br/descriptors/neUrips2021上公开可用。
translated by 谷歌翻译
当有足够的训练数据时,在某些视力任务中,基于变压器的模型(例如Vision Transformer(VIT))可以超越跨趋化神经网络(CNN)。然而,(CNN)对视力任务(即翻译均衡和局部性)具有强大而有用的归纳偏见。在这项工作中,我们开发了一种新颖的模型架构,我们称之为移动鱼类地标检测网络(MFLD-NET)。我们已经使用基于VIT的卷积操作(即斑块嵌入,多层感知器)制作了该模型。 MFLD-NET可以在轻巧的同时获得竞争性或更好的结果,同时轻巧,因此适用于嵌入式和移动设备。此外,我们表明MFLD-NET可以在PAR上获得关键点(地标)估计精度,甚至比FISH图像数据集上的某些最先进的(CNN)更好。此外,与VIT不同,MFLD-NET不需要预训练的模型,并且在小型数据集中训练时可以很好地概括。我们提供定量和定性的结果,以证明该模型的概括能力。这项工作将为未来开发移动但高效的鱼类监测系统和设备的努力奠定基础。
translated by 谷歌翻译
本文提出了一个统一的框架到(i)找到球,(ii)预测姿势,(iii)在团队体育场景中分段播放器的实例掩码。这些问题对自动体育分析,生产和广播有高兴趣。常见做法是通过利用通用最先进的模型,例如Panoptic-Deeblab来单独解决每个问题,用于玩家分割。除了从单任务模型的乘法乘以增加的复杂性之外,由于团队体育场景的复杂性和特异性,使用现成的架子模型也会阻碍性能,如强大的遮挡和运动模糊。为了规避这些限制,我们的论文提出培训一种单一的模型,它通过组合零件强度场和空间嵌入原理来预测球和玩家掩模和姿势。部件强度场提供球和播放器位置,以及播放器接头位置。然后利用空间嵌入来将播放器实例像素联系到其各自的播放器中心,而且还将播放器接头分组成骷髅。我们展示了拟议模型在DeepSport篮球数据集上的有效性,为单独解决每个单独任务的SOA模型实现了可比性的性能。
translated by 谷歌翻译
在本文中,我们建议超越建立的基于视觉的本地化方法,该方法依赖于查询图像和3D点云之间的视觉描述符匹配。尽管通过视觉描述符匹配关键点使本地化高度准确,但它具有重大的存储需求,提出了隐私问题,并需要长期对描述符进行更新。为了优雅地应对大规模定位的实用挑战,我们提出了Gomatch,这是基于视觉的匹配的替代方法,仅依靠几何信息来匹配图像键点与地图的匹配,这是轴承矢量集。我们的新型轴承矢量表示3D点,可显着缓解基于几何的匹配中的跨模式挑战,这阻止了先前的工作在现实环境中解决本地化。凭借额外的仔细建筑设计,Gomatch在先前的基于几何的匹配工作中改善了(1067m,95.7升)和(1.43m,34.7摄氏度),平均中位数姿势错误,同时需要7个尺寸,同时需要7片。与最佳基于视觉的匹配方法相比,几乎1.5/1.7%的存储容量。这证实了其对现实世界本地化的潜力和可行性,并为不需要存储视觉描述符的城市规模的视觉定位方法打开了未来努力的大门。
translated by 谷歌翻译
小天体的任务在很大程度上依赖于光学特征跟踪,以表征和相对导航。尽管深度学习导致了功能检测和描述方面的巨大进步,但由于大规模,带注释的数据集的可用性有限,因此培训和验证了空间应用程序的数据驱动模型具有挑战性。本文介绍了Astrovision,这是一个大规模数据集,由115,970个密集注释的,真实的图像组成,这些图像是过去和正在进行的任务中捕获的16个不同物体的真实图像。我们利用Astrovision开发一组标准化基准,并对手工和数据驱动的功能检测和描述方法进行详尽的评估。接下来,我们采用Astrovision对最先进的,深刻的功能检测和描述网络进行端到端培训,并在多个基准测试中表现出改善的性能。将公开使用完整的基准管道和数据集,以促进用于空间应用程序的计算机视觉算法的发展。
translated by 谷歌翻译
随着牛奶厂的畜群大小继续增加,奶牛的自动健康监测是兴趣的。通过分析奶牛的步态,通常检测到乳制品奶牛中普遍存在的健康障碍。可以使用姿势估计模型在视频中追踪牛的步态,因为模型学会自动本地化图像和视频的解剖标志。大多数动物姿势估计模型是静态的,也就是说,视频是通过帧进行处理的帧,并且不使用任何时间信息。在这项工作中,用于动物姿态估计的静态深度学习模型扩展到包括来自过去框架的信息的时间模型。我们比较了静态和时间姿势估计模型的性能。这些数据由来自通过室外通道的30个不同乳制品牛的视频(30 fps)提取的459个三个连续帧。随着农场环境易于闭塞,我们通过向视频添加人工闭塞来测试静态和时间模型的稳健性。实验表明,在非闭塞数据中,静态和时间方法都达到了正确关键点的百分比(PCKH @ 0.2)99%。在遮挡数据上,我们的时间方法优于静态,高达32.9%,表明使用时间数据有利于易于闭塞的环境中的姿势估计,例如乳制品农场。通过在包含未知奶牛的数据(培训集中不存在的奶牛)上测试了时间模型的泛化能力。结果表明,普通PCKH@0.2在已知的奶牛上为93.8%,在未知的奶牛上为87.6%,表明该模型能够概括为新奶牛,并且它们可以很容易地微调到新牛群。最后,我们展示了更难的任务,例如遮挡和未知的奶牛,更深层次的建筑更有益。
translated by 谷歌翻译
Quantifying motion in 3D is important for studying the behavior of humans and other animals, but manual pose annotations are expensive and time-consuming to obtain. Self-supervised keypoint discovery is a promising strategy for estimating 3D poses without annotations. However, current keypoint discovery approaches commonly process single 2D views and do not operate in the 3D space. We propose a new method to perform self-supervised keypoint discovery in 3D from multi-view videos of behaving agents, without any keypoint or bounding box supervision in 2D or 3D. Our method uses an encoder-decoder architecture with a 3D volumetric heatmap, trained to reconstruct spatiotemporal differences across multiple views, in addition to joint length constraints on a learned 3D skeleton of the subject. In this way, we discover keypoints without requiring manual supervision in videos of humans and rats, demonstrating the potential of 3D keypoint discovery for studying behavior.
translated by 谷歌翻译
在眼科成像中,多个成像系统,例如颜色眼底,红外,荧光素血管造影,光学相干断层扫描(OCT)或OCT血管造影,通常涉及诊断视网膜疾病。多模式的视网膜注册技术可以通过在不同方式或获取时间的图像中提供基于像素的比较容器结构的比较来帮助眼科医生。为此,我们提出了一种用于多模式视网膜图像注册的端到端可训练的深度学习方法。我们的方法从血管结构中提取卷积特征,以进行关键点检测和描述,并使用图形神经网络进行特征匹配。 KePoint检测和描述网络和图形神经网络使用合成多模式图对以自我监督的方式共同训练,并通过合成采样的地面真实同谱进行指导。我们的方法证明了较高的注册精度作为我们的合成视网膜数据集的竞争方法,并为我们的真实黄斑数据集和公共底面数据集提供了很好的概括。
translated by 谷歌翻译
我们提出了一种学习来自未标识的行为视频的代理的姿势和结构的方法。从观察开始,表现代理通常是行为视频中的主要运动来源,我们的方法使用具有几何瓶颈的编码器 - 解码器架构来重建视频帧之间的差异。只要仅关注运动区域,我们的方法直接在输入视频上工作,而无需手动注释,例如关键点或边界框。关于各种代理类型(鼠标,飞,人,水母和树木)的实验展示了我们的方法的一般性,并揭示了我们发现的关键点代表着语义有意义的身体部位,这在关键点回归上实现了最先进的性能在自我监督的方法中。此外,我们发现的关键点可实现可比的性能,以对下游任务的监督关键点,例如行为分类,表明我们的方法可以大大降低模型培训VIS-VIS监督方法的成本。
translated by 谷歌翻译
密集对象跟踪,能够通过像素级精度本地化特定的对象点,是一个重要的计算机视觉任务,具有多种机器人的下游应用程序。现有方法在单个前向通行证中计算密集的键盘嵌入,这意味着模型培训以一次性跟踪所有内容,或者将它们的全部容量分配给稀疏预定义的点,交易一般性以获得准确性。在本文中,我们基于观察到给定时间的相关点数通常相对较少,例如,探索中间地面。掌握目标对象的点。我们的主要贡献是一种新颖的架构,灵感来自少量任务适应,这允许一个稀疏样式的网络在嵌入点嵌入的关键点嵌入时的条件。我们的中央发现是,这种方法提供了密集嵌入模型的一般性,同时提供准确性更加接近稀疏关键点方法。我们呈现了说明此容量与准确性权衡的结果,并使用真正的机器人挑选任务展示将转移到新对象实例(在课程中)的能力。
translated by 谷歌翻译
当代掌握检测方法采用深度学习,实现传感器和物体模型不确定性的鲁棒性。这两个主导的方法设计了掌握质量评分或基于锚的掌握识别网络。本文通过将其视为图像空间中的关键点检测来掌握掌握检测的不同方法。深网络检测每个掌握候选者作为一对关键点,可转换为掌握代表= {x,y,w,{\ theta}} t,而不是转角点的三态或四重奏。通过将关键点分组成对来降低检测难度提高性能。为了促进捕获关键点之间的依赖关系,将非本地模块结合到网络设计中。基于离散和连续定向预测的最终过滤策略消除了错误的对应关系,并进一步提高了掌握检测性能。此处提出的方法GKNET在康奈尔和伸缩的提花数据集上的精度和速度之间实现了良好的平衡(在41.67和23.26 fps的96.9%和98.39%)之间。操纵器上的后续实验使用4种类型的抓取实验来评估GKNet,反映不同滋扰的速度:静态抓握,动态抓握,在各种相机角度抓住,夹住。 GKNet优于静态和动态掌握实验中的参考基线,同时表现出变化的相机观点和中度杂波的稳健性。结果证实了掌握关键点是深度掌握网络的有效输出表示的假设,为预期的滋扰因素提供鲁棒性。
translated by 谷歌翻译