The proliferation of automatic faithfulness metrics for summarization has produced a need for benchmarks to evaluate them. While existing benchmarks measure the correlation with human judgements of faithfulness on model-generated summaries, they are insufficient for diagnosing whether metrics are: 1) consistent, i.e., decrease as errors are introduced into a summary, 2) effective on human-written texts, and 3) sensitive to different error types (as summaries can contain multiple errors). To address these needs, we present a benchmark of unfaithful minimal pairs (BUMP), a dataset of 889 human-written, minimally different summary pairs, where a single error (from an ontology of 7 types) is introduced to a summary from the CNN/DailyMail dataset to produce an unfaithful summary. We find BUMP complements existing benchmarks in a number of ways: 1) the summaries in BUMP are harder to discriminate and less probable under SOTA summarization models, 2) BUMP enables measuring the consistency of metrics, and reveals that the most discriminative metrics tend not to be the most consistent, 3) BUMP enables the measurement of metrics' performance on individual error types and highlights areas of weakness for future work.
translated by 谷歌翻译
This paper proposes a novel application system for the generation of three-dimensional (3D) character animation driven by markerless human body motion capturing. The entire pipeline of the system consists of five stages: 1) the capturing of motion data using multiple cameras, 2) detection of the two-dimensional (2D) human body joints, 3) estimation of the 3D joints, 4) calculation of bone transformation matrices, and 5) generation of character animation. The main objective of this study is to generate a 3D skeleton and animation for 3D characters using multi-view images captured by ordinary cameras. The computational complexity of the 3D skeleton reconstruction based on 3D vision has been reduced as needed to achieve frame-by-frame motion capturing. The experimental results reveal that our system can effectively and efficiently capture human actions and use them to animate 3D cartoon characters in real-time.
translated by 谷歌翻译
Automatic parsing of human anatomies at instance-level from 3D computed tomography (CT) scans is a prerequisite step for many clinical applications. The presence of pathologies, broken structures or limited field-of-view (FOV) all can make anatomy parsing algorithms vulnerable. In this work, we explore how to exploit and conduct the prosperous detection-then-segmentation paradigm in 3D medical data, and propose a steerable, robust, and efficient computing framework for detection, identification, and segmentation of anatomies in CT scans. Considering complicated shapes, sizes and orientations of anatomies, without lose of generality, we present the nine degrees-of-freedom (9-DoF) pose estimation solution in full 3D space using a novel single-stage, non-hierarchical forward representation. Our whole framework is executed in a steerable manner where any anatomy of interest can be directly retrieved to further boost the inference efficiency. We have validated the proposed method on three medical imaging parsing tasks of ribs, spine, and abdominal organs. For rib parsing, CT scans have been annotated at the rib instance-level for quantitative evaluation, similarly for spine vertebrae and abdominal organs. Extensive experiments on 9-DoF box detection and rib instance segmentation demonstrate the effectiveness of our framework (with the identification rate of 97.0% and the segmentation Dice score of 90.9%) in high efficiency, compared favorably against several strong baselines (e.g., CenterNet, FCOS, and nnU-Net). For spine identification and segmentation, our method achieves a new state-of-the-art result on the public CTSpine1K dataset. Last, we report highly competitive results in multi-organ segmentation at FLARE22 competition. Our annotations, code and models will be made publicly available at: https://github.com/alibaba-damo-academy/Med_Query.
translated by 谷歌翻译
由于复杂的腹部内形状和腹部器官之间的复杂形状和外观变化,从不同模态的CT成像中进行的准确且健壮的腹部多器官分割是一项具有挑战性的任务。在本文中,我们提出了一个具有分层空间特征调制的概率多器官分割网络,以捕获灵活的器官语义变体,并将学习的变体注入不同的特征图尺度,以进行指导分割。更具体地说,我们通过条件变异自动编码器设计一个输入分解模块,以在低维潜在空间和模型富有器官语义变化上学习器官特异性分布,该分布在输入图像上进行条件。 -NET解码器通过空间特征转换从层次上进行分层,该特征转换能够将变化转换为空间特征映射调制并指导细尺度分割的条件仿射转换参数。提出的方法对公开可用的腹部可用数据集进行了培训,并在其他两个开放数据集上进行了评估,即100个挑战/病理测试,从腹部腹部1K完全监督的腹部器官细分基准和90例TCIA+&BTCV数据集中进行了90例病例。使用这些数据集用于四个腹部器官,肾脏,脾脏和胰腺,肾脏分数提高了7.3%,胰腺的骰子得分提高了7.7%,而胰腺的骰子得分提高了7.3%,而胰腺的较高速度比强度快7倍,较高的7倍基线分割方法(NNUNET和COTR)。
translated by 谷歌翻译
样本分配在现代对象检测方法中起着重要的作用。但是,大多数现有的方法都依靠手动设计来分配正 /负样本,这些样本并未明确建立样本分配和对象检测性能之间的关系。在这项工作中,我们提出了一种基于高参数搜索的新型动态样本分配方案。我们首先将分配给每个地面真理的正样本的数量定义为超参数,并采用替代优化算法来得出最佳选择。然后,我们设计一个动态的样本分配过程,以动态选择每个训练迭代中的最佳阳性数量。实验表明,所得的HPS-DET在不同对象检测基线的基线上带来了改善的性能。此外,我们分析了在不同数据集之间和不同骨架之间转移的高参数可重复使用性,以进行对象检测,这表现出我们方法的优势和多功能性。
translated by 谷歌翻译
部分闭塞作用是一种现象,即相机附近的模糊物体是半透明的,导致部分外观被遮挡的背景。但是,由于现有的散景渲染方法,由于在全焦点图像中的遮挡区域缺少信息而模拟现实的部分遮挡效果是一项挑战。受到可学习的3D场景表示的启发,我们试图通过引入一种基于MPI的新型高分辨率Bokeh渲染框架来解决部分遮挡,称为MPIB。为此,我们首先介绍了如何将MPI表示形式应用于散布渲染的分析。基于此分析,我们提出了一个MPI表示模块与背景介入模块相结合,以实现高分辨率场景表示。然后,可以将此表示形式重复使用以根据控制参数呈现各种散景效应。为了训练和测试我们的模型,我们还为数据生成设计了基于射线追踪的散景生成器。对合成和现实世界图像的广泛实验验证了该框架的有效性和灵活性。
translated by 谷歌翻译
我们提出了Bokehme,这是一种混合散景渲染框架,将神经渲染器与经典的身体动机渲染器结合。鉴于单个图像和潜在的不完美差异图,Bokehme生成了具有可调节的模糊大小,焦平面和光圈形状的高分辨率照片现实玻璃效果。为此,我们分析了基于经典散射方法的误差,并得出了计算误差图的公式。基于此公式,我们通过基于散射的方法实现经典渲染器,并提出一个两阶段的神经渲染器,以从经典渲染器中修复错误的区域。神经渲染器采用动态多尺度方案来有效处理任意模糊大小,并经过训练以处理不完美的差异输入。实验表明,我们的方法与对合成图像数据和具有预测差异的真实图像数据的先前方法进行了比较。进一步进行用户研究以验证我们方法的优势。
translated by 谷歌翻译
自然语言界面(NLIS)为用户提供了一种方便的方式来通过自然语言查询交互分析数据。然而,交互式数据分析是一种苛刻的过程,特别是对于新手数据分析师。从不同域探索大型和复杂的数据集时,数据分析师不一定有足够的关于数据和应用域的知识。它使他们无法有效地引起一系列查询并广泛导出理想的数据洞察力。在本文中,我们使用Step-Wise查询推荐模块开发NLI,以帮助用户选择适当的下一步探索操作。该系统采用数据驱动方法,以基于其查询日志生成用户兴趣的应用域的逐步语义相关和上下文感知的查询建议。此外,该系统可帮助用户将查询历史和结果组织成仪表板以传达发现的数据洞察力。通过比较用户学习,我们表明我们的系统可以促进比没有推荐模块的基线更有效和系统的数据分析过程。
translated by 谷歌翻译
零射门学习(ZSL)旨在通过将语义知识从看见课程转移到看不见者来识别新颖的课程。从不同类别之间共享的属性描述中学到的语义知识,该属性描述是用于本地化代表歧视区域特征的对象属性的强子指数,从而实现了显着的视觉语义交互。尽管基于注意的模型已经尝试学习单个图像中的这种区域特征,但是通常忽略视觉特征的可转换性和辨别性属性定位。在本文中,我们提出了一个属性引导的变压器网络,称为Transzero,以改进视觉特征,并在ZSL中鉴定鉴别的视觉嵌入表示。具体而言,Transzero采用特征增强编码器来缓解想象集和ZSL基准之间的交叉数据集偏压,并通过减少区域特征之间的缠结的相对几何关系来提高视觉特征的可转换性。为了学习地区增强的可视功能,Transzero使用视觉语义解码器来在语义属性信息的指导下本地化与给定图像中的每个属性最相关的图像区域。然后,用于在视觉语义嵌入网络中进行有效的视觉语义交互来实现局部增强的视觉特征和语义向量。广泛的实验表明,Transzero在三个ZSL基准上实现了新的最新状态。该代码可用于:\ url {https://github.com/shiming-chen/transzero}。
translated by 谷歌翻译
作为SE(3)的基本组成部分 - Quivariant的深度特色学习,可转向卷积最近展示了其3D语义分析的优势。然而,优点由昂贵的体积数据上的昂贵计算带来,这可以防止其实际用途,以便有效地处理固有的稀疏的3D数据。在本文中,我们提出了一种新颖的稀疏转向卷积(SS-Char)设计,以解决缺点; SS-DIM大大加快了稀疏张量的可操纵卷积,同时严格保留了SE(3)的性质。基于SS-CONV,我们提出了一种用于精确估计对象姿势的一般管道,其中一个关键设计是一种特征转向模块,其具有SE(3)的完全优势,并且能够进行高效的姿势改进。为了验证我们的设计,我们对三个对象语义分析的三个任务进行了彻底的实验,包括实例级别6D姿势估计,类别级别6D姿势和大小估计,以及类别级6D姿态跟踪。我们基于SS-CONV的提议管道优于三个任务评估的几乎所有指标上的现有方法。消融研究还在准确性和效率方面展示了我们的SS-CONVES对替代卷积的优越性。我们的代码在https://github.com/gorilla-lab-scut/ss-conv公开发布。
translated by 谷歌翻译