如何提取重要点云特征并估计它们之间的姿势仍然是一个具有挑战性的问题,因为点云的固有缺乏结构和暧昧的顺序排列。尽管对大多数3D计算机视觉任务的基于深度学习的方法进行了重大改进,例如对象分类,对象分割和点云注册,但功能之间的一致性在现有的基于学习的流水线上仍然没有吸引力。在本文中,我们提出了一种用于复杂对准场景的新型学习的对齐网络,标题为深度特征一致性,并由三个主模块组成:多尺度图形特征合并网络,用于将几何对应集转换为高维特征,对应加权用于构建多个候选内部子集的模块,以及命名为深度特征匹配的Procrustes方法,用于给出闭合方案来估计相对姿势。作为深度特征匹配模块的最重要步骤,构造每个Inlier子集的特征一致性矩阵以获得其主要向量作为相应子集的含义似然性。我们全面地验证了我们在3DMATCH数据集和基提ODOMOTRY数据集中的方法的鲁棒性和有效性。对于大型室内场景,3DMATCH数据集上的注册结果表明,我们的方法优于最先进的传统和基于学习的方法。对于Kitti户外场景,我们的方法仍然能够降低转换错误。我们还在交叉数据集中探讨其强大的泛化能力。
translated by 谷歌翻译
ML模型通常使用高质量的大型数据集进行培训。但是,训练数据集通常包含不一致或不完整的数据。为了解决这个问题,一个解决方案是开发可以检查模型的预测是否是可证明的算法的算法。给定生成分类器的学习算法并在测试时间时给出示例,如果通过在不确定(不一致)数据集的所有可能的世界(维修)训练的每个模型中预测,则对分类结果是可证明的稳健。这种坚固性的概念自然地在某些答案的框架下落下。在本文中,我们研究了一个简单但广泛部署的分类算法的认证稳健性的复杂性,$ k $-nearest邻居($ k $ -nn)。当完整性约束是功能依赖性(FDS)时,我们的主要焦点在于不一致的数据集。对于这种环境,我们在认证稳健性W.R.T的复杂性方面建立了二分法。该组FDS:问题要么承认多项式时间算法,或者它是坚固的。此外,我们对问题的计数版本表现出类似的二分法,其中目标是计算预测某个标签的可能世界的数量。作为我们研究的副产品,我们还建立了与寻找可能是独立兴趣的最佳子集修复相关的问题的复杂性。
translated by 谷歌翻译
Vision-Language预培训是一个新兴和快速发展的研究主题,将多模态知识从丰富的资源预训练任务转移到有限资源下游任务。与主要学习单个通用编码器的现有作品不同,我们提出了一种可训练的通用编码器 - 解码器网络(UNI-EDEN),以促进视觉语言感知(例如,视觉问题应答)和生成(例如,图像标题)。 UNI-EDEN是一种基于双流变换器的结构,由三个模块组成:对象和句子编码器,其单独了解每个模态的表示,以及通过模态交互能够实现多模态推理和句子的句子解码器。考虑到每个图像的语言表示可以跨越该层次结构的不同粒度,包括从简单到全面,个人标签,短语和自然句子,我们通过多粒愿景语言代理任务预先列车UNI-EDEN:屏蔽对象分类(MOC),蒙版区域短语生成(MRPG),图像句匹配(ISM)和屏蔽句生成(MSG)。以这种方式,UNI-EDEN赋予了多模态表示提取和语言建模的功率。广泛的实验证明了通过微调到四个视觉语言感知和发电下游任务来展示Uni-Eden的概括性。
translated by 谷歌翻译
域适应(DA)最近在医学影像社区提出了强烈的兴趣。虽然已经提出了大量DA技术进行了用于图像分割,但大多数这些技术已经在私有数据集或小公共可用数据集上验证。此外,这些数据集主要解决了单级问题。为了解决这些限制,与第24届医学图像计算和计算机辅助干预(Miccai 2021)结合第24届国际会议组织交叉模态域适应(Crossmoda)挑战。 Crossmoda是无监督跨型号DA的第一个大型和多级基准。挑战的目标是分割参与前庭施瓦新瘤(VS)的后续和治疗规划的两个关键脑结构:VS和Cochleas。目前,使用对比度增强的T1(CET1)MRI进行VS患者的诊断和监测。然而,使用诸如高分辨率T2(HRT2)MRI的非对比度序列越来越感兴趣。因此,我们创建了一个无人监督的跨模型分段基准。训练集提供注释CET1(n = 105)和未配对的非注释的HRT2(n = 105)。目的是在测试集中提供的HRT2上自动对HRT2进行单侧VS和双侧耳蜗分割(n = 137)。共有16支球队提交了评估阶段的算法。顶级履行团队达成的表现水平非常高(最佳中位数骰子 - vs:88.4%; Cochleas:85.7%)并接近完全监督(中位数骰子 - vs:92.5%;耳蜗:87.7%)。所有顶级执行方法都使用图像到图像转换方法将源域图像转换为伪目标域图像。然后使用这些生成的图像和为源图像提供的手动注释进行培训分割网络。
translated by 谷歌翻译
联合学习是一种流行的技术,用于在不共享数据的情况下培训分布式数据源上的机器学习模型。基于垂直的联合学习或基于功能的联合学习适用于不同数据源共享相同的样本ID空间但在特征空间中不同的情况。为了确保数据所有者的长期参与,客观地评估每个数据源的贡献并相应地汇总贡献至关重要。福利价值(SV)是源自合作博弈论的可怕公平贡献估值指标。然而,计算SV需要在数据源的每个子集中广泛地重新培训模型,这导致联合学习中的高通信成本。我们提出了一种基于SV的垂直联合福利价值(VerfedSv)的贡献估值度量。我们表明Verfedsv不仅满足了公平性的许多理想的属性,而且还有效地计算,并且可以适用于同步和异步垂直联合学习算法。理论分析和广泛的实验结果均验证了Verfedsv的公平性,效率和适应性。
translated by 谷歌翻译
图像分割是医学图像场中的重要任务,并且已经提出了许多基于卷积神经网络(CNNS)的方法,其中U-Net及其变体表现出了有希望的性能。在本文中,我们提出了基于U-Net的GP模块和GPU-Net,通过引入幽灵模块和不足的空间金字塔池(ASPP),可以了解更多样化的功能。我们的方法实现了更好的性能,参数较少的4倍以上,拖鞋的2倍,为未来的研究提供了新的潜在方向。我们的即插即用模块也可以应用于现有的分段方法,以进一步提高其性能。
translated by 谷歌翻译
我们介绍了一种新颖的骨干架构,提高特征表示的目标感知能力。具体地,已经观察到事实上框架简单地使用来自骨干网的输出来执行特征匹配,从备份目标本地化,没有从匹配模块到骨干网的直接反馈,尤其是浅层。更具体地,只有匹配模块可以直接访问目标信息(在参考帧中),而候选帧的表示学习对参考目标是盲目的。结果,浅级中的目标 - 无关干扰的累积效果可能降低更深层的特征质量。在本文中,我们通过在暹罗类似的骨干网(inbn)内进行多个分支 - 方面交互来从不同角度接近问题。在INBN的核心是一个通用交互建模器(GIM),其将参考图像的先前知识注入骨干网络的不同阶段,导致候选特征表示的更好的目标感知和鲁棒的牵引力,其计算成本具有可忽略的计算成本。所提出的GIM模块和INBN机制是一般的,适用于不同的骨干类型,包括CNN和变压器,以改进,如我们在多个基准上的广泛实验所证明的那样。特别是,CNN版本(基于Siamcar),分别在Lasot / TNL2K上改善了3.2 / 6.9的Suc绝对收益。变压器版本获取Lasot / TNL2K的SUC 25.7 / 52.0,与最近的艺术态度相提并论。代码和模型将被释放。
translated by 谷歌翻译
目标为可以处理多答题问题的临床问答(QA)系统的开发和评估创建数据集。我们利用2018年国家NLP临床挑战(N2C2)语料库的注释关系来产生QA数据集。 1-0和1-o-n药物 - 理性关系形成了不可批售和多答案的条目,它代表了现有临床QA数据集缺乏的具有挑战性的情景。结果结果rxwhyqa dataSet包含91,440个QA条目,其中一半是未签发的,并且应答的21%(n = 19,269)需要多个答案。数据集符合社区审查的斯坦福问题应答DataSet(Squad)格式。讨论RXWhyQA对于比较需要处理零和多答案挑战的不同系统非常有用,要求对误报和假阴性答案的双重缓解。结论我们创建并共用了一个临床QA数据集,重点是多答题问题,以代表真实世界的情景。
translated by 谷歌翻译
基于屏障函数的控制证书一直是一个强大的工具,可能为动态系统生成可能的安全控制策略。但是,基于屏障证书的现有方法通常用于具有可微差动态的白盒系统,这使得它们可以不适用于系统是黑盒的许多实用应用,并且不能准确地建模。另一方面,黑盒系统的无模型加强学习(RL)方法缺乏安全保证和低采样效率。在本文中,我们提出了一种新的方法,可以为黑盒动态系​​统学习安全控制政策和屏障证书,而无需准确的系统模型。我们的方法即使在黑盒式动态系统是不可差分的情况下,我们也可以重新设计损耗函数以反向传播梯度对控制策略,并且我们表明安全证书在黑盒系统上保持。仿真的经验结果表明,与最先进的黑匣子安全控制方法相比,我们的方法可以通过实现近100%的安全性和目标来实现近100%的安全性和目标达到速度。我们的学习代理商也可以在保持原始性能的同时概括取消观察方案。源代码可以在https://github.com/zengyi-qin/bcbf找到。
translated by 谷歌翻译
视频质量评估(VQA)仍然是一个重要而挑战性的问题,影响了最广泛的尺度的许多应用程序。移动设备和云计算技术的最新进展使得可以捕获,处理和共度高分辨率,高分辨率(HFR)视频几乎瞬间。能够监控和控制这些流式视频的质量可以使得能够提供更令人愉快的内容和感知的优化速率控制。因此,需要一种强迫需要开发可以在巨大尺度部署的VQA模型。虽然最近的一些效果已应用于可变帧速率和HFR视频质量的全参考(FR)分析,但是没有研究帧速率变化的无引用(NR)VQA算法的开发。在这里,我们提出了一种用于评估HFR视频的一级盲VQA模型,我们将其配给了帧群感知视频评估程序W / O参考(Faver)。 Faver使用扩展模型的空间自然场景统计数据,即包括节省空间小波分解的视频信号,进行有效的帧速率敏感质量预测。我们对几个HFR视频质量数据集的广泛实验表明,PEVER以合理的计算成本优于其他盲VQA算法。为了便于可重复的研究和公共评估,在线可以在线进行狂热的实施:\ url {https://github.com/uniqzheng/hfr-bvqa}。
translated by 谷歌翻译