基于深度学习的计算机辅助诊断(CAD)在学术研究和临床应用中引起了吸引人的关注。然而,卷积神经网络(CNN)诊断系统严重依赖于标记的病变数据集,对数据分布变化的敏感性也限制了CNN在CAD中的潜在应用。开发了无监督的域适应性(UDA)方法来解决昂贵的注释和域间隙问题,并在医学图像分析中取得了巨大的成功。然而,现有的UDA方法仅适应从源病变域中汲取的知识到一个单个目标病变域,这是针对临床情况的:要诊断的新的未标记的目标域始终以在线和连续的方式到达。此外,由于新知识的知识覆盖了先前学到的知识(即灾难性的遗忘),因此现有方法的性能在先前学到的目标病变域上大大降低。为了处理上述问题,我们开发了一个名为连续病变知识元适应(CLKM)的元适应框架,该框架主要由语义适应阶段(​​SAP)和表示适应阶段(​​RAP)组成,以在线学习诊断模型和连续的方式。在SAP中,从源病变域中学到的语义知识转移到连续的靶病变域。在RAP中,优化了功能提取器以对齐整个源和多个目标病变域的可转移表示知识。
translated by 谷歌翻译
部分标签学习(PLL)是一项奇特的弱监督学习任务,其中训练样本通常与一组候选标签而不是单个地面真理相关联。尽管在该域中提出了各种标签歧义方法,但他们通常假设在许多现实世界应用中可能不存在类平衡的方案。从经验上讲,我们在面对长尾分布和部分标记的组合挑战时观察到了先前方法的退化性能。在这项工作中,我们首先确定先前工作失败的主要原因。随后,我们提出了一种新型的基于最佳运输的框架太阳能,它允许完善被歧义的标签,以匹配边缘级别的先验分布。太阳能还结合了一种新的系统机制,用于估计PLL设置下的长尾类先验分布。通过广泛的实验,与先前的最先进的PLL方法相比,太阳能在标准化基准方面表现出基本优势。代码和数据可在以下网址获得:https://github.com/hbzju/solar。
translated by 谷歌翻译
大型语言模型(LLM)从人类的指示中解开了任务计划的新功能。但是,事先尝试将LLMS应用于现实世界的机器人任务受到周围场景中缺乏接地的限制。在本文中,我们开发了NLMAP,这是一个开放式摄影和可查询场景表示,以解决此问题。 NLMAP是一个框架,可以将上下文信息收集到LLM计划者中,从而在生成上下文条件条件计划之前,可以在场景中查看和查询可用的对象。 NLMAP首先使用视觉语言模型(VLM)建立自然语言可查询场景表示。基于LLM的对象建议模块解析指令并提出涉及的对象,以查询场景表示以获取对象可用性和位置。然后,LLM规划师计划提供有关场景的此类信息。 NLMAP允许机器人在没有固定的对象列表或可执行选项的情况下操作,从而使真实的机器人操作无法通过以前的方法实现。项目网站:https://nlmap-saycan.github.io
translated by 谷歌翻译
在本文中,我们证明了基于深度学习的方法可用于融合多对象密度。给定一个带有几个传感器可能不同视野的传感器的方案,跟踪器在每个传感器中在本地执行跟踪,该跟踪器会产生随机有限的集合多对象密度。为了融合来自不同跟踪器的输出,我们调整了最近提出的基于变压器的多对象跟踪器,其中融合结果是一个全局的多对象密度,描述了当前时间的所有活物体。我们将基于变压器的融合方法与基于模型的贝叶斯融合方法的性能进行比较,在几种模拟方案中,使用合成数据进行了不同的参数设置。仿真结果表明,基于变压器的融合方法在我们的实验场景中优于基于模型的贝叶斯方法。
translated by 谷歌翻译
透明的物体广泛用于工业自动化和日常生活中。但是,强大的视觉识别和对透明物体的感知一直是一个主要挑战。目前,由于光的折射和反射,大多数商用级深度摄像机仍然不擅长感知透明物体的表面。在这项工作中,我们从单个RGB-D输入中提出了一种基于变压器的透明对象深度估计方法。我们观察到,变压器的全球特征使得更容易提取上下文信息以执行透明区域的深度估计。此外,为了更好地增强细粒度的特征,功能融合模块(FFM)旨在帮助连贯的预测。我们的经验证据表明,与以前的最新基于卷积的数据集相比,我们的模型在最近的流行数据集中有了重大改进,例如RMSE增长25%,RER增长21%。广泛的结果表明,我们的基于变压器的模型可以更好地汇总对象的RGB和不准确的深度信息,以获得更好的深度表示。我们的代码和预培训模型将在https://github.com/yuchendoudou/tode上找到。
translated by 谷歌翻译
除了在经典图像压缩编解码器上实现较高的压缩效率外,还可以通过其他侧面信息(例如,从同一场景的不同角度)改进深层图像压缩。为了更好地利用分布式压缩方案下的侧面信息,现有方法(Ayzik和Avidan 2020)仅在图像域上实现匹配的补丁,以解决由查看点差异引起的视差问题。但是,在图像域上匹配的补丁匹配对由不同的视角引起的比例,形状和照明的差异并不强大,也无法充分利用侧面信息图像的丰富纹理信息。为了解决此问题,我们建议在分布式图像压缩模型的解码器上充分利用多尺度特征域贴片匹配(MSFDPM)。具体而言,MSFDPM由侧面信息特征提取器,多尺度特征域补丁匹配模块和多尺度特征融合网络组成。此外,我们重复使用从浅层层进行斑点相关性,以加速深层的贴片匹配。最后,我们认为,与图像域(Ayzik和Avidan 2020)的贴片匹配方法相比,在多尺度特征域中的匹配进一步提高了压缩率约20%。
translated by 谷歌翻译
对于哈密顿系统,这项工作考虑了由符号演化图产生的位置(Q)和动量(P)变量的学习和预测。与Chen&Tao(2021)相似,符号图由生成函数表示。此外,我们通过将时间序列(q_i,p_i)分为几个分区来开发新的学习方案,然后训练leap-frog神经网络(LFNN)以近似第一个(即初始条件)和一个之间的生成函数其余的分区。为了预测短时间内的系统演变,LFNN可以有效避免累积错误的问题。然后,将LFNN应用于更长的时间段内2:3谐振Kuiper带对象的行为,并且在我们以前的工作中构建的神经网络有两个重大改进(Li等人,2022年):((( 1)雅各比积分的保护; (2)高度准确的轨道演化预测。我们建议LFNN可能有助于预测哈密顿系统的长时间演变。
translated by 谷歌翻译
作为一种概率建模技术,基于流的模型在无损压缩\ cite {idf,idf ++,lbb,ivpf,iflow}的领域表现出了巨大的潜力。与其他深层生成模型(例如自动回应,VAE)\ cite {bitswap,hilloc,pixelcnn ++,pixelsnail},这些模型明确地模拟了数据分布概率,因此基于流的模型的性能更好,因为它们的出色概率密度估计和满意度的概率和满意度的概率。在基于流量的模型中,多尺度体系结构提供了从浅层到输出层的快捷方式,从而大大降低了计算复杂性并避免添加更多层时性能降解。这对于构建基于先进的基于流动的可学习射击映射至关重要。此外,实用压缩任务中模型设计的轻量级要求表明,具有多尺度体系结构的流量在编码复杂性和压缩效率之间取得了最佳的权衡。
translated by 谷歌翻译
比较两个网络的两样本假设检验是一个重要但困难的问题。主要挑战包括:潜在的不同大小和稀疏度;邻接矩阵的未重复观察;计算可伸缩性;和理论研究,尤其是在有限样本的准确性和最小值最佳方面。在本文中,我们通过比较网络矩提出了第一个可证明的高阶准确的两样本推理方法。我们的方法将经典的两样本t检验扩展到网络设置。我们做出薄弱的建模假设,并可以有效地处理不同大小和稀疏度的网络。我们建立了强大的有限样本理论保证,包括速率 - 优先属性。我们的方法易于实现并快速计算。我们还设计了一个新型的离线哈希和快速查询的非参数框架,特别有效地维护和查询了非常大的网络数据库。我们通过全面的模拟证明了我们方法的有效性。我们将方法应用于两个现实世界数据集,并发现有趣的新颖结构。
translated by 谷歌翻译
视觉和听觉信息对于确定视频中的显着区域都是有价值的。深度卷积神经网络(CNN)展示了应对视听显着性预测任务的强大能力。由于各种因素,例如拍摄场景和天气,源训练数据和目标测试数据之间通常存在适度的分布差异。域差异导致CNN模型目标测试数据的性能降解。本文提前尝试解决视听显着性预测的无监督域适应问题。我们提出了一种双重域交流学习算法,以减轻源数据和目标数据之间的域差异。首先,建立了一个特定的域歧视分支,以对齐听觉功能分布。然后,这些听觉功能通过跨模式自我发项模块融合到视觉特征中。设计了其他域歧视分支,以减少视觉特征的域差异和融合视听特征所隐含的视听相关性的差异。公共基准测试的实验表明,我们的方法可以减轻域差异引起的性能降解。
translated by 谷歌翻译