计算机愿景中的经典问题是推断从几个可用于以交互式速率渲染新颖视图的图像的3D场景表示。以前的工作侧重于重建预定定义的3D表示,例如,纹理网格或隐式表示,例如隐式表示。辐射字段,并且通常需要输入图像,具有精确的相机姿势和每个新颖场景的长处理时间。在这项工作中,我们提出了场景表示变换器(SRT),一种方法,该方法处理新的区域的构成或未铺设的RGB图像,Infers Infers“设置 - 潜在场景表示”,并合成新颖的视图,全部在一个前馈中经过。为了计算场景表示,我们提出了视觉变压器的概括到图像组,实现全局信息集成,从而实现3D推理。一个有效的解码器变压器通过参加场景表示来参加光场以呈现新颖的视图。通过最大限度地减少新型视图重建错误,学习是通过最终到底的。我们表明,此方法在PSNR和Synthetic DataSets上的速度方面优于最近的基线,包括为纸张创建的新数据集。此外,我们展示了使用街景图像支持现实世界户外环境的交互式可视化和语义分割。
translated by 谷歌翻译
我们可以训练一个能够处理多个模态和数据集的单个变压器模型,同时分享几乎所有的学习参数?我们呈现Polyvit,一种培训的模型,在图像,音频和视频上接受了讲述这个问题。通过在单一的方式上培训不同的任务,我们能够提高每个任务的准确性,并在5个标准视频和音频分类数据集中实现最先进的结果。多种模式和任务上的共同训练Polyvit会导致一个更具参数效率的模型,并学习遍历多个域的表示。此外,我们展示了实施的共同培训和实用,因为我们不需要调整数据集的每个组合的超级参数,但可以简单地调整来自标准的单一任务培训。
translated by 谷歌翻译
我们提出了一种可扩展的后处理算法,用于衰减培训的型号,包括深度神经网络(DNN),我们证明是通过限制其多余的贝叶斯风险而近乎最佳。我们在经典算法以及现代DNN架构上凭经验验证其对标准基准数据集的优势,并证明它在以前处理的同时表现出先前的后处理方法。此外,我们表明,该算法对于在刻度培训的模型是特别有效的,其中后处理是自然和实际的选择。
translated by 谷歌翻译
本文提出了第二版的头部和颈部肿瘤(Hecktor)挑战的概述,作为第24届医学图像计算和计算机辅助干预(Miccai)2021的卫星活动。挑战由三个任务组成与患有头颈癌(H&N)的患者的PET / CT图像的自动分析有关,专注于oropharynx地区。任务1是FDG-PET / CT图像中H&N主肿瘤肿瘤体积(GTVT)的自动分割。任务2是来自同一FDG-PET / CT的进展自由生存(PFS)的自动预测。最后,任务3与任务2的任务2与参与者提供的地面真理GTVT注释相同。这些数据从六个中心收集,总共325个图像,分为224个培训和101个测试用例。通过103个注册团队和448个结果提交的重要参与,突出了对挑战的兴趣。在第一任务中获得0.7591的骰子相似度系数(DSC),分别在任务2和3中的0.7196和0.6978的一致性指数(C-Index)。在所有任务中,发现这种方法的简单性是确保泛化性能的关键。 PFS预测性能在任务2和3中的比较表明,提供GTVT轮廓对于实现最佳结果,这表明可以使用完全自动方法。这可能避免了对GTVT轮廓的需求,用于可重复和大规模的辐射瘤研究的开头途径,包括千元潜在的受试者。
translated by 谷歌翻译
信息理论措施已广泛采用学习和决策问题的特征。受到这一点的启发,我们介绍了Shannon Sense的信息损失的弱形式,ii)在考虑一系列有损的连续表示(特征)时,错误(MPE)意义上的最小概率的操作损失连续观察。我们展示了几个结果揭示了这种相互作用的结果。我们的第一个结果在采用离散的损耗表示(量化)而不是原始原始观察时,在其各自的操作损失的函数中提供弱的信息损失形式的下限。从这后,我们的主要结果表明,在考虑一般的持续陈述时,特定形式的消失信息丧失(渐近信息充足的弱势概念)意味着消失的MPE损失(或渐近运营充足机会)。我们的理论调查结果支持观察到选择要捕捉信息充足性的特征表示是适当的学习,但如果预期目标在分类中实现MPE,这种选择是一种相当保守的设计原则。支持这一表明,在某些结构条件下,我们表明,可以采取信息充足的替代概念(严格弱于互信息意义上的纯粹足够的充足),以实现运动充足。
translated by 谷歌翻译
具有最小延迟的人工神经网络的决策对于诸如导航,跟踪和实时机器动作系统之类的许多应用来说是至关重要的。这要求机器学习硬件以高吞吐量处理多维数据。不幸的是,处理卷积操作是数据分类任务的主要计算工具,遵循有挑战性的运行时间复杂性缩放法。然而,在傅立叶光学显示器 - 光处理器中同心地实现卷积定理,使得不迭代的O(1)运行时复杂度以超过1,000×1,000大矩阵的数据输入。在此方法之后,这里我们展示了具有傅里叶卷积神经网络(FCNN)加速器的数据流多核图像批处理。我们将大规模矩阵的图像批量处理显示为傅立叶域中的数字光处理模块执行的被动的2000万点产品乘法。另外,我们通过利用多种时空衍射令并进一步并行化该光学FCNN系统,从而实现了最先进的FCNN加速器的98倍的产量改进。综合讨论与系统能力边缘工作相关的实际挑战突出了傅立叶域和决议缩放法律的串扰问题。通过利用展示技术中的大规模平行性加速卷积带来了基于VAN Neuman的机器学习加速度。
translated by 谷歌翻译
评估能源转型和能源市场自由化对资源充足性的影响是一种越来越重要和苛刻的任务。能量系统的上升复杂性需要足够的能量系统建模方法,从而提高计算要求。此外,随着复杂性,同样调用概率评估和场景分析同样增加不确定性。为了充分和高效地解决这些各种要求,需要来自数据科学领域的新方法来加速当前方法。通过我们的系统文献综述,我们希望缩小三个学科之间的差距(1)电力供应安全性评估,(2)人工智能和(3)实验设计。为此,我们对所选应用领域进行大规模的定量审查,并制作彼此不同学科的合成。在其他发现之外,我们使用基于AI的方法和应用程序的AI方法和应用来确定电力供应模型的复杂安全性的元素,并作为未充分涵盖的应用领域的储存调度和(非)可用性。我们结束了推出了一种新的方法管道,以便在评估电力供应安全评估时充分有效地解决当前和即将到来的挑战。
translated by 谷歌翻译
门控相机作为扫描LIDAR传感器的替代方案,具有高分辨率的3D深度,在雾,雪和雨中稳健。不是通过光子飞行时间顺序地扫描场景并直接记录深度,如在脉冲激光雷达传感器中,所设定的成像器编码在百万像素分辨率的少量门控切片中的相对强度的深度。尽管现有方法表明,可以从这些测量中解码高分辨率深度,但这些方法需要同步和校准的LIDAR来监督门控深度解码器 - 禁止在地理位置上快速采用,在大型未配对数据集上培训,以及探索替代应用程序外面的汽车用例。在这项工作中,我们填补了这个差距并提出了一种完全自我监督的深度估计方法,它使用门控强度配置文件和时间一致性作为训练信号。所提出的模型从门控视频序列培训结束到结束,不需要LIDAR或RGB数据,并学会估计绝对深度值。我们将门控切片作为输入和解散估计场景,深度和环境光,然后用于学习通过循环损耗来重建输入切片。我们依赖于给定帧和相邻门控切片之间的时间一致性,以在具有阴影和反射的区域中估计深度。我们通过实验验证,所提出的方法优于基于单眼RGB和立体图像的现有监督和自我监督的深度估计方法,以及基于门控图像的监督方法。
translated by 谷歌翻译
误导现在是由于其核心民主和社会价值观和订单的潜在高风险导致的主要问题。外观的错误信息是对病毒假故事进行的对手使用的最简单有效的方法之一。在这种威胁中,通过歪曲其上下文和/或元素来重新设计真实的图像以支持其他叙述。互联网被用作使用不同来源和模态的信息来验证信息。我们的目标是一种可防止的方法,通过使用Web证据来检查图像标题配对来自动实现这一耗时和推理的密集流程。要从两种方式集成证据和提示,我们介绍了“多模态周期 - 一致性检查”的概念;从图像/标题开始,我们收集文本/视觉证据,将分别与其他配对的字幕/图像进行比较。此外,我们提出了一种新颖的架构,一致性检查网络(CCN),其模拟了相同和不同的方式的分层人工理学:标题与文本证据,图像与视觉证据和图像与标题。我们的工作为开放式,基于内容,多模态事实检查提供的第一步和基准,并且显着优于未杠杆效率的基准。
translated by 谷歌翻译
确定数据集中的有意义和独立因素是一个充满挑战的学习任务,经常通过深度潜变量模型解决。可以将此任务视为保留所选属性的值的学习对称转换沿潜在维度。然而,现有方法在实施潜在空间中的不变性属性方面表现出严重的缺点。我们以一种新的方法来解决这些缺点来循环一致性。我们的方法涉及目标属性的两个单独的潜在子页和剩余的输入信息。为了强制执行潜伏空间中的不变性以及稀疏性,我们通过使用依赖属性侧信息的周期一致性约束来融合语义知识。该方法基于深度信息瓶颈,与其他方法相比,允许使用连续目标属性并提供固有的模型选择能力。我们展示了我们的方法识别出更有意义的因素的综合和分子数据,这导致稀疏和更具可解释的模型,具有改善的不变性属性。
translated by 谷歌翻译