在Enocentric视频中,行动在快速连续中发生。我们利用了行动的时间背景,并提出了一种学习参加周围行动的方法,以提高识别性能。为了纳入时间上下文,我们提出了一种基于变换器的多模式模型,可将视频和音频作为输入模式摄取,具有显式语言模型,提供动作序列上下文来增强预测。我们在史诗厨房和EGTEA数据集上测试我们的方法,报告最先进的性能。我们的消融展示了利用时间上下文的优势以及将音频输入模态和语言模型结合到Rescore预测。代码和模型在:https://github.com/ekazakos/mtcn。
translated by 谷歌翻译
诸如人工智能(AI)之类的快速发展领域经常超过维基百科等百科全书来源的努力,这些来源如不完全介绍最近引入的主题或完全缺乏这种内容。因此,自动产生内容的方法是解决此信息过载的有价值的工具。我们表明,最近的预训练语言建模的进展可以组合为维基百科铅段生成的两级提取和抽象方法。我们扩展了这种方法,以产生更长的维基百科风格的摘要,并通过详细研究100参考人体收集的调查,研究这种方法在本申请中争取如何奋斗。这是利用Web资源利用WEAL Wikipedia风格摘要的第一次研究。
translated by 谷歌翻译
与单轴平面成像的2-D超声(US)相比,3-D US成像系统可以沿三个轴平面可视化容积。这允许完整的解剖学观察,这对于妇科(GYN)和产科(OB)应用是有用的。不幸的是,与2-D US相比,3-D US在分辨率中具有固有的限制。例如,在3-D US与3-D机械探针的情况下,例如,图像质量沿着光束方向可比较,但在其他两个轴向图像平面中通常观察到图像质量的显着劣化。为了解决这个问题,我们提出了一种新颖的无监督的深度学习方法来提高3-D US图像质量。特别是,使用{\ EM无与伦比的}高质量的2-D US图像作为参考,我们培训了最近提出的可切换Cyclean架构,以便在3-D中的每个映射平面都可以学习2-D US图像的图像质量。由于可切换架构,我们的网络还可以根据用户偏好提供对图像增强级别的实时控制,这是以用户为中心的扫描仪设置的理想选择。具有临床评估的广泛实验证实,我们的方法提供了显着提高的图像质量,也能成为用户友好的灵活性。
translated by 谷歌翻译
许多移动制造商最近在其旗舰模型中采用了双像素(DP)传感器,以便更快的自动对焦和美学图像捕获。尽管他们的优势,由于DT在DP图像中的视差缺失的数据集和算法设计,但对3D面部理解的使用研究受到限制。这是因为子孔图像的基线非常窄,并且散焦模糊区域存在视差。在本文中,我们介绍了一种以DP为导向的深度/普通网络,该网络重建3D面部几何。为此目的,我们使用我们的多摄像头结构光系统捕获的101人拥有超过135k张图片的DP面部数据。它包含相应的地面真值3D模型,包括度量刻度的深度图和正常。我们的数据集允许建议的匹配网络广泛化,以便以3D面部深度/正常估计。所提出的网络由两种新颖的模块组成:自适应采样模块和自适应正常模块,专门用于处理DP图像中的散焦模糊。最后,该方法实现了最近基于DP的深度/正常估计方法的最先进的性能。我们还展示了估计深度/正常的适用性面对欺骗和致密。
translated by 谷歌翻译
学习估计对象姿势通常需要地面真理(GT)标签,例如CAD模型和绝对级对象姿势,这在现实世界中获得昂贵且费力。为了解决这个问题,我们为类别级对象姿势估计提出了一个无监督的域适应(UDA),称为\ textbf {uda-cope}。受到最近的多模态UDA技术的启发,所提出的方法利用教师学生自我监督的学习方案来训练姿势估计网络而不使用目标域标签。我们还在预测归一化对象坐标空间(NOCS)地图和观察点云之间引入了双向滤波方法,不仅使我们的教师网络更加强大地对目标域,而且为学生网络培训提供更可靠的伪标签。广泛的实验结果表明了我们所提出的方法的有效性,可以定量和定性。值得注意的是,在不利用目标域GT标签的情况下,我们所提出的方法可以实现与依赖于GT标签的现有方法相当或有时优越的性能。
translated by 谷歌翻译
从3D扫描获得的点云通常稀疏,嘈杂,不规则。为应对这些问题,最近的研究已经单独进行,以致密化,去噪和完全不准确的点云。在本文中,我们倡导联合解决这些任务导致点云重建的显着改进。为此,我们提出了一个由两个阶段组成的深点云重建网络:1)3D稀疏的堆积空间,如初始致密化和去噪,2)通过变压器将离散体素转换为3D点的改进。特别是,我们通过一种名为放大位置编码的新提出的模块进一步提高了变压器的性能。该模块旨在基于用于自适应改进的点距离来不同地放大位置编码矢量的大小。广泛的实验表明,我们的网络在Scannet,ICL-Nuim和Shapenetpart数据集最近的研究中实现了最先进的性能。此外,我们强调了我们网络拓展到现实世界和未满足的场景的能力。
translated by 谷歌翻译
MLP-MIXER新出现为反对CNNS和变压器领域的新挑战者。尽管与变压器相比,尽管其相比,频道混合MLP和令牌混合MLP的概念可以在视觉识别任务中实现明显的性能。与图像不同,点云本身稀疏,无序和不规则,这限制了MLP-MILER用于点云理解的直接使用。在本文中,我们提出了一种通用点集运算符,其促进非结构化3D点之间的信息共享。通过简单地用SoftMax函数替换令牌混合的MLP,PointMixer可以在点集之间“混合”功能。通过这样做,可以在网络中广泛地使用PointMixer作为设定间混合,内部混合和金字塔混合。广泛的实验表明了对基于变压器的方法的语义分割,分类和点重建中的引光器竞争或卓越的性能。
translated by 谷歌翻译
本文介绍了一个混合运动规划策略,将深度生成网络与传统运动规划方法相结合。现有的规划方法如* *和混合动力A *被广泛用于路径规划任务,因为它们即使在复杂的环境中确定可行的路径也是如此;但是,它们对效率有局限性。为了克服这些限制,介绍了一种基于神经网络的路径规划算法,即神经混合A *。本文使用条件变形Autiachoder(CVAE)提出通过利用CVAE在给定停车环境的信息的情况下学习有关规划空间信息的能力来指导搜索算法。基于在示威中学到的可行轨迹的分布,利用了非均匀的扩展策略。该方法有效地学习给定状态的表示,并显示了算法性能方面的改进。
translated by 谷歌翻译
由于机器学习(ML)技术和应用正在迅速改变许多计算领域,以及与ML相关的安全问题也在出现。在系统安全领域中,已经进行了许多努力,以确保ML模型和数据机密性。ML计算通常不可避免地在不受信任的环境中执行,并因此需要复杂的多方安全要求。因此,研究人员利用可信任的执行环境(TEES)来构建机密ML计算系统。本文通过在不受信任的环境中分类攻击向量和缓解攻击载体和缓解来进行系统和全面的调查,分析多方ML安全要求,并讨论相关工程挑战。
translated by 谷歌翻译