我们解决了视频对象分割的极具挑战性的问题。 Givenonly是初始掩码,任务是在后续帧中分割目标。为了有效地处理外观变化和类似的背景对象,需要强健的目标表示。以前的方法要么依赖于对第一帧上的分段网络进行微调,要么采用生成外观模型。虽然部分成功,但这些方法经常遭受不切实际的低帧速率或不令人满意的鲁棒性。我们提出了一种新颖的方法,基于专门的目标外观模型,该模型专门在线学习以区分目标和背景图像区域。重要的是,我们设计了专门的损失和定制优化技术,以实现高效的在线培训。我们的轻量级目标模型被集成到精心设计的分割网络中,离线培训以增强目标模型生成的预测。对三个数据集进行了大量实验。 Ourapproach在YouTube-VOS上的总体得分超过70,而每秒25帧。
translated by 谷歌翻译
近年来,点集注册的概率方法已经证明了竞争结果。这些技术估计了点云的概率分布模型。尽管这样的表示已经显示出来,但它对3D点密度的变化非常敏感。这种基本问题主要是由跨越点集的传感器位置的变化引起的。我们重新审视了概率注册范式的基础。与以前的工作相反,我们将thescene的基础结构建模为潜在概率分布,从而引起不变性的topoint集密度变化。通过最小化基于期望最大化的框架中的Kullback-Leiblerdivergence来推断场景的概率模型和注册参数。我们的密度自适应注册成功处理了地面激光雷达应用中常见的严重密度变化。我们在几个具有挑战性的真实世界激光雷达数据集上进行了广泛的实验。结果表明,我们的方法优于用于多视图注册的最先进的概率方法,而无需重新采样。代码可从以下网址获得://github.com/felja633/DARE。
translated by 谷歌翻译
与以前的工作不同,这种开放式数据采集包括专为机器学习应用和高锥角人工制品减少而设计的X射线锥束(CB)计算机断层扫描(CT)数据集。用实验室X射线设置扫描42个核桃,不仅提供来自单个物体的数据,而且提供具有自然变化的一类物体的数据。对于每个核桃,获得了三个不同源轨道上的CB投影,提供了具有不同锥角的CB数据,并且能够从可以用于监督学习的组合数据中计算无物质,高质量的地面实况图像。我们提供完整的图像重建管道:原始投影数据,扫描几何描述,使用开放软件的预处理和重建脚本,以及构建的体积。因此,数据集不仅可以用于高角度伪影减少,还可以用于其他任务的算法开发和评估,例如从有限或稀疏角度(低剂量)扫描,超分辨率或分割的图像重建。
translated by 谷歌翻译
我们探索人工神经网络作为从虚构时间格林函数重建光谱函数的工具,这是一个经典条件反问题。我们的ansatz基于有监督的学习框架,其中先验知识在训练数据中被编码,并且逆变换流形通过神经网络被明确地参数化。我们系统地研究了这种新的重建方法,提供了对其在物理动机模拟数据上的表现的详细分析,并将其与已建立的贝叶斯推理方法进行了比较。发现构造精度至少是可比较的,并且特别是在较大的噪声水平下可能是优越的。我们认为,在监督环境中使用标记的训练数据和确定优化目标的自由度是本方法的固有优势,并且可能导致对未来最先进方法的重大改进。进一步研究的潜在方向是详细讨论。
translated by 谷歌翻译
内窥镜伪影是促进中空器官疾病的诊断和治疗的核心挑战。精确检测特定伪像,如像素饱和度,运动模糊,镜面反射,气泡和碎片,对于高质量的帧恢复至关重要,对于实现可靠的计算机辅助工具以改善患者护理至关重要。目前,由于视频帧中存在大量的多类伪像,目前大多数内窥镜检查视频尚未进行分析。通过内窥镜伪影检测(EAD 2019)的挑战,我们通过解决内窥镜框架伪影的准确识别和定位来解决这一关键瓶颈问题,从而能够对不可用的视频帧进行进一步的关键定量分析,例如镶嵌和3D重建,这对于提供改善的患者护理至关重要。本文总结了挑战任务,并描述了在EAD 2019挑战中建立的数据集和评估标准。
translated by 谷歌翻译
我们提出了一种深度强化学习方法来优化静态编译器中计算图的执行成本。关键思想是将神经网络策略与遗传算法 - 偏差随机密钥遗传算法(BRKGA)相结合。在给定要优化的输入图的情况下,策略被训练以预测BRKGA中的采样突变和交叉的节点级概率分布。我们的方法“基于REINFORCE的遗传算法学习”(REGAL)使用该策略转移到新图表的能力,以显着提高遗传算法的解决方案质量,以获得相同的客观评估预算。作为一个具体的应用,我们通过联合优化设备布局和调度来显示TensorFlow图中最小化峰值记忆的结果。在以前看不见的图表上,REGAL的峰值内存平均比BRKGA低3.56%,优于我们比较的所有算法,并且比下一个最佳算法的改进大4.4倍。我们还对生产编译器团队的XLA图表性能基准进行了评估,并且比BRKGA平均降低了3.74%的峰值内存,再次超越了所有人。我们的方法和分析是通过收集372个独特的真实世界TensorFlow图表的数据集来实现的,这比以前的工作多了一个数量级。
translated by 谷歌翻译
我们研究深度神经网络的表达性。通过其连接数或神经元数量来测量网络的复杂性,我们考虑了在增加复杂性预算时,给定复杂度的网络的最佳近似误差以一定速率衰减的函数类。使用经典逼近理论的结果,我们证明了这个类可以赋予(准)范数,使其成为线性函数空间,称为近似空间。我们建立允许网络具有某些类型的“跳过连接”不会改变所得到的近似空间。我们还讨论了网络非线性(也称为激活函数)在结果空间中的作用,以及深度的作用。对于流行的ReLU非线性及其功率,将新构造的空间与经典的Besov空间相提并论。如果这些网络足够深,那么建立的嵌入突出了一些非常低的Besov平滑度的函数可以通过神经网络很好地近似。
translated by 谷歌翻译
在过去的一年中,用于预训练和转学习的新模型和方法在各种语言理解任务中带来了显着的性能提升。一年前推出的GLUE基准提供了一个单数量度量标准,总结了各种此类任务的进展情况,但最近基准测试的表现接近非专家人员的水平,表明进一步研究的空间有限。本文回顾了从GLUE基准测试中汲取的经验教训,并介绍了SuperGLUE,这是一款以GLUE为基础的新标记,具有一系列更加困难的语言理解任务,改进的资源以及新的公共排行榜.SuperGLUE将很快在super.gluebenchmark.com上发布。
translated by 谷歌翻译
As low-cost surveillance cameras proliferate, we advocate for these cameras to be zero streaming: ingesting videos directly to their local storage and only communicating with the cloud in response to queries. To support queries over videos stored on zero-streaming cameras, we describe a system that spans the cloud and cameras. The system builds on two unconventional ideas. When ingesting video frames, a camera learns accurate knowledge on a sparse sample of frames, rather than learning inaccurate knowledge on all frames; in executing one query, a camera processes frames in multiple passes with multiple operators trained and picked by the cloud during the query, rather than one-pass processing with operator(s) decided ahead of the query. On diverse queries over 720-hour videos and with typical wireless network bandwidth and low-cost camera hardware, our system runs at more than 100× video realtime. It outperforms competitive alternative designs by at least 4× and up to two orders of magnitude.
translated by 谷歌翻译
我们提出了BERTScore,一种用于文本生成的自动评估指标。对于常见指标,\ method计算候选句中每个标记与参考中每个标记的相似性得分。然而,我们使用上下文化的BERTembeddings来计算相似度,而不是查看完全匹配。我们对几种机器翻译和图像字幕标记进行了评估,并表明BERTScore与人类判断相关的指标更好地相关,通常甚至明显优于任务特定的监督指标。
translated by 谷歌翻译