去噪扩散概率模型最近获得了很多研究的关注,因为它们优于GAN,以及目前提供最先进的生成性能。扩散模型的卓越性能使它们在若干应用中为它们提供了吸引人的工具,包括尿素,超分辨率和语义编辑。在本文中,我们证明扩散模型也可以用作语义分割的仪器,特别是当标记数据稀缺时的设置中。特别地,对于几种预训练的扩散模型,我们研究了从执行反向扩散过程的马尔可夫步骤的网络的中间激活。我们表明这些激活有效地捕获了来自输入图像的语义信息,并且看起来是分割问题的优异像素级表示。基于这些观察,我们描述了一种简单的分段方法,即使仅提供了几种训练图像也可以工作。我们的方法显着优于若干数据集的现有替代品,以获得相同数量的人类监督。
translated by 谷歌翻译
关于表格数据深度学习的现有文献提出了广泛的新颖架构,并在各种数据集中报告竞争结果。然而,所提出的模型通常不适合彼此相比,并且现有的作品通常使用不同的基准和实验协议。因此,对于研究人员和从业者来说,目前尚不清楚模特表现最佳。此外,该领域仍然缺乏有效的基线,即易于使用的模型,可以在不同问题上提供竞争性能。在这项工作中,我们通过识别两个简单而强大的深层架构,执行表格数据的DL架构的主要系列的概述。第一个是类似Reset的架构,结果是一个强大的基线,在前的作品中经常丢失。第二种模型是我们简单地适应变压器体系结构的表格数据,这比大多数任务更优于其他解决方案。在相同的培训和调整协议下,这两种模型都与许多现有架构上的许多现有架构进行了比较。我们还将最佳DL模型与渐变提升决策树进行比较,并得出结论仍然没有普遍卓越的解决方案。
translated by 谷歌翻译
多年来,运动规划,映射和人类轨迹预测的单独领域显着提出。然而,在提供能够使移动操纵器能够执行全身运动并考虑移动障碍物的预测运动时,文献在提供实际框架方面仍然稀疏。基于以前的优化的运动计划方法,使用距离字段遭受更新环境表示所需的高计算成本。我们证明,与从头划痕计算距离场相比,GPU加速预测的复合距离场显着降低计算时间。我们将该技术与完整的运动规划和感知框架集成,其占据动态环境中的人类的预测运动,从而实现了包含预测动作的反应性和先发制人的运动规划。为实现这一目标,我们提出并实施了一种新颖的人类轨迹预测方法,该方法结合了基于轨迹优化的运动规划的意图识别。我们在现实世界丰田人类支持机器人(HSR)上验证了我们的由Onboard Camera的现场RGB-D传感器数据验证了我们的结果框架。除了在公开的数据集提供分析外,我们还释放了牛津室内人类运动(牛津-IHM)数据集,并在人类轨迹预测中展示了最先进的性能。牛津-IHM数据集是一个人类轨迹预测数据集,人们在室内环境中的兴趣区域之间行走。静态和机器人安装的RGB-D相机都观察了用运动捕获系统跟踪的人员。
translated by 谷歌翻译
在实践中,非常苛刻,有时无法收集足够大的标记数据数据集以成功培训机器学习模型,并且对此问题的一个可能解决方案是转移学习。本研究旨在评估如何可转让的时间序列数据和哪些条件下的不同域之间的特征。在训练期间,在模型的预测性能和收敛速度方面观察到转移学习的影响。在我们的实验中,我们使用1,500和9,000个数据实例的减少数据集来模仿现实世界的条件。使用相同的缩小数据集,我们培训了两组机器学习模型:那些随着转移学习的培训和从头开始培训的机器学习模型。使用四台机器学习模型进行实验。在相同的应用领域(地震学)以及相互不同的应用领域(地震,语音,医学,金融)之间进行知识转移。我们在训练期间遵守模型的预测性能和收敛速度。为了确认所获得的结果的有效性,我们重复了实验七次并应用了统计测试以确认结果的重要性。我们研究的一般性结论是转移学习可能会增加或不会对模型的预测性能或其收敛速度产生负面影响。在更多细节中分析收集的数据,以确定哪些源域和目标域兼容以用于传输知识。我们还分析了目标数据集大小的效果和模型的选择及其超参数对转移学习的影响。
translated by 谷歌翻译
端到端(E2E)自动语音识别模型如经常性神经网络传感器(RNN-T)正成为流媒体级语音助手的流行选择。虽然E2E模型在学习培训数据的学习代表时非常有效,但他们对看不见的域的准确性仍然是一个具有挑战性的问题。此外,这些模型需要配对的音频和文本培训数据,计算得昂贵,并且难以适应对话语音的快速不断发展的性质。在这项工作中,我们探讨了使用利用文本数据源的似然比来调整RNN-T模型的上下文偏置方法。我们表明这种方法在提高稀有单词识别方面是有效的,并导致在多个OUT的N-BEST ORACLE WER(n = 8)中为10%的相对提高10%,在多个外部域数据集没有常规数据集没有任何劣化。我们还表明,通过适应第二遍辅助模型的互补偏置适应性提供了加性WER改进。
translated by 谷歌翻译
我们提出了一个数据集,该数据集包含具有唯一对象标识(IDS)的对象注释,用于高效视频编码(HEVC)V1常见测试条件(CTC)序列。准备了13个序列的地面实际注释并作为称为SFU-HW-Tracks-V1的数据集发布。对于每个视频帧,地面真相注释包括对象类ID,对象ID和边界框位置及其维度。数据集可用于评估未压缩视频序列上的对象跟踪性能,并研究视频压缩与对象跟踪之间的关系。
translated by 谷歌翻译
视频显示连续事件,但大多数 - 如果不是全部 - 视频综合框架及时酌情对待它们。在这项工作中,我们想到它们应该是连续的信号的视频,并扩展神经表示的范式以构建连续时间视频发生器。为此,我们首先通过位置嵌入的镜头设计连续运动表示。然后,我们探讨了在非常稀疏的视频上培训问题,并证明可以使用每剪辑的少数为2帧来学习良好的发电机。之后,我们重新思考传统的图像和视频鉴别器对并建议使用基于Hypernetwork的一个。这降低了培训成本并向发电机提供了更丰富的学习信号,使得可以首次直接培训1024美元$ ^ 2 $视频。我们在Stylegan2的顶部构建我们的模型,并且在同样的分辨率下培训速度速度较高5%,同时实现几乎相同的图像质量。此外,我们的潜在空间具有类似的属性,使我们的方法可以及时传播的空间操纵。我们可以在任意高帧速率下任意长的视频,而现有工作努力以固定速率生成均匀的64个帧。我们的模型在四个现代256美元$ ^ 2 $视频综合基准测试中实现最先进的结果,一个1024美元$ ^ 2 $ state。视频和源代码在项目网站上提供:https://universome.github.io/stylegan-v。
translated by 谷歌翻译
变压器负责自然语言处理的绝大多数近期进步。这些模型的大多数实际的自然语言处理应用程序通常通过转移学习启用。本文研究了用于微调用于微调的特异性标记提高了模型的结果。通过一系列实验,我们证明这种令牌化与词汇令牌的初始化和微调策略相结合,加速了转移并提高了微调模型的性能。我们称之为转让促进词汇转移的这个方面。
translated by 谷歌翻译
本文讨论了一种识别蜂窝块片段轮廓的算法。显示了OpenCV库的现成功能的不适用性。考虑了两个提出的算法。直接扫描算法在二值化图像中找到极端的白色像素,它充分适用于产品的凸形形状,但在凹形区域和产品的空腔中找不到轮廓。为了解决这个问题,提出了一种使用滑动矩阵的扫描算法,其在任何形状的产品上正常工作。
translated by 谷歌翻译
来自多个磁共振成像(MRI)方式的脑肿瘤分割是医学图像计算中的具有挑战性的任务。主要挑战在于各种扫描仪和成像协议的普遍性。在本文中,我们探讨了在不增加推理时间的情况下增加模型稳健性的策略。为此目的,我们探索使用不同损失,优化仪和培训验证数据拆分培训的型号的强大合奏。重要的是,我们探讨了U-Net架构的瓶颈中的变压器。虽然我们在瓶颈中发现变压器比平均基线U-Net更差,但是广义的Wasserstein骰子损失一致地产生优异的结果。此外,我们采用了高效的测试时间增强策略,以实现更快和强大的推论。我们的最终集合具有测试时间增强的七个3D U-Nets的平均骰子得分为89.4%,平均HAUSDORFF 95%距离10.0 mm在Brats 2021测试数据集时。我们的代码和培训的型号在https://github.com/lucasfidon/trabit_brats2021上公开提供。
translated by 谷歌翻译