生物医学图像分割是许多医学应用中的重要任务。基于卷积神经网络的分割方法具有最先进的精度;但是,它们通常依赖于使用大型标记数据集的监督训练。医学图像的标记数据集需要大量的专业知识和时间,并且在大规模上是不可行的。研究人员使用诸如手工设计的预处理步骤,手工调整的架构和数据增强等技术来解决缺乏标记数据的问题。然而,这些技术涉及昂贵的工程工作,并且通常是数据集特定的。我们提出了一种医学图像的自动数据增强方法。我们针对分割磁共振成像(MRI)脑部扫描的任务展示了我们的方法,重点关注一次性分割场景 - 许多医学应用中的实际挑战。我们的方法只需要单独的分段扫描,并在半监督的方法中利用其他未标记的扫描。我们从图像中学习变换模型,并使用带有标记示例的模式来合成用于监督分割的附加标记的训练样本。每个变换由空间变形场和强度变化组成,能够合成复杂效应,例如解剖学和图像采集过程的变化。使用这些新实例对监督分段器的训练提供了相对于最先进方法的显着改进。用于一次性生物医学图像分割。我们的代码可以通过以下网址获得://github.com/xamyzhao/brainstorm。
translated by 谷歌翻译
我们提出了VoxelMorph,一种快速,无监督,基于学习的可变形成对医学图像配准算法。传统的注册方法针对每对图像独立地优化目标函数,这对于大型数据集而言是耗时的。我们将注册定义为参数函数,实现为卷积神经网络(CNN)。在给定一组感兴趣的图像的情况下,对其全局参数进行优化。给定一对新的扫描,VoxelMorph通过直接评估函数来快速计算变形场。我们的模型非常灵活,可以使用任何可微分的目标函数来优化这些参数。在这项工作中,我们提出并广泛评估标准图像匹配目标函数以及可以使用辅助数据的目标函数,例如仅在训练时可用的解剖学分割。我们证明无监督模型的准确性与现有技术相当,而操作数量级更快。我们还发现,使用辅助数据训练的VoxelMorph可显着提高测试时的注册准确性。我们的方法有望显着加速医学图像分析和处理管道,同时促进基于学习的注册及其应用的新方向。我们的代码可以在voxelmorph.csail.mit.edu上免费获得。
translated by 谷歌翻译
最近,综合学习的进展提出了合成图像的训练模型,可以有效地降低人力和物质资源的成本。然而,由于与真实图像相比合成图像的不同分布,所期望的性能仍然不能实现。真实图像由多种形式的光取向组成,而合成图像由均匀的光取向组成。这些特征分别被认为是室外和室内场景的特征。解决这个问题,前一种方法学会了一种模型来改善合成图像的真实感。与以往的方法不同,本文采用净化真实图像的第一步。通过风格转移任务,将室外真实图像的分布转换为室内合成图像,从而减少光的影响。因此,本文提出了一种区域时间风格转移网络,其保留了输入图像(真实图像)的图像内容信息(例如,注视方向,瞳孔中心位置),同时推断了风格图像的风格信息(例如,图像颜色结构,语义特征)。合成图像)。此外,网络加速了模型的收敛速度,并适应多尺度图像。使用混合研究(定性和定量)方法进行实验,以证明在复杂方向上纯化真实图像的可能性。定性地,将所提出的方法与LPW数据集的一系列室内和室外场景中的可用方法进行比较。在定量计中,它通过在交叉数据集上训练凝视估计模型来评估纯化图像。结果显示,与原始实际图像相比,基线方法有显着改进。
translated by 谷歌翻译
关系提取的远程监督严重受到错误标记问题的困扰。为了在时间戳的新闻数据中缓解这个问题,考虑新的因素时间,并提出一个新的时间感知的监督框架(Time-DS)。 Time-DS由时间序列实例 - 流行度和两种策略组成。实例流行度是对时间和真实关系提及的强相关性进行编码。因此,实例流行度将是减少通过远程监督标签产生的噪声的有效线索。这两种策略,即硬过滤和课程学习,都是以Time-DS的方式实现更好的相关提取的实例流行度的方法。课程学习是利用实例流行度消除噪声影响的一种更复杂,更灵活的方式,从而获得更好的关系提取性能。我们收集的多源新闻语料库的实验表明,Time-DSachie关系提取有了显着的改进。
translated by 谷歌翻译
最近,利用端到端卷积神经网络的发展,深度立体匹配网络在传统方法中取得了显着的性能。然而,最先进的立体方法仍然难以在无纹理区域,详细结构,小物体和近边界中找到正确的对应关系,这可以通过诸如边缘轮廓和相应约束的几何线索来减轻。为了提高这些挑战性区域中的视差估计质量,我们提出了一种有效的多任务学习网络EdgeStereo,它由视差估计子网和边缘检测子网组成,可以实现视差图和边缘图的端到端预测。 。为了有效地结合边缘线索,我们提出边缘感知平滑度损失和边缘特征嵌入用于任务间交互。结果表明,基于统一模型,边缘检测任务和立体匹配任务可以相互促进。此外,我们设计了一个名为residualpyramid的紧凑模块,以取代目前常用的立体匹配网络中常用的多级级联结构或基于3-D卷积的正则化模块。在论文提交时,EdgeStereo实现了这一状态。 FlyingThings3D数据集,KITTI 2012和KITTI 2015立体声标记的artperformance,优于其他已发布的立体声匹配方法,具有良好的优势。由于边缘线索的结合,EdgeStereo还具有更好的视差估计泛化能力。
translated by 谷歌翻译
随着电子商务平台提供的服务种类越来越多,评估其成功的标准也越来越多目标化。这项工作引入了一个多目标优化框架,其中包含目标事件的贝叶斯模型,称为深贝叶斯多目标学习(DBMTL) )。在此框架中,目标事件被建模为形成贝叶斯网络,其中有向链接由隐藏层参数化,并从训练样本中获取。贝叶斯网络的结构由模型选择决定。我们将该框架应用于淘宝直播推荐,同时优化(并取得平衡)目标,包括点击率,用户在现场的停留时间,购买行为和互动。与其他MTL框架和非MTL模型相比,所提出的方法已经观察到显着改善。我们的实践表明,通过综合因果关系结构,我们可以有效地使目标的学习从其他目标中获益,从而产生显着的协同效应,从而改善所有目标。由DBMTL引导的神经网络结构与连接特征和多个目标的一般概率模型相吻合,采用比本文讨论的其他方法更弱的假设。这种理论上的一般性带来了对varioustargets分布的实用泛化能力,包括稀疏目标和连续值目标。
translated by 谷歌翻译
在存在自动驾驶车辆和人力驾驶车辆的混合交通场景中,及时预测附近人员驾驶车辆的驾驶意图对于安全且有效地驾驶自主车辆是必不可少的。本文提出了一种基于隐马尔可夫模型(HMM)的自动驾驶汽车驾驶意图预测方法。代表不同驾驶意图的HMM使用来自天桥的现场收集数据进行训练和测试。在训练模型时,应用车辆移动特征的离散或连续表征。实验结果表明,用移动特征的连续特征训练的HMM可以在用于预测驾驶意图时提供更高的预测精度。此外,当考虑车辆的周围交通时,所提出的预测方法的性能得到进一步改善。
translated by 谷歌翻译
本文提出了一种高效的神经网络模型,用于生成具有高分辨率图像的机器人格栅。所提出的模型使用完全卷积神经网络,使用400 $ \ $ 400高分辨率RGB-D图像为每个像素生成机器人抓取。它首先对图像进行下采样以获取要素,然后将这些要素上采样到输入的原始大小,并组合来自不同要素图的局部和全局要素。与用于检测机器人抓取的其他回归或分类方法相比,我们的方法看起来更像是通过逐像素方式解决问题的分割方法。我们使用Cornell Grasp Dataset来训练和评估模型,并且在图像方面获得高达94.42%的准确度,在对象方面获得91.02%的快速预测时间和约8ms的快速预测时间。我们还证明,在没有多对象数据集的训练的情况下,由于像素实现,我们的模型可以直接outputrobotic掌握不同对象的候选对象。
translated by 谷歌翻译
一种快速有效的运动去模糊方法在现实生活中具有很大的应用价值。这项工作提出了一种创新方法,其中自学习与GAN结合,以对图像进行去模糊。首先,我们解释一个正确的发电机可以用作深度先验,并指出基于像素的损失的解决方案与基于感知的损失的解决方案不同。通过以这些思路为出发点,提出了Bi-Skip网络来提高生成能力,采用双层损失来解决常见条件不一致的问题。其次,考虑到复杂运动模糊会在训练过程中扰乱网络,采用自定进度机制来增强网络的鲁棒性。通过对定性和定量标准的全面评估,我们认为我们的方法具有超越现有技术的竞争优势。
translated by 谷歌翻译
为会话代理定义行动空间并通过强化学习优化他们的决策制定过程是一个持久的挑战。通常的做法是使用手工制作的对话行为或输出词汇,例如:在神经编码器解码器中,作为动作空间。两者都有自己的局限性。本文提出了一种新的潜在行动框架,它将端到端对话代理的动作空间作为潜在变量进行处理,并开发无监督方法,以便从数据中引出自己的动作空间。综合实验研究了连续和离散动作类型以及基于随机变分推理的两种不同的优化方法。结果表明,在DealOrNoDeal和MultiWoz对话框中,所提出的潜在行为比先前的单词级政策梯度方法具有更好的经验性能改进。我们的详细分析还提供了有关政策学习的各种潜在变量方法的见解,并可作为在未来研究中开发更好的潜在反应的基础。
translated by 谷歌翻译