近年来,深度强化学习(RL)算法取得了长足的进步。一个重要的剩余挑战是能够快速将技能转化为新任务,并将现有技能与新获得的技能相结合。在通过组合技能解决任务的领域中,这种能力有望大幅降低深度RL算法的数据要求,从而提高其适用性。最近的工作已经研究了以行动 - 价值函数的形式表现出行为的方式。我们分析这些方法以突出它们的优势和弱点,并指出每种方法都容易出现性能不佳的情况。为了进行这种分析,我们将广义策略改进扩展到最大熵框架,并介绍了在连续动作空间中实现后继特征的实际方法。然后我们提出了一种新方法,原则上可以恢复最佳的policyduring转移。该方法通过明确地学习策略之间的(折扣的,未来的)差异来工作。我们在表格案例中研究了这种方法,并提出了一种适用于多维连续动作空间的可扩展变体。我们将我们的方法与现有的方法进行比较,讨论一系列具有组成结构的非平凡连续控制问题,并且尽管不需要同时观察所有任务奖励,但仍能在质量上更好地表现。
translated by 谷歌翻译
具有函数逼近的时间差异学习(TD)[Sutton,1988]可以收敛到比Monte-Carloregression所获得的解更差的解,即使在政策评估的简单情况下也是如此。为了增加对问题的理解,我们研究了值函数的尖锐不连续区域中的近似误差问题,这些区域由引导程序更新进一步传播。我们展示了这种泄漏传播的经验证据,并且在一个简单的Markovchain中,当存在函数逼近误差时,它在分析上表明它必须发生。对于可逆政策,结果可以解释为TD最小化的两个损失函数项之间的张力,如[Ollivier,2018]最近所描述的。我们证明了[Tsitsiklis和Van Roy,1997]的上限,但它们不仅仅是泄漏传播发生在什么条件下。最后,我们测试是否可以通过更好的状态表示来缓解问题,以及是否可以以无人监督的方式学习,没有奖励或特权信息。
translated by 谷歌翻译
数据分类存在于不同的实际问题中,例如识别图像中的图案,区分生产线中的缺陷部分,对良性和恶性肿瘤进行分类等。这些问题中的许多都具有难以识别的数据模式,这需要更先进的分辨技术。最近,已经应用了几种针对不同人工神经网络架构的工作来解决分类问题。当分类问题必须通过图像获得时,目前,标准方法是使用卷积神经网络。因此,在本报告中,卷积神经网络被用来对鱼类进行分类。 Classifica \ c {c} \〜ao de dados est \'a presente em diversos problemas reais,tais como:reconhecer padr \〜oes em imagens,diferenciar pe \ c {c} as defeituosasem uma linha de produ \ c {c} \〜ao,classificar tumores benignos e malignos,dentrediversas outras。 Muitos认为问题可能是错误的问题,他们可能会发现问题,但是他们会在这里找到问题,他们会在这里找到自己的想法。 Recentemente,diversos trabalhosabordando diferentes arquiteturas de redes neurais artificiais v \ ^ em sendoaplicados para solucionar problemas de classifica \ c {c} \ ~ao。 Quando aclassifica \ c {c} \〜ao do problema deve ser obtida por meio de imagens,atualmentea metodologia padr \〜ao \'e udes de redes neurais convolucionais。 Sendo assim,neste trabalho s \〜ao utilizadas redes neurais convolucionais paraclassifica \ c {c} \ ~ao de esp \'ecies de peixes。
translated by 谷歌翻译
A ResNet-based multi-path refinement CNN is used for object contour detection. For this task, we prioritise the effective utilization of the high-level abstraction capability of a ResNet, which leads to state-of-the-art results for edge detection. Keeping our focus in mind, we fuse the high, mid and low-level features in that specific order, which differs from many other approaches. It uses the tensor with the highest-levelled features as the starting point to combine it layer-by-layer with features of a lower abstraction level until it reaches the lowest level. We train this network on a modified PASCAL VOC 2012 dataset for object contour detection and evaluate on a refined PASCAL-val dataset reaching an excellent performance and an Optimal Dataset Scale (ODS) of 0.752. Furthermore, by fine-training on the BSDS500 dataset we reach state-of-the-art results for edge-detection with an ODS of 0.824.
translated by 谷歌翻译
颅骨剥离被定义为从全头磁共振图像〜(MRI)分割脑组织的任务。它是神经图像处理管道中的关键组件。下游可变形配准和全脑分割性能高度依赖于准确的颅骨剥离。由于该年龄段头部和大脑的显着大小和形状可变性,因此对于婴儿〜(年龄范围0-18个月)头部MRI图像来说,刀片剥离是一项特别具有挑战性的任务。范围。随着时间的推移,婴儿脑组织的发育也会改变$ T_1 $加权图像的对比度,这使得一致的人们难以接受任务。用于成人脑部MRIsullstripping的现有工具不具备处理这些变化的能力,并且需要专门的婴儿MRI头部剥离算法。在本文中,我们描述了asupervised skullstripping算法,该算法利用三个训练的完全卷积神经网络〜(CNN),每个神经网络分别在轴向,冠状和矢状视图中分割2D $ T_1 $加权的视图。三个视图中的三个概率分割是线性融合和阈值化以产生最终的大脑掩模。我们将我们的方法与现有成人和婴儿颅骨剥离算法进行了比较,并且基于骰子重叠度量〜(平均骰子为0.97)和手动标记的背景真实数据集显示出显着的改善。在多个未标记的数据集上进行标签融合实验表明,我们的方法是一致的,故障模式较少。此外,我们的方法计算速度非常快,在NVidia P40 / P100 / Quadro 4000 GPU上运行时间为30秒。
translated by 谷歌翻译
在安全关键设置中使用强化学习的愿望引起了最近对学习算法的正式方法的兴趣。用于学习和优化的现有形式方法主要考虑约束学习或约束优化的问题。给定单一正确的模式与安全约束相关,这些方法保证了有效学习,同时可证明避免了安全约束之外的行为。表现良好的环境模型是安全学习的重要先决条件,但对于在复杂的异构环境中运行的系统来说,最终是不够的。本文介绍了验证保留模式,这是在多个环境模型必须考虑的环境中获得正式安全保证的第一种方法。通过结合设计时模型更新和运行时模型伪造,我们提供了第一种方法,用于获取在异质环境中作用的自治系统的形式安全性证明。
translated by 谷歌翻译
跨任务转移技能的能力有可能将增强型学习(RL)代理扩展到目前无法实现的环境。最近,基于两个概念,后继特征(SF)和广泛策略改进(GPI)的框架已被引入转移技能的原则性方式。在本文中,我们在两个方面扩展了SF和GPI框架。 SFs和GPI原始公式的基本假设之一是,所有感兴趣的任务的奖励可以计算为固定特征集的线性组合。我们放松了这个约束,并表明支持框架的理论保证可以扩展到只有奖励函数不同的任何一组任务。我们的第二个贡献是,可以使用奖励函数本身作为未来任务的特征,而不会损失任何表现力,从而无需事先指定一组特征。这使得可以以更稳定的方式将SF和GPI与深度学习相结合。我们在acomplex 3D环境中凭经验验证了这一主张,其中观察是来自第一人称视角的图像。我们表明,SF和GPI推动的转移几乎可以立即实现看不见任务的非常好的政策。我们还描述了如何以一种允许将它们添加到代理的技能集中的方式学习专门用于新任务的策略,从而在将来重用。
translated by 谷歌翻译
结直肠肝转移是最具侵袭性的肝脏恶性肿瘤之一。虽然基于CT图像的病变类型的定义决定了诊断和治疗策略,但是癌症和非癌性病变之间的区分是关键的并且需要高度熟练的专业知识,经验和时间。在目前的工作中,我们引入了端到端的深度学习方法,以帮助区分肝脏的腹部CT图像中的结直肠癌和良性囊肿的肝转移。 Ourapproach结合了InceptionV3的高效特征提取,结合了ImageNet的残余连接和预先训练的权重。该体系结构还包括完全连接的分类层,以生成病变类型的概率输出。我们使用一个内部临床生物库,其中有来自63名患者的230个肝脏病变。精确度为0.96,aF1得分为0.92,用所提出的方法获得的结果超过了现有技术的方法。我们的工作为将机器学习工具纳入专业放射学软件提供了基础,以帮助医生早期发现和治疗肝脏病变。
translated by 谷歌翻译
在多智能体场景中学习是一个富有成效的研究方向,但是当前的方法仍然在具有一般奖励设置和不同对手类型的多个游戏中显示可伸缩性问题。 Malm \“O(MARL \”O)竞赛中的Multi-AgentReinforcement Learning是一项新的挑战,它提出了使用多个3D游戏在该领域进行研究的新挑战。此次测试的目标是促进可以在不同游戏和对手类型中学习的一般代理人的研究,提出挑战作为人工智能通用方向的里程碑。
translated by 谷歌翻译
用于训练神经网络分类器的标准损失函数,分类交叉熵(CCE),旨在最大化训练数据的准确性;建立有用的表示不是这个目标的必要副产品。在这项工作中,我们提出了面向聚类的表示学习(COREL)作为广义吸引 - 排斥损失框架背景下CCE的替代方案。根据预定义的相似性函数,COREL具有建筑物表示的结果,这些表示在最终隐藏层的潜在空间内共同表现出自然聚类的质量。尽管易于实现,但COREL变量在各种情况下都优于CCE或与CCE等效,包括使用前馈和卷积神经网络的图像和新闻文章分类。利用不同相似度函数创建的潜在空间的分析有助于洞察不同的用例COREL变体可以满足,其中Cosine-COREL变体形成一致可包含的潜在空间,而Gaussian-COREL始终获得比CCE更好的分类准确度。
translated by 谷歌翻译