本文描述了针对机器翻译(MT),实体发现和链接(EDL)以及文本和语音中的情景帧(SF文本和语音)的检测的低资源人类语言技术(LoReHLT)2018评估的ARIEL-CMU提交。
translated by 谷歌翻译
Deep Reinforcement Learning已被证明在复杂游戏中非常成功,例如Atari或Go。这些游戏有明确的规则,因此允许模拟。然而,在许多实际应用中,与环境的相互作用是昂贵的并且不能获得良好的环境模拟器。此外,由于环境因应用而不同,增强剂的最佳诱导偏差(结构,超参数等)取决于应用。在这项工作中,我们提出了一种多臂强盗框架,从一组不同的强化学习代理中选择具有最佳归纳偏差的强化学习代理。为了缓解稀疏人员的问题,强化学习代理增加了代理人。这有助于强盗框架尽早选择最佳代理,因为这些奖励比环境奖励更顺畅,更少稀疏。 Thebandit具有双重目标,即在代理人学习并在有限数量的学习步骤之后选择最佳代理时最大化奖励。我们在标准环境中的实验结果表明,所提出的框架能够在完成一系列步骤之后始终选择最佳代理,与选择次优架构或在不同代理之间统一交替相比,收集更多累积奖励。
translated by 谷歌翻译
糖尿病视网膜病变(DR)是一种不断恶化的疾病,是视力障碍和失明的主要原因之一。不同等级之间的细微区别以及许多重要小特征的存在使得识别任务非常具有挑战性。另外,本发明的视网膜病变检测方法是非常费力且耗时的任务,其严重依赖于医生的技能。自动检测糖尿病性视网膜病变对于解决这些问题至关重要。糖尿病视网膜病变的早期检测对于诊断也是非常重要的,可以通过适当的治疗来预防失明。在本文中,我们开发了一种新的深度卷积神经网络,通过识别所有微动脉瘤(MA),DR的最初迹象,以及正确地将标签分配给视网膜眼底图像进行早期检测,视网膜眼底图像被分为五个类别。我们在最大的公众可用的Kagglediabetic视网膜病变数据集上测试了我们的网络,并获得了0.851二次加权kappa评分和0.844 AUC评分,从而实现了最先进的严重性评分。在早期检测中,我们已经实现了98%的灵敏度和94%以上的特异性,这证明了我们提出的方法的有效性。我们提出的架构同时在计算时间和空间方面非常简单和有效。
translated by 谷歌翻译
实时多人2D姿势估计是使机器能够理解图像和视频中的人的关键组成部分。在这项工作中,我们提出了一种实时方法来检测动画中多人的2D姿势。所提出的方法使用非参数表示,我们将其称为部分亲和场(PAF),以学习将身体部位与图像中的个体相关联。无论图像中的人数多少,这种自下而上的系统都可实现高精度和实时性能。在以前的工作中,PAF和身体部位位置估计在训练阶段同时进行了细化。我们证明PAF唯一的细化而不是PAF和身体部位位置细化导致运行时性能和准确性的显着增加。我们还提供了第一个组合的身体和足部关键点探测器,它基于我们公开发布的内部注释足部数据集。我们表明,组合探测器不仅可以减少推理时间,而且可以逐步降低推理时间,同时也可以保持每个组件的准确性。这项工作最终发布了OpenPose,这是第一个用于多人2D姿态检测的开源实时系统,包括身体,脚,手和面部关键点。
translated by 谷歌翻译
我们考虑为视频中的对象发现提供密集分段掩码的问题。我们将对象发现问题表示为foregroundmotion聚类,其目标是将视频中的前景像素聚类到不同的对象中。我们介绍了一种新颖的像素轨迹递归神经网络,它可以学习前景像素轨迹的时间嵌入。通过使用学习的特征嵌入来聚类像素轨迹,我们的方法建立跨视频帧的前景对象掩模之间的对应关系。为了证明我们的对象发现框架的有效性,我们对常用的数据集formotion分段进行了实验,在这里我们实现了最先进的性能。
translated by 谷歌翻译
我们提出了从单眼视图输入捕获目标人物的3D总运动的第一种方法。给定图像或单眼视频,我们的方法从由3D可变形网格模型表示的身体,面部和手指重构运动。我们使用称为3D PartOrientation Fields(POF)的有效表示来编码公共2D图像空间中所有身体部位的3D方向。 POF由完全卷积网络(FCN)以及联合置信图预测。为了训练我们的网络,我们收集了一个新的3D人体运动数据集,捕获多视图系统中40个受试者的多种全身运动。我们利用3D可变形人体模型,通过在模型中利用姿势和形状,从CNN输出重建总体姿势。我们还提出了一种基于纹理的跟踪方法,以获得时间相干运动捕捉输出。我们进行彻底的定量评估,包括与现有的身体特定和手部特定方法的比较,以及对摄像机视点和人体姿势变化的性能分析。最后,我们展示了我们对各种具有挑战性的野外视频的全身动作捕捉结果。我们的代码和新收集的人体动态数据集将公开分享。
translated by 谷歌翻译
我们提出了一种在线方法,可以有效地同时检测和跟踪视频序列中多人的2D姿势。我们基于为静态图像设计的PartAffinity Field(PAF)表示,并提出可以编码和预测视频序列中的时空亲和场(STAF)的架构。特别是,我们提出了一种跨越四肢的新型时间拓扑,它可以始终如一地处理各种大小的身体运动。此外,我们使整体方法具有周期性,其中网络从先前帧中摄取STAF热图,并估计当前帧的那些热图。我们的方法仅使用在线推理和跟踪,并且是目前最快和最准确的自下而上的方法,其对于场景中的人数和运算符输入帧率不变的运行时不变。在单一规模的单GPU上以$ \ sim $ 30 fps运行,它在thePoseTrack基准测试中实现了极具竞争力的结果。
translated by 谷歌翻译
这部作品描述了一种新颖的音乐创作复发模型,它可以为复调音乐的丰富统计结构提供支持。有很多方法可以将概率分布与乐谱分开;我们考虑了各种方法的优点,并提出了一种新的因子分解,它将得分分解为并发的,耦合的时间序列集合:“部分”。我们提出的模型借鉴了卷积神经模型和递归神经模型的思想;我们认为这些想法对于捕捉音乐的音高不变性,时间结构和复调是很自然的。我们在KernScores数据集(Sapp,2005)上训练谐音和复音构图的生成模型,收集了2,300个乐谱,包括从文艺复兴时期到20世纪初的大约280万个音符。虽然已知生成模型的评估很难(Theiset al。,2016),但我们使用单位调整的总熵度量来提供仔细的定量结果,该度量与我们如何分配分布过度分量无关。我们还使用盲辨别测试提供定性结果。
translated by 谷歌翻译
由于下一代测序技术(NGS)的发展导致的可用蛋白质序列量与不同功能方面的蛋白质序列注释等有用信息的慢速和廉价实验提取之间的差距越来越大,这可以通过采用自动功能预测来减少(法新社)接近。 GeneOntology(GO)包含超过40,000个类别,定义了蛋白质功能名称生物过程(BP),细胞成分(CC),分子功能(MF)的三个方面。单个蛋白质的多种功能,使自动功能预测成为一种大规模,多类,多标签的任务。在本文中,我们提出了DEEPGONET,一种新颖的级联卷积和重复神经网络,用于预测GO本体的顶级层次结构。该网络将蛋白质的一级序列作为输入,这使得它比其他流行的基于深度学习的多模态输入方法更有用,使得它们不太适用于只有一级序列可用的蛋白质。我们网络中不同蛋白质功能的所有预测都是通过相同的体系结构进行的,这是一种更好的泛化的证明,这种证据表明,只有通过对智人进行训练才能在各种生物体上表现出良好的性能,这可以通过利用层次关系有效地探索大量输出空间来实现。 GO课程。我们模型的优化性能使其成为直接实验蛋白质功能探索的潜在途径,通过大大消除可能的路线,这是通过仅探索模型中建议的路线来完成的。与文献中的其他架构相比,我们提出的模型在计算时间和空间方面也非常简单和有效。
translated by 谷歌翻译
我们引入了一种数据驱动的方法,用于无监督的视频重定向,将内容从一个域转换到另一个域,同时保留域中的原生样式,即,如果将John Oliver的语音内容转移到Stephen Colbert,则生成的内容/语音应该在斯蒂芬科尔伯特的风格。我们的方法结合了空间和时间信息以及内容翻译和风格保存的对抗性损失。在这项工作中,我们首先研究利用时空约束空间约束进行有效重定向的优势。然后,我们展示了针对空间和时间信息的问题的建议方法,例如面对面翻译,花到花,风和云合成,日出和日落。
translated by 谷歌翻译