在本文中,我们专注于面部表情翻译任务,并提出一个新的表达式条件GAN(ECGAN),它可以学习基于一个额外的表达属性从一个图像域到另一个图像域的映射。所提出的ECGAN是通用框架,并且适用于不同的表达生成任务,其中特定的面部表情可以通过条件属性标签容易地控制。此外,我们还介绍了一种新颖的面膜,以减少背景变化的影响。此外,我们提出了在野外进行面部表情生成和识别的整个框架,其包括两个模块,即生成和识别。最后,我们在几个公共面部数据集上评估我们的框架,其中主体具有不同的种族,光照,遮挡,姿势,颜色,内容和背景条件。尽管这些数据集非常多样化,但定性和定量结果都表明我们的方法能够准确,稳健地生成面部表达。
translated by 谷歌翻译
面部地标定位是众多面部相关应用中非常关键的一步,例如面部识别,面部姿势估计,面部图像合成等。然而,之前的面部地标定位竞赛(即300-W,300-VW和Menpo挑战)旨在预测68点地标,这些地标无法描述面部构件的结构。为了克服这个问题,我们构建了一个具有挑战性的数据集,名为J-landmark。每个图像都用106点地标手动注释。这个数据集涵盖了姿势和表情的大变化,这给预测准确的地标带来了很多困难。我们与IEEE国际多媒体和博览会(ICME)2019一起在该数据集上举办了一场106点的面部地标定位竞赛1。本次比赛的目的是发现有效而强大的面部地标定位方法。
translated by 谷歌翻译
本文提出了一种改进智能机器人对话交互性的新方法,以实现更真实的身体姿势。这些序列到序列(seq2seq)模型适用于合成由十二个上身关键点的运动表示的机器人的手势,不仅仅是说话阶段,而且还有前面的方法难以实现的收听阶段。我们从Youtube收集并预处理了人工对话的实质视频,以训练我们的基于seq2seq的模型,并通过测试集上的均方误差(MSE)和余弦相似度来评估它们。实现模型以驱动虚拟化身和物理人体机器人,以展示我们在实践中对交互能力的改进。通过我们的模型合成的身体姿势,avatarand Pepper在与人类交流时表现得更加智能。
translated by 谷歌翻译
从整个载玻片图像(WSI)自动检测癌症转移是跟踪患者分期和预后的关键步骤。然而,由于难以处理大规模的千兆像素图像,最近基于卷积神经网络(CNN)的方法在精度和计算成本之间的折衷中苦苦挣扎。为了应对这一挑战,我们提出了一种新颖的深度神经网络,即金字塔特征聚合ScanNet(PFA-ScanNet),在自上而下和底部向上都具有金字塔特征聚合。通过利用来自具有更大接收场和更少参数的多尺度特征的上下文和空间信息的优点,增加了我们的探测器的辨别能力。我们还开发了一个额外的解码器分支,以协同学习语义信息和检测器,显着提高识别主题的性能。此外,设计了一个高效的推理机制,使用了池化层,可以实现密集和快速扫描,实现千兆像素WSI分析。我们的方法在theCamelyon16数据集上获得了89.1%的最新FROC评分,以及在Camelyon17排行榜上获得了0.905的竞争性kappa评分。此外,我们提出的方法显示出领先的速度优于现有技术的方法,这使得乳腺癌转移的自动分析更适用于临床使用。
translated by 谷歌翻译
使机器人能够理解通过口头自然语言提供的指令将有助于机器人与家庭和工作场所中各种设置的人之间的互动。然而,自然语言指令缺少基于环境背景和常识对人类显而易见的信息,因此不需要明确说明。在本文中,我们介绍了基于语言模型的CommonsenseReasoning(LMCR),这是一种新的方法,它使机器人能够听取人类的自然语言指令,观察周围环境,并自动填写指令环境背景中缺失的信息。一种新的常识推理方法。我们的方法首先将作为无约束自然语言提供的指令转换为机器人可以通过将其解析为动词帧来理解的形式。我们的方法是通过观察附近的物体并利用常识推理来填充指令中缺失的信息。为了自动学习常识性,我们的方法通过训练语言模型从大型结构化文本语料库中提取知识。我们的结果显示了机器人从基于网络的文本语料库中自动学习常识知识的可行性,以及学习常识推理模型在使机器人能够基于不完整语言指令自主执行任务时的能力。
translated by 谷歌翻译
特征交叉捕获分类特征之间的交互,并且可用于增强现实世界企业中的表格数据的学习。在本文中,我们介绍了AutoCross,一种由4Paradigm为其客户提供的自动特征交叉工具,范围从银行,医院到Internetcorporations。通过在树状结构空间中执行波束搜索,AutoCrossenable可以高效生成高阶交叉特征,这是现有工作尚未实现的。此外,我们建议连续的小批量梯度下降和多粒度离散化,以进一步提高效率和有效性,同时确保简单性,以便不需要机器学习专业知识或繁琐的超参数调整。此外,算法旨在减少分布式计算中涉及的计算,传输和存储成本。在两个基准测试和实际业务数据集上的实验结果证明了AutoCross的有效性和有效性。结果表明,AutoCross可以显着提高线性和深度模型的性能。
translated by 谷歌翻译
由于数据驱动的应用,递归随机算法在过去的过去引起了极大的关注。例子包括用于解决大规模优化问题的随机梯度下降和用于解决马尔可夫决策问题的经验动态编程算法。这些递归随机算法近似于某些收缩算子,并且可以在迭代随机映射的框架内查看。因此,我们考虑在波兰空间上迭代的随机地图,模拟波兰空间上的收缩操作员。假设迭代映射由$ n $索引,如$ n \ rightarrow \ infty $,随机映射的每个实现(在某种意义上)汇总到它正在模拟的收缩映射。我们表明,从相同的初始条件开始,由迭代随机图生成的随机序列的分布弱收敛到由收缩运算符生成的轨迹。我们进一步表明,在某些条件下,随机序列的时间平均收敛于不变分布的空间平均值。然后,我们将这些结果应用于有限状态有限动作MDP的经验回归,经验值迭代,经验Q值迭代和经验相对值迭代。
translated by 谷歌翻译
我们提出了一种新的语言表示模型,该模型被称为ENDIE(通过kNowledge IntEgration的增强表示)的知识增强。受到BERT的掩蔽策略的启发,ERNIE旨在通过知识掩蔽策略来学习语言表达,其中包括实体级掩蔽和短语级掩蔽。实体级策略掩盖通常由多个单词组成的实体。语法级别策略掩盖整个短语,该短语由作为概念单元的几个单词组成。实验结果表明ERNIE优于其他基线方法,实现了新的状态。艺术成果包括自然语言推理,语义相似度,命名实体识别,情感分析和问答。我们还说明了ERNIE在acloze测试中具有更强大的知识推理能力。
translated by 谷歌翻译
现在,体佩式摄像机通常用于记录日常生活,体育和法律执法活动,从而创建大量存档镜头。本文研究了根据摄像机佩戴者的活动对镜头帧进行分类的问题,重点是应用于现实世界的体操视频。现实世界数据集对现有的自我中心视觉数据集提出了一系列不同的挑战:不同活动的镜头数量不平衡,数据包含个人可识别信息,实际上很难为监督方法提供实质性的训练。我们通过仅基于运动信息提取特征然后使用半监督分类算法分割视频脚本来解决这些挑战。在公开可用的数据集中,我们的方法使用一小部分训练数据获得了与监督和/或深度学习方法相当的结果(如果不是更好的话)。它还显示了对现实世界警察身体佩戴视频的有希望的结果。
translated by 谷歌翻译
虽然嵌入式FPGA因其低延迟和高能效而成为DNN加速设备的有吸引力的平台,但边缘规模FPGA器件的资源稀缺也使得它对DNN部署具有挑战性。在本文中,我们提出了一种同时具有自下而上和自上而下方法的FPGA / DNN协同设计方法:面向自下而上硬件的DNN模型搜索高精度,以及自上而下的FPGA加速器设计,考虑DNN特定的特性。我们还构建了自动协同设计流程,包括用于执行面向硬件的DNN模型搜索的Auto-DNN引擎,以及用于为探索的DNN生成FPGA加速器的可合成C代码的Auto-HLS引擎。我们使用PYNQ-Z1 FPGA演示了对象检测任务的协同设计方法。结果表明我们提出的DNN模型和加速器在所有方面都优于最先进的FPGA设计,包括交叉联盟(IoU)(高6.2%),每秒帧数(FPS)(高2.48倍),功耗(降低40%)和能源效率(高2.5倍)。与基于GPU的解决方案相比,我们的设计提供了类似的精度,但消耗的能源却少得多。
translated by 谷歌翻译