条件生成对抗网络(GAN)中的对抗性损失未被设计为直接优化目标任务的评估度量,因此,可能不总是引导GAN中的生成器生成具有改进的度量分数的数据。为了克服这个问题,我们提出了一种新颖的MetricGAN方法,旨在针对一个或多个评估指标优化发电机。此外,基于MetricGAN,生成数据的度量分数也可以由用户任意指定。我们在语音增强任务上测试了所提出的MetricGAN,这特别适合于验证所提出的方法,因为存在多个度量来测量语音信号的不同方面。此外,这些指标通常是复杂的,并且无法通过Lp或传统的对抗性无法完全优化。
translated by 谷歌翻译
属性感知CF模型旨在评估预测,不仅给出用户对项目的历史评级,还给出与用户(例如年龄),项目(例如价格)或甚至评级(例如评级时间)相关联的信息。本文调查了过去十年中开发属性感知CF系统的工作,并发现在数学上它们可以分为四个不同的类别。我们不仅为读者提供了对该领域现有作品的高级数学解释,还为每一类模型提供了数学解释。最后,我们提供了深入的实验结果,比较了各类主要工作的有效性。
translated by 谷歌翻译
多变量时间序列预测在金融,交通,环境等领域的普遍应用中得到了广泛的研究。尽管如此,人们仍然担心传统方法无法模拟真实单词数据中的复杂模式或依赖关系。要解决这些问题提出了各种深度学习模型,主要是基于递归神经网络(RNN)的方法。尽管如此,捕获极长期模式同时有效地整合来自其他变量的信息仍然是时间序列预测的挑战。此外,缺乏可解释性仍然是深度神经网络模型的一个严重缺陷。受建议用于解决问答环节的内存网络的启发,我们提出了一种基于深度学习的模型,称为内存时间序列网络(MTNet),用于时间序列预测。 MTNet由一个大的内存组件,三个独立的编码器和一个自动回归组件组成。此外,所设计的注意机制使MTNet具有高度可解释性。我们可以很容易地分辨出历史数据的哪一部分被最多引用。
translated by 谷歌翻译
本文提出了一种低成本,易于实现的策略,使强化学习(RL)代理具有道德行为能力。我们的模型允许RL代理的设计者专注于完成任务,而不必担心遵循多个琐碎的道德模式的实现。基于这样的假设:大多数人类行为,无论他们实现的目标是什么,都是道德的,我们的设计将人类政策与RL政策相结合,以达到目标目标,没有机会违反人类通常遵守的道德准则。
translated by 谷歌翻译
人脸识别近年来取得了长足的进步,主要归功于设计的大容量模型和丰富的标签数据。然而,扩大当前的百万级身份注释变得越来越禁止。在这项工作中,我们表明,未标记的面部数据可以与标记的面部数据一样有效。在这里,我们考虑设置密切模仿现实世界的场景,其中未标记的数据从不受约束的环境收集,并且它们的身份与标记的数据是唯一的。我们的主要观点是,尽管类信息不可用,但我们仍然可以通过以自下而上的方式构建关系图来忠实地近似这些语义关系。我们提出共识驱动传播(CDP)来解决这个具有挑战性的问题,有两个模块,即“委员会”和“调解员”,它们通过仔细聚合多视图信息来强有力地选择正面对。大量实验验证了两个模块的有效性,以丢弃异常值和挖掘硬性积极因素。使用CDP,我们通过仅使用9%的标签实现了对MegaFace识别挑战的78.18%的令人信服的准确度,相比之下,当使用未标记数据时为61.78%,而当使用所有标签时为78.52%。
translated by 谷歌翻译
我们根据修辞结构理论(RST)提出了一种有效的句子级语篇分析的神经框架。我们的框架包括一个话语分段器,用于识别文本中的基本话语单元(EDU),以及一个以低调的方式构建话语树的话语分析器。分段器和解析器都基于PointerNetworks并在线性时间内运行。我们的分段器得出$ F_1 $得分为95.4,我们的解析器在累计标签(关系)指标上获得了$ F_1 $ 81.7分,超过以前的方法,并且在两项任务上都达成了人类协议(98.3和83.0 $) F_1 $)。
translated by 谷歌翻译
Recently, improving the relevance and diversity of dialogue system has attracted wide attention. For a post x, the corresponding response y is usually diverse in the real-world corpus, while the conventional encoder-decoder model tends to output the high-frequency (safe but trivial) responses and thus is difficult to handle the large number of responding styles. To address these issues, we propose the Atom Responding Machine (ARM), which is based on a proposed encoder-composer-decoder network trained by a teacher-student framework. To enrich the generated responses, ARM introduces a large number of molecule-mechanisms as various responding styles, which are conducted by taking different combinations from a few atom-mechanisms. In other words, even a little of atom-mechanisms can make a mickle of molecule-mechanisms. The experiments demonstrate diversity and quality of the responses generated by ARM. We also present generating process to show underlying interpretability for the result.
translated by 谷歌翻译
视觉定位是一个有吸引力的问题,它基于查询图像估计来自数据库图像的相似定位。它是各种应用的关键任务,例如自动驾驶汽车,辅助导航和增强现实。任务的挑战性问题在于查询和数据库图像之间的不同外观变化,包括照明变化,季节变化,动态对象变化和观点变化。为了应对这些挑战,本文提出了全景环形透镜和强大的深度图像描述符的全景环形定位器。处理由单个摄像机捕获的全景环形图像并将其馈送到NetVLAD网络中以形成活动的深度描述符,并且利用顺序匹配来生成定位结果。在公共数据集和现场进行的实验说明了所提出的系统的验证。
translated by 谷歌翻译
群体重新识别(G-ReID)是一项重要但研究较少的任务。其挑战不仅在于在一般人重新识别(ReID)中进行过调查的个体的外观变化,而且还来自于群体布局和成员变化。因此,G-ReID的关键任务是学习对这些变化具有鲁棒性的代表性。为了解决这个问题,我们提出了一个传输的单一和夫妻代表学习网络(TSCN)。其中有两个方面:1)由于缺乏标记的训练样本,现有的G-ReID方法主要依赖于手工制作的不令人满意的特征。考虑到深度学习模型的优越性,我们将一个组视为多个人,并将标记的ReID数据集的域转换为G-ReID targetdataset样式以学习单个表示。 2)考虑到群体中的邻居关系,我们进一步提出在两个群体成员之间学习一种新的代表性,这在G-ReID任务中实现了更强的判断力。另外,利用无监督的权重学习方法根据结果模式自适应地融合不同视图的结果。广泛的实验结果证明了我们的方法的有效性,其显着优于道路组数据集上11.7%CMC-1和DukeMCMT数据集上39.0%%CMC-1的最新方法。
translated by 谷歌翻译
阿片类药物过量是美国日益严重的公共卫生危机。这种被称为“阿片类药物流行病”的危机具有广泛的社会后果,包括健康状况的恶化,以及犯罪率和家庭问题的增加。为了改善过量监测并确定预防工作所需的领域,在这项工作中,我们专注于使用实时犯罪动态预测阿片类药物过量。以前的工作确定了阿片类药物使用与犯罪活动之间的各种联系,例如经济动机和常见原因。在这些观察的启发下,我们通过利用犯罪事件的时空模式,提出了阿片类药物过量预测的小说时空预测模型。我们提出的模型包含多头注意网络,以学习不同的特征表示子空间。这种称为“社区关注”网络的深度学习架构允许通过区域的组(即,社区)的混合来优化给定位置的预测。此外,我们提出的模型允许解释哪些特征,从哪些社区,对预测当地事件有更多的贡献,以及通过预测捕获这些社区。我们在两个世界过量数据集上的结果表明,我们的模型实现了卓越的预测性能,并在犯罪动态与阿片类药物过量之间的时空关系方面提供了有意义的解释。
translated by 谷歌翻译