我们考虑Nachmani等人最近提出的加权置信传播(WBP)解码器。其中为每个Tanner图表引入了不同的权重,并使用机器学习技术进行了优化。我们的重点是简单缩放模型,这些模型在某些边缘使用相同的权重,以减少存储和计算负担。主要贡献是表明,使用少量参数进行简单缩放通常可以获得与完全参数化相同的增益。此外,提出了WBP的若干培训改进。例如,已经表明,在比特误码率(BER)和新的“软BER”损失方面,最小化平均二进制交叉熵最不是最优的,这可以导致更好的性能。我们还研究参数适配器网络(PAN),它们了解信噪比和WBP参数之间的关系。例如,对于具有高度冗余奇偶校验矩阵的(32,16)Reed-Muller码,训练具有软BER损失的PAN,假设仅使用三个参数进行简单缩放,则提供近似最大似然性能。
translated by 谷歌翻译
过去十年中机器学习的快速改进开始产生深远的影响。对于通信,具有有限的domainexpertise的工程师现在可以使用现成的学习包来设计基于模拟的高性能系统。在机器学习的当前革命之前,大多数通信工程师都非常清楚可以使用随机梯度下降来学习系统参数(例如滤波器系数)。然而,一点也不清楚,系统架构中更复杂的部分也可以学习。在本文中,我们讨论了机器学习技术在双通信问题中的应用,并着重于从结果系统中学到的东西。我们惊喜地发现,在一个例子中观察到的收益有一个简单的解释,事后才明白。从本质上讲,深度学习发现了一种简单而有效的策略,这种策略以前没有被考虑过。
translated by 谷歌翻译
近年来,在端到端神经对话系统中生成信息响应引起了很多关注。以前的各种工作都利用了外部知识和对话背景来产生这样的反应。然而,很少有人证明他们有能力将适当的知识纳入应对措施。受此启发,本文提出了一种新的开放域对话生成模型,该模型采用后验知识分布来指导知识选择,从而在对话中生成更为恰当和信息丰富的响应。据我们所知,我们是第一个利用后验知识分布促进对话生成的人。我们对bot自动和人体评估的实验清楚地证实了我们模型优于最先进基线的优越性能。
translated by 谷歌翻译
我们描述了一个开源模拟器,它可以在城市环境中创建典型汽车场景的传感器辐照度和传感器图像。该系统的目的是支持汽车应用的摄像机设计和测试。用户可以指定场景参数(例如,场景类型,道路类型,交通密度,一天中的时间)来组装存储在数据库中的图形集的大量随机场景。 。使用定量计算机图形方法生成传感器辐照度,并且使用图像系统传感器模拟来创建传感器图像。合成传感器图像具有像素水平注释;因此,它们可用于训练和评估用于成像任务的神经网络,例如物体检测和分类。端到端仿真系统支持从场景到相机网络精度的定量评估,用于汽车应用。
translated by 谷歌翻译
本文提出了一种新的程序,通过计算机视觉和度量学习来构建假设检验的测试统计。本文的主要应用是在Q-Q图上应用计算机视觉,为正态性检验构建一个新的检验统计量。传统上,有两个方法来验证随机变量的概率分布。研究人员要么主观评估Q-Q图,要么客观地使用数学公式,如Kolmogorov-Smirnov检验,来正式进行非正态性检验。人类的图形评估并不严谨,而当不存在统一最强大的测试时,正态性测试统计可能不够准确。统计学家可能需要数十年的时间来开发一种新的更强大的测试统计数据。所提出的方法的第一步是应用计算机视觉技术,例如预训练的ResNet,将Q-Q图转换成数字矢量。下一步是应用metriclearning在零假设下的Q-Q图和所有Q-Q图的中心之间找到适当的距离函数,假设目标变量是正态分布的。该距离度量是正态性测试的新测试统计。我们的实验结果表明,在所有情况下,基于机器学习的测试统计数据可以优于传统的正态测试,特别是当样本量很小时。本研究提供了令人信服的证据,证明所提出的方法可以客观地创建基于Q-Q图的强大测试统计量,并且可以修改该方法,以便为未来的其他应用构建更强大的测试统计量。
translated by 谷歌翻译
本文提出了一种同时实现定位和分割的新框架,它是机器人技术中最重要的两个基于视觉的任务。虽然以前认为用于它们的目标和技术不同,但我们通过利用两个模块的中间结果表明,它们的性能可以同时得到提高。我们的框架能够通过这些分段结果帮助处理本地化实例的瞬时运动和长期变化,这也得益于精确的3D姿势信息。我们对各种数据集进行实验,证明我们的框架在改进方面有效两个任务的精确性和稳健性,优于现有的定位和分割算法。
translated by 谷歌翻译
对于移动机器人的自主导航,强大且快速的视觉定位是一项具有挑战性的任务。尽管已经报道了一些用于6-DoF视觉测距(VO)的端到端深度神经网络,但是它们仍然无法解决远程导航中的漂移问题。在本文中,我们提出了深度全局相关网络(DGRNets),它是一种基于逆流卷积神经网络(RCNN)的全新的相对融合框架。它旨在通过连续的单一图像共同估计全局姿势和相对定位。 DGRNets包括用于判别特征选择的特征提取子网络,用于平滑VO轨迹的RCNN类型相对姿态估计子网络和用于避免姿势误差累积的RCNN类型全局姿势回归子网络。我们还提出了两个损失函数:第一个由交叉变换约束(CTC)组成,它利用相邻帧的几何一致性来训练更精确的相对子网络,第二个由CTC和MeanSquare Error(MSE)组成。用于训练端到端DGRNets的预测姿势和基本事实。室内Microsoft7-Scenes和室外KITTI数据集的竞争性实验表明,我们的DGRNets在姿势准确性方面优于其他基于学习的单眼VO方法。
translated by 谷歌翻译
出于实际考虑,期望实现资源利用率的高效率,本文从动态多臂强盗的角度,将有限资源的大规模黑框优化问题转化为在线决策问题,简化了马尔可夫决策过程。提出的在线决策元启发式框架(ODM)特别适用于实际应用,具有各种成本的灵活兼容性,易于启发式清晰度的接口以及较少的超参数,以减少性能差异。基准功能的实验结果表明,ODM已经证明了在线决策的重要能力。此外,当使用三种启发式方法表达ORM时,竞争性能可以在搜索范围高达10000的基准问题上实现。
translated by 谷歌翻译
语音情感识别是人机交互的重要方面。先前的工作提出了各种转移学习方法来处理语音情感识别中的有限样本。但是,它们需要标记源任务的数据,这需要花费很多精力来收集它们。解决这个问题,我们专注于无监督任务,预测编码。可以利用大多数域的无限数据。在本文中,我们利用多层变换器模型进行预测编码,然后使用传递学习方法来分享预训练预测模型用于语音情感识别的知识。我们对IEMOCAP进行了实验,实验结果揭示了该方法的优点。我们的方法在加权精度上达到65.03%,也优于目前一些先进的方法。
translated by 谷歌翻译
人员重新识别(重新识别)是一个具有挑战性的问题,尤其是当没有标签可用于培训时。虽然最近的深度重新ID方法已经取得了很大的进步,但是在训练数据中没有注释的情况下仍然难以优化深度重新ID模型。为了解决这个问题,本研究通过利用虚拟实际数据,介绍了一种新的无人监管人员重新识别方法。我们的方法包括两个组件:虚拟人生成和深度重新ID模型的培训。对于虚拟人生成,我们使用未标记的真实数据来学习人生成模型和相机样式转移模型,以生成具有不同姿势和相机样式的虚拟人。虚拟数据形成为标记的训练数据,从而使得随后能够在监督中训练深度重新ID模型。对于深度重新ID模型的训练,我们将其分为三个步骤:1)通过使用虚拟数据预训练粗略重新ID模型; 2)基于真实数据的基于协同过滤的正对挖掘; 3)通过利用挖掘的正对和虚拟数据来微调粗re-ID模型。通过在步骤2和步骤3之间迭代直到收敛来实现最终的重新ID模型。在两个大型数据集Market-1501和DukeMTMC-reID上的实验结果表明,我们的认可的有效性表明,在无人监督的人ID中实现了现有技术水平。
translated by 谷歌翻译