神经网络是通用函数近似器,尽管过度参数过多,但已知可以很好地概括。我们从神经网络的光谱偏置的角度研究了这种现象。我们的贡献是两个方面。首先,我们通过利用与有限元方法理论的联系来为Relu神经网络的光谱偏置提供理论解释。其次,基于该理论,我们预测将激活函数切换到分段线性B-Spline(即HAT函数)将消除这种频谱偏置,我们在各种设置中进行经验验证。我们的经验研究还表明,使用随机梯度下降和ADAM对具有HAT激活功能的神经网络进行了更快的训练。结合以前的工作表明,HAT激活功能还提高了图像分类任务的概括精度,这表明使用HAT激活在某些问题上具有重大优势。
translated by 谷歌翻译
变形金刚是一种深入学习语言模型,用于数据中心中的自然语言处理(NLP)服务。在变压器模型中,生成的预训练的变压器(GPT)在文本生成或自然语言生成(NLG)中取得了显着的性能,它需要在摘要阶段处理大型输入上下文,然后是产生一个生成阶段的一次单词。常规平台(例如GPU)专门用于在摘要阶段平行处理大型输入,但是由于其顺序特征,它们的性能在生成阶段显着降低。因此,需要一个有效的硬件平台来解决由文本生成的顺序特征引起的高潜伏期。在本文中,我们提出了DFX,这是一种多FPGA加速器,该设备在摘要和发电阶段中执行GPT-2模型端到端,并具有低延迟和高吞吐量。 DFX使用模型并行性和优化的数据流,这是模型和硬件感知的设备之间快速同时执行执行。其计算核心根据自定义说明运行,并提供GPT-2操作端到端。我们在四个Xilinx Alveo U280 FPGAS上实现了建议的硬件体系结构,并利用了高带宽内存(HBM)的所有频道,以及用于高硬件效率的最大计算资源数量。 DFX在现代GPT-2模型上实现了四个NVIDIA V100 GPU的5.58倍加速度和3.99倍的能效。 DFX的成本效益比GPU设备更具成本效益,这表明它是云数据中心中文本生成工作负载的有前途解决方案。
translated by 谷歌翻译
Face Animation是计算机视觉中最热门的主题之一,在生成模型的帮助下取得了有希望的性能。但是,由于复杂的运动变形和复杂的面部细节建模,生成保留身份和光真实图像的身份仍然是一个关键的挑战。为了解决这些问题,我们提出了一个面部神经量渲染(FNEVR)网络,以充分探索在统一框架中2D运动翘曲和3D体积渲染的潜力。在FNEVR中,我们设计了一个3D面积渲染(FVR)模块,以增强图像渲染的面部细节。具体而言,我们首先使用精心设计的体系结构提取3D信息,然后引入一个正交自适应射线采样模块以进行有效的渲染。我们还设计了一个轻巧的姿势编辑器,使FNEVR能够以简单而有效的方式编辑面部姿势。广泛的实验表明,我们的FNEVR在广泛使用的说话头基准上获得了最佳的总体质量和性能。
translated by 谷歌翻译
尽管目前基于深度学习的方法在盲目的单图像超分辨率(SISR)任务中已获得了有希望的表现,但其中大多数主要集中在启发式上构建多样化的网络体系结构,并更少强调对Blur之间的物理发电机制的明确嵌入内核和高分辨率(HR)图像。为了减轻这个问题,我们提出了一个模型驱动的深神经网络,称为blind SISR。具体而言,为了解决经典的SISR模型,我们提出了一种简单的效果迭代算法。然后,通过将所涉及的迭代步骤展开到相应的网络模块中,我们自然构建了KXNET。所提出的KXNET的主要特异性是整个学习过程与此SISR任务的固有物理机制完全合理地集成在一起。因此,学习的模糊内核具有清晰的物理模式,并且模糊内核和HR图像之间的相互迭代过程可以很好地指导KXNET沿正确的方向发展。关于合成和真实数据的广泛实验很好地证明了我们方法的卓越准确性和一般性超出了当前代表性的最先进的盲目SISR方法。代码可在:\ url {https://github.com/jiahong-fu/kxnet}中获得。
translated by 谷歌翻译
在本文中,我们专注于使用配备有视觉传感器的移动机器人(例如RGBD摄像头)有效地定位使用自由形式语言描述的目标对象的问题。常规的活动视觉搜索预测了一组搜索的对象,在实践中构成了这些技术的限制。为了在主动视觉搜索中提供更多的灵活性,我们提出了一个系统,用户可以使用自由形式的语言输入目标命令;我们称此系统零击目录的视觉搜索(Zavis)。 Zavis检测并计划搜索用户通过静态地标(例如桌子或床)表示的语义网格图输入的目标对象。为了有效地计划对象搜索模式,Zavis考虑了基于常识性知识的共发生和预测性不确定性,同时决定首先访问哪些地标。我们在模拟和现实世界环境中验证了有关SR(成功率)和SPL(成功加权)的建议方法。所提出的方法在模拟方案中的SPL优于先前的方法,平均差距为0.283。我们进一步证明了Zavis在现实世界中使用先锋3AT机器人。
translated by 谷歌翻译
我们提出了一个新颖的建筑,以实现密集的对应关系。当前的最新方法是基于变压器的方法,它们专注于功能描述符或成本量集合。但是,尽管关节聚集会通过提供一个人(即图像的结构或语义信息)或像素匹配的相似性来提高一个或另一个,但并非两者都聚集,但并非两者都汇总,尽管关节聚集会相互促进。在这项工作中,我们提出了一个基于变压器的新型网络,该网络以利用其互补信息的方式交织了两种形式的聚合。具体而言,我们设计了一个自我发项层,该层利用描述符来消除嘈杂的成本量,并且还利用成本量以促进准确匹配的方式汇总特征。随后的跨意思层执行进一步的聚合,该聚集在图像的描述上,并由早期层的聚合输出有助于。我们通过层次处理进一步提高了性能,在该处理中,更粗糙的聚合指导那些处于优质水平的过程。我们评估了所提出的方法对密集匹配任务的有效性,并在所有主要基准上实现最先进的性能。还提供了广泛的消融研究来验证我们的设计选择。
translated by 谷歌翻译
在过去的十年中,神经网络的成功已将它们确立为许多相关数据生成过程的有效模型。神经网络的统计理论表明样品复杂性的优雅缩放。例如,Joen&van Roy(Arxiv:2203.00246)证明,当带有$ W $参数的Relu教师网络生成数据时,最佳学习者只需要$ \ tilde {o} {o}(w/\ epsilon)$ sample达到预期错误$ \ epsilon $。但是,现有的计算理论表明,即使对于单层层教师网络,为了达到所有此类教师网络的小错误,实现此样本复杂性所需的计算也很棘手。在这项工作中,我们将单层神经网络拟合到由单层层的relu教师网络生成的数据,该网络具有从自然分布中绘制的参数。我们证明,具有自动宽度选择的随机梯度下降(SGD)达到了预期误差小的较小的预期误差,许多样本和查询总数几乎在输入维度和宽度中几乎是线性的。这表明SGD几乎以计算上有效的方式实现了Joen&van Roy(Arxiv:2203.00246)的信息理论样品复杂性界限。我们的积极经验结果与负理论结果之间的一个重要区别在于,后者解决了确定性算法的最坏情况误差,而我们的分析集中在随机算法的预期误差上。
translated by 谷歌翻译
美国的意识形态分裂在日常交流中变得越来越突出。因此,关于政治两极分化的许多研究,包括最近采取计算观点的许多努力。通过检测文本语料库中的政治偏见,可以尝试描述和辨别该文本的两极分性。从直觉上讲,命名的实体(即,用作名词的名词和短语)和文本中的标签经常带有有关政治观点的信息。例如,使用“支持选择”一词的人可能是自由的,而使用“亲生生命”一词的人可能是保守的。在本文中,我们试图揭示社交媒体文本数据中的政治极性,并通过将极性得分分配给实体和标签来量化这些极性。尽管这个想法很简单,但很难以可信赖的定量方式进行这种推论。关键挑战包括少数已知标签,连续的政治观点,以及在嵌入单词媒介中的极性得分和极性中性语义含义的保存。为了克服这些挑战,我们提出了极性感知的嵌入多任务学习(PEM)模型。该模型包括(1)自制的上下文保护任务,(2)基于注意力的推文级别的极性推导任务,以及(3)对抗性学习任务,可促进嵌入式的极性维度及其语义之间的独立性方面。我们的实验结果表明,我们的PEM模型可以成功学习极性感知的嵌入。我们检查了各种应用,从而证明了PEM模型的有效性。我们还讨论了我们的工作的重要局限性,并在将PEM模型应用于现实世界情景时的压力谨慎。
translated by 谷歌翻译
手眼校准问题是机器人研究中的重要应用问题。基于双重季节矢量的2个标准,我们为手眼校准问题提出了一种新的双季节优化方法。双重四基因优化问题分解为两个四基因优化子问题。第一个四基因优化子问题控制着机器人手的旋转。可以通过特征值分解或单数值分解有效地求解。如果第一个四基金优化子问题的最佳值为零,则系统无噪音,即,存在``Perfect''机器人手动运动,该机器人手动运动完全满足所有测试的旋转。在这种情况下,我们应用正规化技术来求解第二个子问题以最大程度地减少翻译的距离。否则,我们将修补技术应用于第二个四基因优化子问题。然后求解第二个四基因优化子问题是解决了二次约束二次程序。通过这种方式,我们为手眼校准问题的解决方案集提供了完整的描述。这在手眼校准文献中是新的。还提出了数值结果以显示所提出方法的效率。
translated by 谷歌翻译
本文研究了以任务为导向的对话系统中的曝光偏差问题,其中模型在多个转弯中生成的内容驱动对话框上下文远离训练时间的地面真相分布,从而引入了错误传播并损害了TOD系统的稳健性。为了弥合训练和推理多转弯任务导向对话框之间的差距,我们建议会话级抽样,该采样将模型明确地暴露于培训期间对话框上下文的采样生成的内容。此外,我们采用基于辍学的一致性正规化与屏蔽策略R掩码,以进一步提高模型的鲁棒性和性能。拟议的UBARV2在标准化评估基准Multiwoz上实现了最先进的性能,并且广泛的实验显示了所提出的方法的有效性。
translated by 谷歌翻译