为了成功推荐(SR)成功,最近的作品着重于设计有效的顺序编码器,融合侧面信息以及挖掘额外的积极的自我实施信号。在每个时间步骤中对负面项目进行采样的策略较少探索。由于用户在培训过程中的兴趣和模型更新的动态,因此考虑用户的非相互作用项目的随机抽样项目作为负面的项目可能是不明智的。结果,该模型将不准确地了解用户对项目的偏好。识别信息性负面因素是具有挑战性的,因为内容的负面项目与动态变化的兴趣和模型参数相关(并且抽样过程也应该是有效的)。为此,我们建议为SR(Genni)生成负样本(项目)。根据当前SR模型对项目的学习用户偏好,在每个时间步骤中都采样了负项目。提出了有效的实施,以进一步加速生成过程,使其可扩展到大规模推荐任务。在四个公共数据集上进行的广泛实验验证了为SR提供高质量的负样本的重要性,并证明了Genni的有效性和效率。
translated by 谷歌翻译
语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译
培训数据集和生产中遇到的数据之间的分配差距得到了很好的承认。训练数据集通常在固定的时间段内构建,并且通过仔细策划要标记的数据。因此,训练数据集可能不包含在现实世界生产环境中可能遇到的所有可能的数据变化。任务建立实体解析系统 - 一个识别和整合代表同一个人的数据点的模型 - 我们的第一款模型表现出明确的培训 - 生产性能差距。在这种情况下,我们讨论了我们的循环启用,以数据为中心的解决方案,以关闭培训 - 生产性能分歧。我们的结论是用外卖,适用于以数据为中心的学习。
translated by 谷歌翻译
The stochastic gradient descent (SGD) method and its variants are algorithms of choice for many Deep Learning tasks. These methods operate in a small-batch regime wherein a fraction of the training data, say 32-512 data points, is sampled to compute an approximation to the gradient. It has been observed in practice that when using a larger batch there is a degradation in the quality of the model, as measured by its ability to generalize. We investigate the cause for this generalization drop in the large-batch regime and present numerical evidence that supports the view that large-batch methods tend to converge to sharp minimizers of the training and testing functions-and as is well known, sharp minima lead to poorer generalization. In contrast, small-batch methods consistently converge to flat minimizers, and our experiments support a commonly held view that this is due to the inherent noise in the gradient estimation. We discuss several strategies to attempt to help large-batch methods eliminate this generalization gap.
translated by 谷歌翻译
We demonstrate a Physics-informed Neural Network (PINN) based model for real-time health monitoring of a heat exchanger, that plays a critical role in improving energy efficiency of thermal power plants. A hypernetwork based approach is used to enable the domain-decomposed PINN learn the thermal behavior of the heat exchanger in response to dynamic boundary conditions, eliminating the need to re-train. As a result, we achieve orders of magnitude reduction in inference time in comparison to existing PINNs, while maintaining the accuracy on par with the physics-based simulations. This makes the approach very attractive for predictive maintenance of the heat exchanger in digital twin environments.
translated by 谷歌翻译
Motion planning and control in autonomous car racing are one of the most challenging and safety-critical tasks due to high speed and dynamism. The lower-level control nodes are expected to be highly optimized due to resource constraints of onboard embedded processing units, although there are strict latency requirements. Some of these guarantees can be provided at the application level, such as using ROS2's Real-Time executors. However, the performance can be far from satisfactory as many modern control algorithms (such as Model Predictive Control) rely on solving complicated online optimization problems at each iteration. In this paper, we present a simple yet effective multi-threading technique to optimize the throughput of online-control algorithms for resource-constrained autonomous racing platforms. We achieve this by maintaining a systematic pool of worker threads solving the optimization problem in parallel which can improve the system performance by reducing latency between control input commands. We further demonstrate the effectiveness of our method using the Model Predictive Contouring Control (MPCC) algorithm running on Nvidia's Xavier AGX platform.
translated by 谷歌翻译
在软件开发过程中,开发人员需要回答有关代码语义方面的查询。即使已经用神经方法进行了广泛的自然语言研究,但尚未探索使用神经网络对代码回答语义查询的问题。这主要是因为没有现有的数据集,具有提取性问答和答案对,涉及复杂概念和较长推理的代码。我们通过构建一个名为Codequeries的新的,策划的数据集并提出了一种关于代码的神经问题方法来弥合这一差距。我们基于最先进的预训练的代码模型,以预测答案和支持事实跨度。给定查询和代码,只有一些代码可能与回答查询有关。我们首先在理想的环境下进行实验,其中仅给出了模型的相关代码,并表明我们的模型做得很好。然后,我们在三个务实的考虑因素下进行实验:(1)扩展到大尺寸的代码,(2)从有限数量的示例中学习,(3)代码中对次要语法错误的鲁棒性。我们的结果表明,虽然神经模型可以抵御代码中的次要语法错误,代码的大小增加,与查询无关的代码的存在以及减少的培训示例数量限制了模型性能。我们正在释放数据和模型,以促进未来关于回答代码语义查询的问题的工作。
translated by 谷歌翻译
许多现代的在线3D应用程序和视频游戏都依靠人脸的参数模型来创建可信的化身。但是,用参数模型手动复制某人的面部相似性是困难且耗时的。该任务的机器学习解决方案是非常可取的,但也充满挑战。本文提出了一种新的方法来解决所谓的面对参数问题(简称F2P),旨在重建单个图像的参数面。所提出的方法利用合成数据,域分解和域适应来解决解决F2P的多方面挑战。开源代码库说明了我们的主要观察结果,并提供了定量评估的手段。提出的方法在工业应用中证明是实际的。它提高了准确性并允许更有效的模型培训。这些技术有可能扩展到其他类型的参数模型。
translated by 谷歌翻译
许多现代的在线3D应用程序和视频游戏依靠人面孔的参数模型来创建可信的化身。但是,使用参数模型对某人的面部相似性进行手动复制是困难且耗时的。该任务的机器学习解决方案是非常可取的,但也充满挑战。本文提出了一种新的方法来解决所谓的面对参数问题(简称F2P),旨在重建单个图像的参数面。所提出的方法利用合成数据,域分解和域适应来解决解决F2P的多方面挑战。开源代码库说明了我们的主要观察结果,并提供了定量评估的手段。提出的方法在工业应用中证明是实际的。它提高了准确性并允许更有效的模型培训。这些技术有可能扩展到其他类型的参数模型。
translated by 谷歌翻译
我们提出了一种新型的深神经网络(DNN)体系结构,以在仅在解码器侧作为侧面信息可用时,以压缩图像,这是一个著名且经过深入研究的分布式源编码(DSC)问题的特殊情况。特别是,我们考虑了一对立体声图像,它们具有重叠的视野,由同步和校准的摄像机捕获。因此,高度相关。我们假设该对的一个图像要被压缩和传输,而另一个图像仅在解码器上可用。在提出的体系结构中,编码器使用DNN将输入图像映射到潜在空间,量化潜在表示,并使用熵编码无损地压缩了它。所提出的解码器提取了仅从可用侧面信息的图像之间的有用信息,以及侧面信息的潜在表示。然后,这两个图像的潜在表示,一个是从编码器中接收的,另一个从本地提取,以及本地生成的共同信息,将其馈送到两个图像的各个解码器中。我们采用交叉意见模块(CAM)来对齐两个图像的各个解码器的中间层中获得的特征图,从而可以更好地利用侧面信息。我们训练并演示了拟议算法对各种现实设置的有效性,例如立体声图像对的Kitti和CityScape数据集。我们的结果表明,所提出的体系结构能够以更有效的方式利用仅解码器的侧面信息,因为它表现优于先前的工作。我们还表明,即使在未校准和未同步的相机阵列用例的情况下,提出的方法也能够提供显着的收益。
translated by 谷歌翻译