神经网络是通用函数近似器,尽管过度参数过多,但已知可以很好地概括。我们从神经网络的光谱偏置的角度研究了这种现象。我们的贡献是两个方面。首先,我们通过利用与有限元方法理论的联系来为Relu神经网络的光谱偏置提供理论解释。其次,基于该理论,我们预测将激活函数切换到分段线性B-Spline(即HAT函数)将消除这种频谱偏置,我们在各种设置中进行经验验证。我们的经验研究还表明,使用随机梯度下降和ADAM对具有HAT激活功能的神经网络进行了更快的训练。结合以前的工作表明,HAT激活功能还提高了图像分类任务的概括精度,这表明使用HAT激活在某些问题上具有重大优势。
translated by 谷歌翻译
在本文中,我们研究了与具有多种激活函数的浅神经网络相对应的变异空间的近似特性。我们介绍了两个主要工具,用于估计这些空间的度量熵,近似率和$ n $宽度。首先,我们介绍了平滑参数化词典的概念,并在非线性近似速率,度量熵和$ n $ widths上给出了上限。上限取决于参数化的平滑度。该结果适用于与浅神经网络相对应的脊功能的字典,并且在许多情况下它们的现有结果改善了。接下来,我们提供了一种方法,用于下限度量熵和$ n $ widths的变化空间,其中包含某些类别的山脊功能。该结果给出了$ l^2 $ approximation速率,度量熵和$ n $ widths的变化空间的急剧下限具有界变化的乙状结激活函数。
translated by 谷歌翻译
语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译
国际危机如何展开?我们将国际关系概念化为对手之间的战略国际象棋游戏,并开发了一种系统的方法,以准确且一致的历史准确,一致地测量碎片,移动和gam。我们基于国际危机行为(ICB)项目的非常高质量的叙事语料库,介绍了一个名为ICBE的国际事件的新本体和数据集。我们证明,ICBE的覆盖范围,召回和精度比现有数据集的现有状态更高,并进行了两项关于古巴导弹危机(1962)和Crimea-Donbas危机(2014)的详细案例研究。我们进一步介绍了两个新的事件可视化(事件Icongraphy和危机地图),这是一种使用自然语言处理(Sythnetic叙述)测量事件召回的自动基准,以及用于客观测量事件精确度的本体论重建任务。我们在伴侣网站www.crisisevents.org和github存储库中提供数据,在线附录,复制材料以及可视化的可视化材料和可视化。
translated by 谷歌翻译
近似贝叶斯推理方法提供强大的工具套件,用于查找近似的难治性后部分布。然而,机器学习应用程序通常涉及选择动作,即在贝叶斯设置中 - 仅通过其对预期实用程序的贡献取决于后部分布。因此,损失校准的近似推理方法的成长工作体也寻求开发对实用功能的影响敏感的后近似。在这里,我们引入损失校准期望传播(丢失-EP),期望传播的损失校准变体。该方法类似于标准EP,其附加因素“倾斜”后部朝向更高实用的决策。我们将应用程序在二元实用程序函数下向高斯进程分类进行应用于虚假负和假阳性错误的不对称惩罚,并展示该不对称性如何对近似捕获的信息“有用”具有巨大的后果。
translated by 谷歌翻译
神经网络的越来越大的规模及其越来越多的应用空间对更高的能量和记忆有效的人工智能特定硬件产生了需求。 venues为了缓解主要问题,von neumann瓶颈,包括内存和近记忆架构,以及算法方法。在这里,我们利用磁隧道结(MTJ)的低功耗和固有的二进制操作来展示基于MTJ的无源阵列的神经网络硬件推断。通常,由于设备到装置的变化,写入误差,寄生电阻和非前沿,在性能下将训练的网络模型转移到推动的硬件。为了量化这些硬件现实的效果,我们将300个唯一重量矩阵解决方案的23个唯一的重量矩阵解决方案进行分类,以分类葡萄酒数据集,用于分类准确性和写真保真度。尽管设备不完美,我们可以实现高达95.3%的软件等效精度,并在15 x 15 MTJ阵列中正确调整具有一系列设备尺寸的阵列。此调谐过程的成功表明,需要新的指标来表征混合信号硬件中再现的网络的性能和质量。
translated by 谷歌翻译
解决逆运动学问题是针对清晰机器人的运动计划,控制和校准的基本挑战。这些机器人的运动学模型通常通过关节角度进行参数化,从而在机器人构型和最终效果姿势之间产生复杂的映射。或者,可以使用机器人附加点之间的不变距离来表示运动学模型和任务约束。在本文中,我们将基于距离的逆运动学的等效性和大量铰接式机器人和任务约束的距离几何问题进行形式化。与以前的方法不同,我们使用距离几何形状和低级别矩阵完成之间的连接来通过局部优化完成部分欧几里得距离矩阵来找到逆运动学解决方案。此外,我们用固定级革兰氏矩阵的Riemannian歧管来参数欧几里得距离矩阵的空间,从而使我们能够利用各种成熟的Riemannian优化方法。最后,我们表明,绑定的平滑性可用于生成知情的初始化,而无需大量的计算开销,从而改善收敛性。我们证明,我们的逆运动求解器比传统技术获得更高的成功率,并且在涉及许多工作区约束的问题上大大优于它们。
translated by 谷歌翻译
Here we present a machine learning framework and model implementation that can learn to simulate a wide variety of challenging physical domains, involving fluids, rigid solids, and deformable materials interacting with one another. Our framework-which we term "Graph Network-based Simulators" (GNS)-represents the state of a physical system with particles, expressed as nodes in a graph, and computes dynamics via learned message-passing. Our results show that our model can generalize from single-timestep predictions with thousands of particles during training, to different initial conditions, thousands of timesteps, and at least an order of magnitude more particles at test time. Our model was robust to hyperparameter choices across various evaluation metrics: the main determinants of long-term performance were the number of message-passing steps, and mitigating the accumulation of error by corrupting the training data with noise. Our GNS framework advances the state-of-the-art in learned physical simulation, and holds promise for solving a wide range of complex forward and inverse problems.
translated by 谷歌翻译
三维荧光显微镜通常遭受各向异性的影响,沿轴向方向的分辨率低于侧面成像平面内的分辨率。我们通过提出双周期来解决此问题,这是双环荧光图像的关节反卷积和融合的新框架。受到最近的神经清性方法的启发,双周期被设计为一种循环一致的生成网络,通过结合双视发电机和先前引导的退化模型,以自我监督的方式训练。我们在合成数据和真实数据上验证双周期,显示其最先进的性能,而无需任何外部培训数据。
translated by 谷歌翻译
通过查找图像可能不满意的图像来捕获对象检测器的错误行为,这一兴趣很长。在实际应用(例如自动驾驶)中,对于表征除了简单的检测性能要求之外的潜在失败也至关重要。例如,与远处未遗漏的汽车检测相比,错过对靠近自我车辆的行人的侦查通常需要更仔细的检查。在测试时间预测这种潜在失败的问题在文献和基于检测不确定性的传统方法中被忽略了,因为它们对这种错误的细粒度表征不可知。在这项工作中,我们建议将查找“硬”图像作为基于查询的硬图像检索任务的问题进行重新制定,其中查询是“硬度”的特定定义,并提供了一种简单而直观的方法,可以解决此任务大型查询家庭。我们的方法完全是事后的,不需要地面真相注释,独立于检测器的选择,并且依赖于有效的蒙特卡洛估计,该估计使用简单的随机模型代替地面真相。我们通过实验表明,它可以成功地应用于各种查询中,它可以可靠地识别给定检测器的硬图像,而无需任何标记的数据。我们使用广泛使用的视网膜,更快的RCNN,Mask-RCNN和CASCADE MASK-RCNN对象检测器提供有关排名和分类任务的结果。
translated by 谷歌翻译