神经网络(NNS)对研究和行业进行了很大的影响。然而,随着NNS的准确性增加,它之后的大小是扩展,所需的计算操作数量和能量消耗。资源消费的增加导致NNS减少的采用率和现实世界部署不切实际。因此,需要压缩NNS以使它们可用于更广泛的受众,同时降低其运行时成本。在这项工作中,我们从因果推理的角度来处理这一挑战,我们提出了一个评分机制,以促进NNS的结构灌注。该方法基于在最大熵扰动下测量互信息,顺序地通过NN传播。我们展示了两种数据集和各种NNS尺寸的方法的表现,我们表明我们的方法在挑战条件下实现了竞争性能。
translated by 谷歌翻译
用于图形组合优化问题的神经网络溶剂的端到端培训,例如旅行销售人员问题(TSP)最近看到了感兴趣的激增,但在几百节节点的图表中保持棘手和效率低下。虽然最先进的学习驱动的方法对于TSP在培训的古典索引时与古典求解器密切相关,但它们无法通过实际尺度的实际情况概括到更大的情况。这项工作提出了一个端到端的神经组合优化流水线,统一几个卷纸,以确定促进比在训练中看到的实例的概括的归纳偏差,模型架构和学习算法。我们的受控实验提供了第一个原则上调查这种零拍摄的概括,揭示了超越训练数据的推断需要重新思考从网络层和学习范例到评估协议的神经组合优化流水线。此外,我们分析了深入学习的最近进步,通过管道的镜头路由问题,并提供新的方向,以刺激未来的研究。
translated by 谷歌翻译
培训最先进模型所需的基础设施变得过于昂贵,这使得培训此类模型仅适用于大型公司和机构。最近的工作提出了几种协作培训此类模型的方法,即通过将许多独立方的硬件汇总在一起,并通过Internet培训共享模型。在此演示中,我们合作培训了类似于Openai Dall-E的文本到图像变压器。我们邀请观众加入正在进行的训练运行,向他们展示有关如何使用可用硬件贡献的说明。我们解释了如何应对与此类训练运行相关的工程挑战(缓慢的沟通,有限的内存,设备之间的性能不均和安全问题),并讨论了观众如何设置协作培训。最后,我们表明所得模型在许多提示上生成了合理质量的图像。
translated by 谷歌翻译
人类在对话中提出的问题通常包含上下文依赖性,即对先前对话转弯的明确或隐式引用。这些依赖性采用核心发挥的形式(例如,通过代词使用)或椭圆形,并且可以使自动化系统的理解难以理解。促进对问题的理解和后续治疗方法的一种方法是将其重写为不受欢迎的形式,即可以理解的形式而没有对话性上下文。我们提出了Coqar,Coqar是一种语料库,其中包含$ 4.5 $ k的对话中的对话询问数据集COQA,总计$ 53 $ K的后续提问 - 答案对。每个原始问题都在至少2个脱离台面重写中手动注释。 COQAR可用于监督三个任务的监督:问题释义,问题重写和会话问题回答。为了评估Coqar重写的质量,我们进行了几项实验,包括培训和评估这三个任务的模型。我们的结果支持以下想法:问题重写可以用作问题回答模型的预处理步骤,从而提高其性能。
translated by 谷歌翻译
在人类的对话中,省略号和核心通常是语言现象。尽管这些现象是使人机对话更加流利和自然的平均值,但只有很少的对话语料库包含明确的指示,其中包含椭圆和/或核心。在本文中,我们解决了自动检测到对话率问答中省略号和核心发作的任务。我们建议使用基于Distilbert的多标签分类器。使用多标签分类和主动学习来补偿有限的标记数据。我们表明,这些方法极大地增强了分类器在手动标记数据集中检测这些现象的性能。
translated by 谷歌翻译
数值验证是机器学习研究的核心,因为它允许评估新方法的实际影响,并确认理论和实践之间的一致性。然而,该领域的快速发展构成了一些挑战:研究人员面临着大量的方法来比较,有限的透明度和最佳实践的共识以及乏味的重新实施工作。结果,验证通常是非常部分的,这可能会导致错误的结论,从而减慢研究的进展。我们提出了Benchopt,这是一个协作框架,旨在在跨编程语言和硬件体系结构的机器学习中自动化,复制和发布优化基准。 Benchopt通过提供用于运行,共享和扩展实验的现成工具来简化社区的基准测试。为了展示其广泛的可用性,我们在三个标准学习任务上展示基准:$ \ ell_2 $ regulaine的逻辑回归,套索和RESNET18用于图像分类的培训。这些基准强调了关键的实际发现,这些发现对这些问题的最新问题更加细微,这表明在实际评估中,魔鬼在细节上。我们希望Benchopt能在社区中促进合作工作,从而改善研究结果的可重复性。
translated by 谷歌翻译
近年来出现的一种意外技术包括使用自我监督学习(SSL)方法培训深网(DN),并在下游任务上使用此网络,但其最后几层已完全删除。这种通常的脱脂技巧实际上对于SSL方法显示竞争性表演至关重要。例如,在成像网分类上,可以以这种方式获得超过30个百分比。这有点令人烦恼,因为人们希望在训练期间SSL标准明确执行不变性的网络层(最后一层)应该是用于下游最佳概括性能的一种。但这似乎并非如此,这项研究阐明了原因。我们将这种技巧称为断头台正则化(GR),实际上是一种普遍适用的正则化形式,也已用于改善转移学习方案中的泛化性能。在这项工作中,通过理论和实验,我们将GR形式化并确定其在SSL方法中成功背后的根本原因。我们的研究表明,这种技巧对于SSL的性能至关重要,原因有两个:(i)确定训练过程中使用的正面对的数据启发不当,和/或(ii)次优选择了该训练的超参数。 SSL损失。
translated by 谷歌翻译
在过去的几年中,按照可区分的编程范式,人们对计算物理过程的梯度信息(例如,物理模拟,图像渲染)的梯度越来越兴趣。但是,此类过程可能是不可差异的,也可能产生非信息性梯度(I.D.几乎到处都是无效的)。当面对以前的陷阱时,通过分析表达或数值技术(例如自动分化和有限差异)估算的梯度使经典优化方案融合到质量较差的解决方案中。因此,仅依靠这些梯度提供的本地信息通常不足以解决涉及此类物理过程的高级优化问题,尤其是当它们受到非平滑度和不稳定性问题的影响。零订单优化,我们通过估计邻域中的梯度来利用随机平滑来增强可微分的物理。我们的实验表明,在优化算法中整合这种方法可能对像网格重建的任务相似,从图像或对机器人系统的最佳控制也有所不同。
translated by 谷歌翻译
医疗机器人技术可以帮助改善和扩大医疗服务的影响力。医疗机器人的一个主要挑战是机器人与患者之间的复杂物理相互作用是必须安全的。这项工作介绍了基于医疗应用中分形阻抗控制(FIC)的最近引入的控制体系结构的初步评估。部署的FIC体系结构在主机和复制机器人之间延迟很强。它可以在接纳和阻抗行为之间在线切换,并且与非结构化环境的互动是强大的。我们的实验分析了三种情况:远程手术,康复和远程超声扫描。实验不需要对机器人调整进行任何调整,这在操作员没有调整控制器所需的工程背景的医疗应用中至关重要。我们的结果表明,可以使用手术刀进行切割机器人,进行超声扫描并进行远程职业治疗。但是,我们的实验还强调了需要更好的机器人实施例,以精确控制3D动态任务中的系统。
translated by 谷歌翻译
将间歇性可再生能源集成到大量的电网中是具有挑战性的。旨在解决这一困难的建立良好的方法涉及即将到来的能源供应可变性以适应电网的响应。在太阳能中,可以在全天空摄像机(前方30分钟)和卫星观测(提前6小时)的不同时间尺度上预测由遮挡云引起的短期变化。在这项研究中,我们将这两种互补的观点集成到单个机器学习框架中的云覆盖物上,以改善时间内(最高60分钟)的辐照度预测。确定性和概率预测均在不同的天气条件(晴朗,多云,阴天)以及不同的输入配置(天空图像,卫星观测和/或过去的辐照度值)中进行评估。我们的结果表明,混合模型在晴朗的条件下有益于预测,并改善了长期预测。这项研究为将来的新颖方法奠定了基础,即在单个学习框架中将天空图像和卫星观测结合起来,以推动太阳现象。
translated by 谷歌翻译