语义细分是计算机视觉中的一个流行研究主题,并且在其上做出了许多努力,结果令人印象深刻。在本文中,我们打算搜索可以实时运行此问题的最佳网络结构。为了实现这一目标,我们共同搜索深度,通道,扩张速率和特征空间分辨率,从而导致搜索空间约为2.78*10^324可能的选择。为了处理如此大的搜索空间,我们利用差异架构搜索方法。但是,需要离散地使用使用现有差异方法搜索的体系结构参数,这会导致差异方法找到的架构参数与其离散版本作为体系结构搜索的最终解决方案之间的离散差距。因此,我们从解决方案空间正则化的创新角度来缓解离散差距的问题。具体而言,首先提出了新型的解决方案空间正则化(SSR)损失,以有效鼓励超级网络收敛到其离散。然后,提出了一种新的分层和渐进式解决方案空间缩小方法,以进一步实现较高的搜索效率。此外,我们从理论上表明,SSR损失的优化等同于L_0-NORM正则化,这说明了改善的搜索评估差距。综合实验表明,提出的搜索方案可以有效地找到最佳的网络结构,该结构具有较小的模型大小(1 m)的分割非常快的速度(175 fps),同时保持可比较的精度。
translated by 谷歌翻译
元学习在有限的监督数据中表现出了几次学习的巨大成功。在这些设置中,元模型通常被过度参数化。尽管常规的统计学习理论表明,过度参数化的模型倾向于过度合适,但经验证据表明,过度参数化的元学习方法仍然很好地工作 - 这种现象通常称为``良性过度拟合''。我们了解这种现象,我们专注于元学习设置,我们将具有挑战性的嵌套结构称为嵌套的元学习,并在过度参数化的元学习模型下分析其泛化性能。尽管我们的分析使用了相对可牵引的线性模型,但我们的理论有助于理解数据异质性,模型适应和良性过度适应嵌套元学习任务之间的微妙相互作用。我们通过数值模拟证实了我们的理论主张。
translated by 谷歌翻译
我们在本文中重新审视语义场景(SSC),是预测3D场景的语义和占用表示的有用任务。此任务的许多方法始终基于用于保存本地场景结构的体蛋白化场景表示。然而,由于存在可见空体素,当网络更深时,这些方法总是遭受重型计算冗余,从而限制完成质量。为了解决这种困境,我们提出了我们为此任务的新型点体素聚集网络。首先,我们通过去除这些可见的空体素来将Voxized场景传输到点云,并采用深点流,以有效地从场景中捕获语义信息。同时,仅包含两个3D卷积层的轻重体素流保留了体蛋白化场景的局部结构。此外,我们设计一个各向异性体素聚合运算符,将结构细节从体素流融合到点流中,并通过语义标签来增强点流中的上采样过程的语义感知传播模块。我们展示了我们的模型在两个基准上超越了最先进的余量,只有深度图像作为输入。
translated by 谷歌翻译
机械化新鲜市场水果的手工采伐构成了水果产业可持续性的最大挑战之一。在手动收获草莓和桌葡萄等新鲜市场作物时,拾取器花费大量的时间行走,将全托盘携带到领域边缘的收集站。增加对这种作物的收获自动化的一步是部署运输空和全托盘的收获辅助协作机器人(共用机器人),从而通过减少拾取器的非生产步行时间来增加收获效率。这项工作介绍了在商业草莓收获过程中开发合作机器收获援助系统及其评估。在系统的核心上,提示了一种预测随机调度算法,其最小化了预期的非拾取时间,从而最大化了收获效率。在评估实验期间,当机器人到拾取器的比例为1:3时,共同机器人将平均收获效率提高约10%并将平均非生产时间减少60%。在这项工作中开发的概念可以应用于机器人收获艾滋病,用于其他手动收获的作物,这些作物涉及用于行走的作物运输。
translated by 谷歌翻译
汤普森抽样(TS)吸引了对强盗区域的兴趣。它在20世纪30年代介绍,但近年来尚未经过理论上证明。其在组合多武装强盗(CMAB)设置中的所有分析都需要精确的Oracle来提供任何输入的最佳解决方案。然而,这种Oracle通常是不可行的,因为许多组合优化问题是NP - 硬,并且只有近似oracles可用。一个例子(王和陈,2018)已经表明TS的失败来学习近似Oracle。但是,此Oracle罕见,仅用于特定问题实例。它仍然是一个开放的问题,无论TS的收敛分析是否可以扩展到CMAB中的精确oracle。在本文中,我们在贪婪的Oracle下研究了这个问题,这是一个常见的(近似)Oracle,具有理论上的保证来解决许多(离线)组合优化问题。我们提供了一个问题依赖性遗憾的遗憾下限为$ \ omega(\ log t / delta ^ 2)$,以量化Ts的硬度来解决贪婪的甲骨文的CMAB问题,其中$ T $是时间范围和$ Delta $是一些奖励差距。我们还提供几乎匹配的遗憾上限。这些是TS解决CMAB与常见近似甲骨文的第一个理论结果,并打破TS无法使用近似神谕的误解。
translated by 谷歌翻译
考虑$ k $过程,每个过程都会生成一系列相同和独立的随机变量。这些过程的概率度量具有必须估计的随机参数。具体而言,它们共享一个参数$ \ theta $,所有概率度量共同。此外,每个过程$ i \ in \ {1,\ dots,k \} $都有一个私有参数$ \ alpha_i $。目的是设计一种主动采样算法,以顺序估算这些参数,以形成所有样品数量最少的共享和私有参数的可靠估计。该采样算法具有三个关键组件:(i)〜数据驱动的采样决策,随着时间的推移,该决策逐渐指定应选择哪些$ k $过程进行采样; (ii)〜停止该过程的时间,该过程指定何时累积数据足以形成可靠的估计并终止采样过程; (iii)〜所有共享和私人参数的估计器。由于已知的顺序估计在分析上是棘手的,因此本文采用\ emph {条件}估计成本函数,从而导致了顺序估计方法,该方法最近被证明可以进行拖延分析。划定了渐近的最佳决策规则(采样,停止和估计),并提供了数值实验,以将所提出的程序的疗效和质量与相关方法进行比较。
translated by 谷歌翻译
视觉和听觉信息对于确定视频中的显着区域都是有价值的。深度卷积神经网络(CNN)展示了应对视听显着性预测任务的强大能力。由于各种因素,例如拍摄场景和天气,源训练数据和目标测试数据之间通常存在适度的分布差异。域差异导致CNN模型目标测试数据的性能降解。本文提前尝试解决视听显着性预测的无监督域适应问题。我们提出了一种双重域交流学习算法,以减轻源数据和目标数据之间的域差异。首先,建立了一个特定的域歧视分支,以对齐听觉功能分布。然后,这些听觉功能通过跨模式自我发项模块融合到视觉特征中。设计了其他域歧视分支,以减少视觉特征的域差异和融合视听特征所隐含的视听相关性的差异。公共基准测试的实验表明,我们的方法可以减轻域差异引起的性能降解。
translated by 谷歌翻译
为了使视频模型能够在不同环境中无缝应用,已经提出了各种视频无监督的域适应性(VUDA)方法来提高视频模型的鲁棒性和可传递性。尽管模型鲁棒性有所改进,但这些VUDA方法仍需要访问源数据和源模型参数以进行适应,从而提高了严重的数据隐私和模型可移植性问题。为了应对上述问题,本文首先将Black-Box视频域的适应(BVDA)制定为更现实但具有挑战性的场景,在该场景中,仅作为Black-Box预测器提供了源视频模型。尽管在图像域中提出了一些针对黑框域适应性(BDA)的方法,但这些方法不能适用于视频域,因为视频模式具有更复杂的时间特征,难以对齐。为了解决BVDA,我们通过应用蒙版到混合策略和视频量的正则化:内部正规化和外部正规化,提出了一个新颖的内野和外部正规化网络(EXTERS),在剪辑和时间特征上执行,并进行外部正规化,同时将知识从从黑框预测变量获得的预测中提炼出来。经验结果表明,在各种跨域封闭设置和部分集合动作识别基准中,外部的最先进性能甚至超过了具有源数据可访问性的大多数现有视频域适应方法。
translated by 谷歌翻译
大规模的神经网络具有相当大的表现力。它们非常适合工业应用中的复杂学习任务。但是,在当前联邦学习(FL)范式下,大型模型对训练构成了重大挑战。现有的有效FL训练的方法通常利用模型参数辍学。但是,操纵单个模型参数不仅在训练大规模FL模型时有意义地减少通信开销效率低下,而且还可能不利于缩放工作和模型性能,如最近的研究所示。为了解决这些问题,我们提出了联合的机会障碍辍学方法(FEDOBD)方法。关键的新颖性是,它将大规模模型分解为语义块,以便FL参与者可以机会上传量化的块,这些块被认为对训练该模型非常重要,以供FL服务器进行聚合。基于多个现实世界数据集的五种最先进方法评估FEDOBD的广泛实验表明,与最佳性能基线方法相比,它将整体通信开销降低了70%以上,同时达到了最高的测试准确性。据我们所知,FEDOBD是在块级别而不是在单个参数级别上执行FL模型上辍学的第一种方法。
translated by 谷歌翻译
在许多现实世界应用中,例如市场和医学,基于短期替代物的长期因果影响是一个重大但具有挑战性的问题。尽管在某些领域取得了成功,但大多数现有方法以理想主义和简单的方式估算了因果影响 - 忽略了短期结果之间的因果结构,而将所有这些因果关系视为代孕。但是,这种方法不能很好地应用于现实世界中,其中部分观察到的替代物与短期结局中的代理混合在一起。为此,我们开发了灵活的方法激光器,以估计在更现实的情况下观察或观察到代理的更现实的情况。 (ivae)在所有候选者上恢复所有有效的替代物,而无需区分观察到的替代物或潜在代理人的代理。在回收的替代物的帮助下,我们进一步设计了对长期因果影响的公正估计。关于现实世界和半合成数据集的广泛实验结果证明了我们提出的方法的有效性。
translated by 谷歌翻译