汤普森抽样(TS)吸引了对强盗区域的兴趣。它在20世纪30年代介绍,但近年来尚未经过理论上证明。其在组合多武装强盗(CMAB)设置中的所有分析都需要精确的Oracle来提供任何输入的最佳解决方案。然而,这种Oracle通常是不可行的,因为许多组合优化问题是NP - 硬,并且只有近似oracles可用。一个例子(王和陈,2018)已经表明TS的失败来学习近似Oracle。但是,此Oracle罕见,仅用于特定问题实例。它仍然是一个开放的问题,无论TS的收敛分析是否可以扩展到CMAB中的精确oracle。在本文中,我们在贪婪的Oracle下研究了这个问题,这是一个常见的(近似)Oracle,具有理论上的保证来解决许多(离线)组合优化问题。我们提供了一个问题依赖性遗憾的遗憾下限为$ \ omega(\ log t / delta ^ 2)$,以量化Ts的硬度来解决贪婪的甲骨文的CMAB问题,其中$ T $是时间范围和$ Delta $是一些奖励差距。我们还提供几乎匹配的遗憾上限。这些是TS解决CMAB与常见近似甲骨文的第一个理论结果,并打破TS无法使用近似神谕的误解。
translated by 谷歌翻译
揭开多个代理之间的相互作用与过去的轨迹之间的相互作用至关重要。但是,以前的作品主要考虑与有限的关系推理的静态,成对的相互作用。为了促进更全面的互动建模和关系推理,我们提出了Dyngroupnet,这是一个动态群体感知的网络,i)可以在高度动态的场景中建模时间变化的交互; ii)捕获配对和小组互动; iii)理由互动强度和类别没有直接监督。基于Dyngroupnet,我们进一步设计了一个预测系统,以预测具有动态关系推理的社会合理轨迹。提出的预测系统利用高斯混合模型,多个抽样和预测细化,分别促进预测多样性,训练稳定性和轨迹平滑度。广泛的实验表明:1)dyngroupnet可以捕获随时间变化的群体行为,在轨迹预测过程中推断时间变化的交互类别和相互作用强度,而无需在物理模拟数据集上进行任何关系监督; 2)dyngroupnet优于最先进的轨迹预测方法,其显着改善22.6%/28.0%,26.9%/34.9%,5.1%/13.0%的ADE/FDE在NBA,NFL足球和SDD Datasets上的ADE/FDE并在ETH-COY数据集上实现最先进的性能。
translated by 谷歌翻译
通过确保学习算法中的差异隐私,可以严格降低大型模型记忆敏感培训数据的风险。在本文中,我们为此目的研究了两种算法,即DP-SGD和DP-NSGD,它们首先剪辑或归一化\ textIt \ textIt {每样本}梯度以绑定灵敏度,然后添加噪声以使精确信息混淆。我们通过两个常见的假设分析了非凸优化设置中这两种算法的收敛行为,并实现了$ \ nathcal {o} \ left(\ sqrt [4] {\ frac {\ frac {d \ log(1/\ delta) )} {n^2 \ epsilon^2}} \ right)$ $ d $ - 二维模型,$ n $ samples和$(\ epsilon,\ delta)$ - dp,它改进了以前的改进在较弱的假设下的界限。具体而言,我们在DP-NSGD中引入了一个正规化因素,并表明它对融合证明至关重要,并巧妙地控制了偏见和噪声权衡。我们的证明故意处理针对私人环境指定的按样本梯度剪辑和标准化。从经验上讲,我们证明这两种算法达到了相似的最佳准确性,而DP-NSGD比DP-SGD更容易调整,因此在计算调整工作时可能有助于进一步节省隐私预算。
translated by 谷歌翻译
后门学习是研究深神经网络(DNNS)脆弱性的一个新兴而重要的话题。在快速武器竞赛的地位上,正在连续或同时提出许多开创性的后门攻击和防御方法。但是,我们发现对新方法的评估通常是不可思议的,以验证其主张和实际绩效,这主要是由于快速发展,不同的环境以及实施和可重复性的困难。没有彻底的评估和比较,很难跟踪当前的进度并设计文献的未来发展路线图。为了减轻这一困境,我们建立了一个名为Backdoorbench的后门学习的全面基准。它由一个可扩展的基于模块化的代码库(当前包括8个最先进(SOTA)攻击和9种SOTA防御算法的实现),以及完整的后门学习的标准化协议。我们还基于5个模型和4个数据集,对9个防御措施的每对8次攻击进行全面评估,总共8,000对评估。我们从不同的角度进一步介绍了对这8,000次评估的不同角度,研究了对国防算法,中毒比率,模型和数据集对后门学习的影响。 \ url {https://backdoorbench.github.io}公开获得了Backdoorbench的所有代码和评估。
translated by 谷歌翻译
最近,蒙面的预测预训练在自我监督的学习(SSL)方面取得了显着的进展,以进行语音识别。它通常需要以无监督的方式获得的代码簿,从而使其准确和难以解释。我们提出了两种监督指导的代码书生成方法,以提高自动语音识别(ASR)的性能以及预训练效率,要么通过使用混合ASR系统来解码以生成音素级别对准(命名为PBERT),要么通过在上进行集群进行聚类。从端到端CTC模型(命名CTC聚类)提取的监督语音功能。混合动力和CTC模型均经过与微调相同的少量标记语音训练。实验表明,我们的方法对各种SSL和自我训练基准的优势具有显着优势,相对减少了17.0%。我们的预训练模型在非ASR语音任务中还显示出良好的可传递性。
translated by 谷歌翻译
本文通过控制功能级别的RGB图像和深度图之间的消息,介绍了RGB-D显着对象检测的新型深神经网络框架,并探索有关RGB和深度特征的远程语义上下文和几何信息推断出明显的对象。为了实现这一目标,我们通过图神经网络和可变形的卷积制定动态消息传播(DMP)模块,以动态学习上下文信息,并自动预测消息传播控制的过滤权重和亲和力矩阵。我们将该模块进一步嵌入基于暹罗的网络中,分别处理RGB图像和深度图,并设计多级特征融合(MFF)模块,以探索精制的RGB和深度特征之间的跨级信息。与六个基准数据集上用于RGB-D显着对象检测的17种最先进的方法相比,实验结果表明,我们的方法在定量和视觉上都优于其他所有方法。
translated by 谷歌翻译
因果匪徒问题将因果推断与多军匪徒集成在一起。因果匪徒的纯粹探索是以下在线学习任务:给定一个因果关系分布未知的因果图,在每一轮中,我们可以选择干预一个变量或不进行干预,并观察所有随机变量的随机结果,并与所有随机变量进行观察使用尽可能少的回合的目标,我们可以输出一种干预措施,该干预措施在奖励变量$ y $上具有至少$ 1- \ delta $,其中$ \ delta $是一个最佳(或几乎是最好的)预期结果给定信心水平。我们在三种类型的因果模型,包括平行图,具有少量后门父母的常规图和二进制通用线性模型的三种类型的因果模型上提供了第一个完全依赖GAP的完全自适应纯探索算法。我们的算法改善了先前的因果匪徒算法,这些算法并非自适应奖励差距,也没有先前的自适应纯探索算法,它们不利用因果匪徒的特殊特征。
translated by 谷歌翻译
我们介绍了一个大规模实验,该实验对编码器进行了预处理,其参数计数范围从700m到9.3b不等,随后蒸馏到较小的型号中,范围为17m-170亿参数,其应用到自然语言理解(NLU)组件(NLU)组件(虚拟助手系统。尽管我们使用70%的口语数据训练,但在对书面形式的跨语性自然语言推论(XNLI)语料库进行评估时,我们的教师模型与XLM-R和MT5相当。我们使用系统中的内域数据对教师模型进行了第二阶段的训练,以提高了3.86%的相对分类,而相对7.01%的插槽填充。我们发现,即使是从我们的2阶段教师模型中提取的170亿参数模型,与仅接受公共数据的2.3B参数老师相比,与2.3B参数老师相比,意图分类更好2.88%,并且7.69%的插槽填充错误率更好(第1阶段),强调了。内域数据对训练的重要性。当使用标记的NLU数据进行离线评估时,我们的17m参数阶段2蒸馏模型的表现分别优于XLM-R碱基(85m Params)和Distillbert(42m Params),分别优于4.23%至6.14%。最后,我们介绍了一个完整的虚拟助手实验平台的结果,在该平台中,我们发现使用经过预训练和蒸馏管道训练的模型超过了从8500万参数教师蒸馏的模型,在自动测量全系统用户不满的自动测量中,从8500万参数教师蒸馏出3.74%-4.91%。
translated by 谷歌翻译
我们提出蒙版频率建模(MFM),这是一种基于统一的基于频域的方法,用于自我监督的视觉模型预训练。在本文中,我们将视角转移到了频域中,而不是将蒙版令牌随机插入到空间域中的输入嵌入。具体而言,MFM首先掩盖了输入图像的一部分频率分量,然后预测频谱上的缺失频率。我们的关键见解是,由于沉重的空间冗余,预测频域中的屏蔽组件更理想地揭示了基础图像模式,而不是预测空间域中的掩盖斑块。我们的发现表明,通过对蒙版和预测策略的正确配置,高频组件中的结构信息和低频对应物中的低级统计信息都有用。 MFM首次证明,对于VIT和CNN,即使没有使用以下内容,简单的非叙事框架也可以学习有意义的表示形式:(i)额外的数据,(ii)额外的模型,(iii)蒙版令牌。与最近的蒙版图像建模方法相比,对成像网和几个鲁棒性基准的实验结果表明,MFM的竞争性能和高级鲁棒性。此外,我们还全面研究了从统一的频率角度来表示经典图像恢复任务对表示学习的有效性,并揭示了他们与MFM方法的有趣关系。项目页面:https://www.mmlab-ntu.com/project/mfm/index.html。
translated by 谷歌翻译
电磁检测卫星调度问题(EDSSP)的研究引起了人们对大量目标的检测要求的关注。本文提出了一个针对EDSSP问题的混合成员编程模型,以及基于强化学习(RL-EA)的进化算法框架。在模型中考虑了影响电磁检测的许多因素,例如检测模式,带宽和其他因素。基于强化学习的进化算法框架使用Q学习框架,并且人群中的每个人都被视为代理。根据提出的框架,设计了一种基于Q的遗传算法(QGA)。 Q学习用于通过选择变异操作员来指导人口搜索过程。在算法中,我们设计了一个奖励功能来更新Q值。根据问题的特征,提出了一种新的组合,采取了行动>。 QGA还使用精英个人保留策略来提高搜索性能。之后,提出了一个任务时间窗口选择算法来评估人口进化的性能。各种量表实验用于检查所提出算法的计划效果。通过对多个实例的实验验证,可以看出QGA可以有效地解决EDSSP问题。与最新的算法相比,QGA算法在几个方面的表现更好。
translated by 谷歌翻译