当动作集具有良好的曲率时,我们在任何线性匪徒算法产生的设计矩阵的特征矩阵上介绍了一个非呈现的下限。具体而言,我们表明,每当算法的预期累积后悔为$ o(\ sqrt {n})$时,预期设计矩阵的最低特征值将随着$ \ omega(\ sqrt {n})$的增长而生长为$ n $是学习范围,动作空间在最佳臂周围具有恒定的Hessian。这表明,这种作用空间在离散(即分离良好的)动作空间中迫使多项式下限而不是对数下限,如\ cite {lattimore2017end}所示。此外,虽然先前的结果仅在渐近方案(如$ n \ to \ infty $)中保留,但我们对这些``本地富裕的''动作空间的结果随时都在。此外,在温和的技术假设下,我们以高概率获得了对最小本本特征值的相似下限。我们将结果应用于两个实用的方案 - \ emph {model selection}和\ emph {clustering}在线性匪徒中。对于模型选择,我们表明了一个基于时期的线性匪徒算法适应了真实模型的复杂性,以时代数量的速率指数,借助我们的新频谱结合。对于聚类,我们考虑了一个多代理框架,我们通过利用光谱结果,该框架来证明该框架,该框架,该框架,该框架通过光谱结果,该频谱结果,该框架的结果,该频谱结果,该框架的结果,该频谱结果该框架,该框架的结果不需要强制探索 - 代理商可以运行线性匪徒算法并立即估算其基本参数,从而产生低遗憾。
translated by 谷歌翻译
我们考虑在一般函数近似下,考虑了经典增强学习(RL)环境的模型选择 - 多武装强盗(mAb)和马尔可夫决策过程(MDPS)。在模型选择框架中,我们不知道函数类,由$ \ MATHCAL {F} $和$ \ MATHCAL {M} $表示,其中True Models-奖励MABS的奖励生成函数以及MDPS的过渡内核 - - 分别撒谎。取而代之的是,我们获得了$ M $嵌套功能(假设)类,使得真正的模型包含在至上的类别中。在本文中,我们提出并分析了MAB和MDP的有效模型选择算法,将\ Emph {Adapt} \ emph {Adapt}到最小的函数类(在嵌套的$ M $类中),其中包含真实的基础模型。在嵌套假设类别的可分离性假设下,我们表明我们的自适应算法的累积后悔与知道正确功能类(即$ \ cf $和$ \ cm $)的Oracle的累积后悔相匹配。此外,对于这两种设置,我们都表明,模型选择的成本是一个遗憾的术语,因为它对学习范围$ t $的弱(对数)依赖性弱(对数)。
translated by 谷歌翻译
我们考虑在差异隐私(DP)的分布式信任模型下考虑标准的$ k $武装匪徒问题,该问题使得无需可信赖的服务器保证隐私。在此信任模型下,先前的工作主要集中在使用Shuffle协议实现隐私,在此过程中,在发送到中央服务器之前,将一批用户数据随机排列。通过牺牲额外的添加剂$ o \!\ left(\!\ frac {k \ log t \ sqrt {\ log(1/\ delta)}} } {\ epsilon} \!\ right)\!$在$ t $ - 步骤累积遗憾中成本。相比之下,在广泛使用的中央信托模型下实现更强($ \ epsilon,0 $)或纯dp保证的最佳隐私成本仅为$ \ theta \!\ left(\!\ frac {k \ log t t t } {\ epsilon} \!\ right)\!$,但是,需要一个受信任的服务器。在这项工作中,我们旨在获得分布式信托模型下的纯DP保证,同时牺牲比中央信托模型的遗憾。我们通过基于连续的ARM消除设计通用的匪徒算法来实现这一目标,在这种情况下,通过使用安全的计算协议确保使用等效的离散拉普拉斯噪声来损坏奖励来保证隐私。我们还表明,当使用Skellam噪声和安全协议实例化时,我们的算法可确保\ emph {r \'{e} nyi差异隐私} - 一个比分布式信任模型的近似dp更强的概念$ o \!\ left(\!\ frac {k \ sqrt {\ log t}}}} {\ epsilon} \!\ right)\!$。
translated by 谷歌翻译
我们重新审视混合技术的方法,也称为拉普拉斯法,以研究通用指数家族中的浓度现象。将与家族的对数分区功能相关的Bregman差异的性质与超级木制混合物的方法相关联,我们建立了一个通用的结合,以控制家族参数与参数的有限样本估算之间的Bregman差异。我们的界限是时间均匀的,并且看起来很大,将经典信息增益扩展到指数式家庭,我们称之为Bregman信息收益。对于从业者而言,我们实例化了这本小说绑定到几个古典家庭,例如高斯,伯努利,指数,威布尔,帕雷托,帕尔托,泊松和卡方和卡方,从而产生了置信度的明确形式和布雷格曼信息的收益。我们从数值上进一步将所得的置信度界限与最先进的替代方案进行比较,以使其均匀浓度,并表明这种新颖的方法会产生竞争结果。最后,我们强调了集中界对某些说明性应用的好处。
translated by 谷歌翻译
在差异隐私(DP)的约束下,我们在有限地域表格马尔可夫决策过程(MDP)中研究了遗憾最小化。这是由强化学习(RL)在现实世界顺序决策中的广泛应用程序的推动,保护用户敏感和私人信息变得最大程度。我们考虑了两种DP - 关节DP(JDP)的变体,其中集中式代理负责保护用户的敏感数据和本地DP(LDP),其中需要直接在用户端保护信息。我们首先提出了两个一般框架 - 一个用于策略优化,另一个用于迭代 - 用于设计私有,乐观的RL算法。然后,我们将这些框架实例化了合适的隐私机制来满足JDP和LDP要求,并同时获得Sublinear遗憾担保。遗憾的界限表明,在JDP下,隐私费用只是较低的秩序添加剂项,而在LDP下,对于更强的隐私保护,遭受的成本是乘法的。最后,通过统一的分析获得了遗憾范围,我们相信,我们相信,可以超出表格MDP。
translated by 谷歌翻译
我们解决了有限地平线的模型选择的问题,用于转换内核$ P ^ * $属于一个型号$ \ mathcal {p} ^ * $的offultic公制熵。在模型选择框架中,而不是$ \ mathcal {p} ^ * $,我们被给予了$ m $嵌套的转换内核rested interned内核$ \ cp_1 \ subset \ cp_2 \ subset \ ldots \ subset \ cp_m $。我们提出并分析了一种新颖的算法,即\ EMPH {自适应增强学习(常规)}(\ texttt {arl-gen}),它适应真正的转换内核$ p ^ * $谎言的最小这些家庭。 \ texttt {arl-gen}使用具有价值目标回归的上置信度强化学习(\ texttt {Ucrl})算法作为Blackbox,并在每个时代的开头放置模型选择模块。在模型类上的温和可分离性假设下,我们显示\ texttt {arl-gen}获得$ \ tilde {\ mathcal {o}}的后悔(d _ {\ mathcal {e}} ^ * h ^ 2 + \ sqrt {d _ {\ mathcal {e}} ^ * \ mathbb {m} ^ * h ^ 2 t})$,具有高概率,其中$ h $是地平线长度,$ t $是步骤总数, $ d _ {\ mathcal {e}} ^ * $是ecured维度和$ \ mathbb {m} ^ * $是与$ \ mathcal {p} ^ * $相对应的度量熵。请注意,这一遗憾缩放匹配Oracle的Oracle,它提前了解$ \ mathcal {p} ^ * $。我们表明,对于\ texttt {arl-gen}的模型选择成本是一个附加术语,遗憾是对$ t $的弱点。随后,我们删除可分离假设,并考虑线性混合MDP的设置,其中转换内核$ P ^ * $具有线性函数近似。通过这种低等级结构,我们提出了新颖的自适应算法,用于模型选择,并获得(令人令人令)与Oracle的遗憾相同,具有真正的模型类。
translated by 谷歌翻译
我们认为在情节环境中的强化学习(RL)中的遗憾最小化问题。在许多实际的RL环境中,状态和动作空间是连续的或非常大的。现有方法通过随机过渡模型的低维表示或$ q $ functions的近似值来确定遗憾的保证。但是,对国家价值函数的函数近似方案的理解基本上仍然缺失。在本文中,我们提出了一种基于在线模型的RL算法,即CME-RL,该算法将过渡分布的表示形式学习为嵌入在复制的内核希尔伯特领域中的嵌入,同时仔细平衡了利用探索 - 探索权衡取舍。我们通过证明频繁的(最糟糕的)遗憾结束了$ \ tilde {o} \ big(h \ gamma_n \ sqrt {n} \ big)$ \ footnote {$ footnote {$ tilde {$ o}(\ cdot)$仅隐藏绝对常数和poly-logarithmic因素。},其中$ h $是情节长度,$ n $是时间步长的总数,$ \ gamma_n $是信息理论数量国家行动特征空间的有效维度。我们的方法绕过了估计过渡概率的需求,并适用于可以定义内核的任何域。它还为内核方法的一般理论带来了新的见解,以进行近似推断和RL遗憾的最小化。
translated by 谷歌翻译
关键酶生成旨在生成最能描述给定文档的短语(关键程令)。在学术领域中,目前对这项任务的方法是神经方法,并且在很大程度上仅仅用文章的标题和摘要工作。在这项工作中,我们探讨了从语义相似的文章或给定文章的完整文章中额外数据的集成是否有助于神经关键关键关键基本生成模型。我们发现,特别是以文章摘要的形式添加了完整文本的句子,可以显着改善来自标题和摘要的存在或缺席的两种类型的关键效果的生成。在三个广泛的型号上的实验结果以及适合较长文档的最新变压器模型之一,龙绿者编码器 - 解码器(LED)验证了观察。我们还提供了一个新的大型学术数据集Fulltextkp,用于关键斑点生成,我们用于我们的实验。与现有大规模数据集不同,FullTextkp包括与标题和摘要的文章的完整文本。我们将发布源代码以激发拟议想法的研究。
translated by 谷歌翻译
关键级生成是生成短语(关键词)的任务,该任务总结了给定文档的主要主题。生成的kephrass可以从给定文档的文本存在或不存在。虽然目前的关键术后的提取在过去受到了很多关注的时候,但最近只有更强大的重点是在不存在的关键时代的产生上。但是,生成缺席的关键酶非常具有挑战性;即使是最好的方法也只显示了适度的成功程度。在本文中,我们提出了一种叫做关键症辍学(或KPDROP)的方法,以改善缺乏关键酶生成。我们随机删除文件中的关键短脉冲,并在培训期间将它们变为人为缺席的关键。我们广泛地测试了我们的方法,并表明它一直提高关键正版生成中强基线的不存在性能。
translated by 谷歌翻译
The usage of technologically advanced devices has seen a boom in many domains, including education, automation, and healthcare; with most of the services requiring Internet connectivity. To secure a network, device identification plays key role. In this paper, a device fingerprinting (DFP) model, which is able to distinguish between Internet of Things (IoT) and non-IoT devices, as well as uniquely identify individual devices, has been proposed. Four statistical features have been extracted from the consecutive five device-originated packets, to generate individual device fingerprints. The method has been evaluated using the Random Forest (RF) classifier and different datasets. Experimental results have shown that the proposed method achieves up to 99.8% accuracy in distinguishing between IoT and non-IoT devices and over 97.6% in classifying individual devices. These signify that the proposed method is useful in assisting operators in making their networks more secure and robust to security breaches and unauthorized access.
translated by 谷歌翻译