电报是全球最常用的即时消息传递应用之一。其成功之所以在于提供高隐私保护和社交网络,如频道 - 虚拟房间,其中只有管理员可以发布和广播到所有订户的消息。然而,这些相同的功能促成了边界活动的出现,并且与在线社交网络一样常见,假账户的沉重存在。通过引入频道的验证和诈骗标记,电报开始解决这些问题。不幸的是,问题远未解决。在这项工作中,我们通过收集35,382个不同的渠道和超过130,000,000消息来进行大规模分析电报。我们研究电报标记为验证或骗局的渠道,突出显示类比和差异。然后,我们转到未标记的频道。在这里,我们发现一些臭名昭着的活动也存在于虚拟网络的隐私保存服务,例如梳理,共享非法成人和版权保护内容。此外,我们还确定并分析了另外两种类型的渠道:克隆和假货。克隆是发布另一个频道确切内容的频道,以获得订阅者和促进服务。相反,假货是试图冒充名人或知名服务的渠道。即使是最先进的用户甚至很难确定。要自动检测假频道,我们提出了一种机器学习模型,可以以86%的准确性识别它们。最后,我们研究了Sabmyk,这是一种阴谋理论,即利用假货和克隆在达到超过1000万用户的平台上迅速传播。
translated by 谷歌翻译
在终身环境中学习,动态不断发展,是对电流加强学习算法的艰难挑战。然而,这将是实际应用的必要特征。在本文中,我们提出了一种学习超策略的方法,其输入是时间,输出当时要查询的策略的参数。此超级策略验证,以通过引入受控偏置的成本来最大限度地提高估计的未来性能,有效地重用过去数据。我们将未来的性能估计与过去的绩效相结合,以减轻灾难性遗忘。为避免过度接收收集的数据,我们派生了我们嵌入惩罚期限的可差化方差。最后,我们在与最先进的算法相比,在逼真的环境中,经验验证了我们的方法,包括水资源管理和交易。
translated by 谷歌翻译
机器学习算法支撑现代诊断辅助软件,这在临床实践中证明了有价值的,特别是放射学。然而,不准确的是,主要是由于临床样本的可用性有限,用于培训这些算法,妨碍他们在临床医生中更广泛的适用性,接受和识别。我们对最先进的自动质量控制(QC)方法进行了分析,可以在这些算法中实现,以估计其输出的确定性。我们验证了识别磁共振成像数据中的白质超收缩性(WMH)的大脑图像分割任务上最有前途的方法。 WMH是在上层前期成年中常见的小血管疾病的关联,并且由于其变化的尺寸和分布模式而尤其具有挑战性。我们的研究结果表明,不确定度和骰子预测的聚集在此任务的故障检测中最有效。两种方法在0.82至0.84的情况下独立改善平均骰子。我们的工作揭示了QC方法如何有助于检测失败的分割案例,从而使自动分割更可靠,适合临床实践。
translated by 谷歌翻译
我们考虑使用深度神经网络时检测到(分发外)输入数据的问题,并提出了一种简单但有效的方法来提高几种流行的ood检测方法对标签换档的鲁棒性。我们的作品是通过观察到的,即大多数现有的OOD检测算法考虑整个训练/测试数据,无论每个输入激活哪个类进入(级别差异)。通过广泛的实验,我们发现这种做法导致探测器,其性能敏感,易于标记换档。为了解决这个问题,我们提出了一种类别的阈值方案,可以适用于大多数现有的OOD检测算法,并且即使在测试分布的标签偏移存在下也可以保持相似的OOD检测性能。
translated by 谷歌翻译
在实践中,非常苛刻,有时无法收集足够大的标记数据数据集以成功培训机器学习模型,并且对此问题的一个可能解决方案是转移学习。本研究旨在评估如何可转让的时间序列数据和哪些条件下的不同域之间的特征。在训练期间,在模型的预测性能和收敛速度方面观察到转移学习的影响。在我们的实验中,我们使用1,500和9,000个数据实例的减少数据集来模仿现实世界的条件。使用相同的缩小数据集,我们培训了两组机器学习模型:那些随着转移学习的培训和从头开始培训的机器学习模型。使用四台机器学习模型进行实验。在相同的应用领域(地震学)以及相互不同的应用领域(地震,语音,医学,金融)之间进行知识转移。我们在训练期间遵守模型的预测性能和收敛速度。为了确认所获得的结果的有效性,我们重复了实验七次并应用了统计测试以确认结果的重要性。我们研究的一般性结论是转移学习可能会增加或不会对模型的预测性能或其收敛速度产生负面影响。在更多细节中分析收集的数据,以确定哪些源域和目标域兼容以用于传输知识。我们还分析了目标数据集大小的效果和模型的选择及其超参数对转移学习的影响。
translated by 谷歌翻译
在本文中,我们提出了一种新的贝叶斯在线预测算法,用于局部可观察性(ATPO)下的Ad Hoc团队的问题设置,这使得与未知的队友执行未知任务的运行协作,而无需预先协调协议。与以前的作品不同,假设环境的完全可观察状态,ATPO使用代理商的观察来确定队友正在执行哪项任务的部分可观察性。我们的方法既不假设队友的行为也不是可见的,也不是环境奖励信号。我们在三个域中评估ATPO - 追踪域的两个修改版本,具有部分可观察性和过核域。我们的研究结果表明,ATPO在识别可能的任务中的大型文库中,在近乎最佳的时间内求助,以及在适应越来越大的问题尺寸方面可以进行高效的速度,可以有效和强大。
translated by 谷歌翻译
我们考虑从有限许多支持功能评估中重建具有固定面部方向的多部位的任务。我们表明,对于固定的单一规范风扇,由凸二次程序给出最小二乘估计。我们研究了解决方案集的几何形状,并在这种情况下为重建的唯一性提供了组合特征。我们提供一种算法,在温和的假设下会聚到未知的输入形状,因为噪声支持函数评估的数量增加。如果拆除了对正常风扇的限制,我们还讨论了我们结果的限制。
translated by 谷歌翻译
域适应(DA)最近在医学影像社区提出了强烈的兴趣。虽然已经提出了大量DA技术进行了用于图像分割,但大多数这些技术已经在私有数据集或小公共可用数据集上验证。此外,这些数据集主要解决了单级问题。为了解决这些限制,与第24届医学图像计算和计算机辅助干预(Miccai 2021)结合第24届国际会议组织交叉模态域适应(Crossmoda)挑战。 Crossmoda是无监督跨型号DA的第一个大型和多级基准。挑战的目标是分割参与前庭施瓦新瘤(VS)的后续和治疗规划的两个关键脑结构:VS和Cochleas。目前,使用对比度增强的T1(CET1)MRI进行VS患者的诊断和监测。然而,使用诸如高分辨率T2(HRT2)MRI的非对比度序列越来越感兴趣。因此,我们创建了一个无人监督的跨模型分段基准。训练集提供注释CET1(n = 105)和未配对的非注释的HRT2(n = 105)。目的是在测试集中提供的HRT2上自动对HRT2进行单侧VS和双侧耳蜗分割(n = 137)。共有16支球队提交了评估阶段的算法。顶级履行团队达成的表现水平非常高(最佳中位数骰子 - vs:88.4%; Cochleas:85.7%)并接近完全监督(中位数骰子 - vs:92.5%;耳蜗:87.7%)。所有顶级执行方法都使用图像到图像转换方法将源域图像转换为伪目标域图像。然后使用这些生成的图像和为源图像提供的手动注释进行培训分割网络。
translated by 谷歌翻译
稀疏PCA是通过在主组件上添加稀疏性约束来从PCA获得的优化问题。即使在单组件情况下,稀疏的PCA也很难且难以近似。在本文中,我们对协方差矩阵的等级来解决稀疏PCA的计算复杂性。我们表明,如果协方差矩阵的等级是固定值,那么存在一种算法,其解决了全局最优性的稀疏PCA,其运行时间是多项式在特征的数量中。我们还向稀疏PCA的版本证明了类似结果,这需要主组件要脱节支持。
translated by 谷歌翻译
AutoEncoders是无监督学习中最简单的神经网络,因此是学习特色学习的理想框架。虽然最近获得了对线性自动统计器的动态的详细了解,但是通过处理具有非普通相关性的培训数据的技术难题来阻碍了对非线性自动化器的研究 - 特征提取的基本先决条件。在这里,我们研究非线性,浅层自动化器中特征学习的动态。我们派生了一组渐近的精确方程,描述了在高维输入的极限中用随机梯度下降(SGD)训练的AutoEncoders的泛化动态。这些方程揭示了AutoEncoders顺序地学习其输入的主要主体组成部分。对长时间动态的分析解释了Sigmoidal AutoEncoders与捆绑权重的失败,突出了培训Relu AutoEncoders偏差的重要性。在以前的线性网络上建立上一个结果,我们分析了Vanilla SGD算法的修改,允许学习精确的主组件。最后,我们表明我们的方程式准确地描述了非线性自动泊车的泛化动态,如CiFar10。
translated by 谷歌翻译