Label Shift has been widely believed to be harmful to the generalization performance of machine learning models. Researchers have proposed many approaches to mitigate the impact of the label shift, e.g., balancing the training data. However, these methods often consider the underparametrized regime, where the sample size is much larger than the data dimension. The research under the overparametrized regime is very limited. To bridge this gap, we propose a new asymptotic analysis of the Fisher Linear Discriminant classifier for binary classification with label shift. Specifically, we prove that there exists a phase transition phenomenon: Under certain overparametrized regime, the classifier trained using imbalanced data outperforms the counterpart with reduced balanced data. Moreover, we investigate the impact of regularization to the label shift: The aforementioned phase transition vanishes as the regularization becomes strong.
translated by 谷歌翻译
We present a strong object detector with encoder-decoder pretraining and finetuning. Our method, called Group DETR v2, is built upon a vision transformer encoder ViT-Huge~\cite{dosovitskiy2020image}, a DETR variant DINO~\cite{zhang2022dino}, and an efficient DETR training method Group DETR~\cite{chen2022group}. The training process consists of self-supervised pretraining and finetuning a ViT-Huge encoder on ImageNet-1K, pretraining the detector on Object365, and finally finetuning it on COCO. Group DETR v2 achieves $\textbf{64.5}$ mAP on COCO test-dev, and establishes a new SoTA on the COCO leaderboard https://paperswithcode.com/sota/object-detection-on-coco
translated by 谷歌翻译
Deep learning (DL) methods have been widely applied to anomaly-based network intrusion detection system (NIDS) to detect malicious traffic. To expand the usage scenarios of DL-based methods, the federated learning (FL) framework allows multiple users to train a global model on the basis of respecting individual data privacy. However, it has not yet been systematically evaluated how robust FL-based NIDSs are against existing privacy attacks under existing defenses. To address this issue, we propose two privacy evaluation metrics designed for FL-based NIDSs, including (1) privacy score that evaluates the similarity between the original and recovered traffic features using reconstruction attacks, and (2) evasion rate against NIDSs using Generative Adversarial Network-based adversarial attack with the reconstructed benign traffic. We conduct experiments to show that existing defenses provide little protection that the corresponding adversarial traffic can even evade the SOTA NIDS Kitsune. To defend against such attacks and build a more robust FL-based NIDS, we further propose FedDef, a novel optimization-based input perturbation defense strategy with theoretical guarantee. It achieves both high utility by minimizing the gradient distance and strong privacy protection by maximizing the input distance. We experimentally evaluate four existing defenses on four datasets and show that our defense outperforms all the baselines in terms of privacy protection with up to 7 times higher privacy score, while maintaining model accuracy loss within 3% under optimal parameter combination.
translated by 谷歌翻译
几十年来,对信用违约风险的预测一直是一个重要的研究领域。传统上,由于其准确性和解释性,逻辑回归被广泛认为是解决方案。作为最近的趋势,研究人员倾向于使用更复杂和高级的机器学习方法来提高预测的准确性。尽管某些非线性机器学习方法具有更好的预测能力,但通常认为它们缺乏金融监管机构的解释性。因此,它们尚未被广泛应用于信用风险评估中。我们引入了一个具有选择性选项的神经网络,以通过区分数据集来通过线性模型来解释,以提高可解释性。我们发现,对于大多数数据集,逻辑回归将足够,准确性合理。同时,对于某些特定的数据部分,浅神经网络模型可以提高精确度,而无需显着牺牲可解释性。
translated by 谷歌翻译
现成的实用工具采矿(OSUM)是数据挖掘的新兴研究方向。它的目的是发现在销售时间内具有相对效用的物品集。与传统的公用事业开采相比,Osum可以在现实生活中找到更多实用和有意义的模式。但是,传统Osum有一个主要的缺点。对于普通用户而言,很难定义最低阈值细节,以挖掘适量的货架上的高实用物品集。一方面,如果设置阈值太高,则图案的数量将不够。另一方面,如果设定阈值太低,则会发现太多模式,并导致不必要的时间和记忆消耗。为了解决此问题,用户通常直接指定一个参数k,其中仅考虑顶级相对实用项目集。因此,在本文中,我们提出了一种通用算法TOIT,用于挖掘Top-K On-Shelf高耗时模式来解决此问题。 TOIT采用了一种新颖的策略来根据架子上的数据集提高细节。此外,还采用了两种名为Subtree实用程序的新型上限策略,并应用了本地实用程序来修剪搜索空间。通过采用上述策略,TOIT算法可以尽早缩小搜索空间,提高采矿效率并降低记忆消耗,从而比其他算法获得更好的性能。在具有不同样式的真实数据集上进行了一系列实验,以将效果与最新的Koshu算法进行比较。实验结果表明,TOIT在运行时间和内存消耗中都优于Koshu。
translated by 谷歌翻译
作为重要的数据挖掘技术,高公用事业项目集挖掘(HUIM)用于找出有趣但隐藏的信息(例如,利润和风险)。 HUIM已广泛应用于许多应用程序方案,例如市场分析,医疗检测和网络点击流分析。但是,大多数以前的HUIM方法通常忽略项目集中项目之间的关系。因此,在Huim中发现了许多无关的组合(例如,\ {Gold,Apple \}和\ {笔记本,书籍\})。为了解决这一限制,已经提出了许多算法来开采相关的高公用事业项目集(Cohuis)。在本文中,我们提出了一种新型算法,称为Itemset实用性最大化,相关度量(COIUM),该算法既考虑较强的相关性,又考虑了项目的有利可图。此外,新型算法采用数据库投影机制来降低数据库扫描的成本。此外,利用了两种上限和四种修剪策略来有效修剪搜索空间。并使用一个名为“实用程序”的简洁阵列结构来计算和存储在线性时间和空间中所采用的上限。最后,对密集和稀疏数据集的广泛实验结果表明,在运行时和内存消耗方面,COIUM显着优于最新算法。
translated by 谷歌翻译
高实用项目集挖掘方法从大量时间数据中发现隐藏的模式。但是,高实用性项目集挖掘的一个不可避免的问题是,其发现的结果隐藏了模式的数量,这会导致可解释性差。结果仅反映了客户的购物趋势,这无法帮助决策者量化收集的信息。用语言术语,计算机使用精确形式化的数学或编程语言,但是人类使用的语言总是模棱两可的。在本文中,我们提出了一种新型的一相时间模糊实用程序集挖掘方法,称为TFUM。它修改了时间模糊列表,以减少有关内存中潜在的高时间模糊实用程序集的重要信息,然后在短时间内发现一套完整的真正有趣模式。特别是,其余的度量是本文的时间模糊实用程序项目集挖掘域中首次采用的措施。剩余的最大时间模糊效用比以前所采用的研究更紧密,更强。因此,它在修剪TFUM的搜索空间中起着重要作用。最后,我们还评估了TFUM对各种数据集的效率和有效性。广泛的实验结果表明,在运行时成本,内存使用和可扩展性方面,TFUM优于最先进的算法。此外,实验证明,其余的措施可以在采矿过程中显着修剪不必要的候选人。
translated by 谷歌翻译
如今,用于行业4.0和物联网(IoT)的智能系统的环境正在经历快速的工业升级。开发了设计制造,事件检测和分类等大数据技术,以帮助制造组织实现智能系统。通过应用数据分析,可以最大化富数据的潜在值,从而帮助制造组织完成另一轮升级。在本文中,我们针对大数据分析提出了两种新算法,即UFC $ _ {gen} $和UFC $ _ {fast} $。两种算法旨在收集三种类型的模式,以帮助人们确定不同产品组合的市场位置。我们将这些算法在各种类型的数据集上进行比较,包括真实和合成。实验结果表明,这两种算法都可以通过基于用户指定的实用程序和频率阈值来利用所有候选模式的三种不同类型的有趣模式来成功实现模式分类。此外,就执行时间和内存消耗而言,基于列表的UFC $ _ {fast} $算法优于基于级别的UFC $ _ {gen} $算法。
translated by 谷歌翻译
分析序列数据通常导致有趣模式的发现,然后是异常检测。近年来,已经提出了许多框架和方法来发现序列数据中有趣的模式以及检测异常行为。然而,现有的算法主要专注于频率驱动的分析,并且它们是在现实世界的环境中应用的具有挑战性。在这项工作中,我们展示了一个名为Duos的新的异常检测框架,可以从一组序列中发现实用程序感知异常顺序规则。在基于模式的异常检测算法中,我们纳入了一个组的异常度和实用程序,然后介绍了实用程序感知异常序列规则(UOSR)的概念。我们表明这是一种检测异常的更有意义的方式。此外,我们提出了一些有效的修剪策略w.r.t.用于挖掘UOSR的上限,以及异常检测。在若干现实世界数据集上进行了广泛的实验研究表明,所提出的Duos算法具有更好的有效性和效率。最后,DUOS优于基线算法,具有合适的可扩展性。
translated by 谷歌翻译
我们呈现圆圈,基于本地隐式符号距离函数的大规模场景完成和几何精致的框架。它基于端到端的稀疏卷积网络,Circnet,共同模拟局部几何细节和全局场景结构背景,使其能够在传统3D场景数据中恢复通常产生的缺失区域的同时保留细粒度的对象细节。一种新颖的可分解渲染模块,可以进行测试时间精制以获得更好的重建质量。对现实世界和合成数据集的广泛实验表明,我们的简明框架是高效且有效的,实现比最接近竞争对手更好的重建质量,同时速度更快。
translated by 谷歌翻译