在预算限制的环境中,旨在减轻不公平的环境,如执法,在采取措施之前优先考虑不公平的来源,以减轻现实世界。与以前的作品不同,这只用作数据生成后可能的歧视和偏见数据,这项工作提供了一种工具包,以减轻在数据生成期间的不公平性,除了解偏见数据之外由鉴别移除算法给出。我们假设给出了代表数据生成过程的非参数马尔科夫因果模型。假设从因果图中的敏感节点发出的边缘是不公平的来源。我们首先在任何边缘X - > Y中量化边缘流,这是由于X - > Y沿X - > Y的特定值的影响而观察y的特定值的信念。然后通过制定非制定非公式来量化边缘不公平在边缘流动方面的参数模型。然后,我们证明,在决定中对敏感群体的累积不公平,比赛在保释决定中的比赛中,当不适的不公平时是不存在的。当累积不公平不能以边缘不公平表达时,我们证明了这一结果。然后,当边缘不公平降低时,我们衡量减轻累积不公平的可能性。根据这些测量,我们提出了不公平的优先级算法,可以由政策制定者使用。我们还提出了通过消除在敏感属性的数量和由它们所采取的值中呈指数呈指数增长的优化约束来偏离数据分布的歧视删除程序。广泛的实验验证了用于量化上述措施的定理和规格。
translated by 谷歌翻译
知识库问题的最现有的方法接听(KBQA)关注特定的基础知识库,原因是该方法的固有假设,或者因为在不同的知识库上评估它需要非琐碎的变化。然而,许多流行知识库在其潜在模式中的相似性份额可以利用,以便于跨知识库的概括。为了实现这一概念化,我们基于2级架构介绍了一个KBQA框架,该架构明确地将语义解析与知识库交互分开,促进了数据集和知识图中的转移学习。我们表明,具有不同潜在知识库的数据集预先灌注可以提供显着的性能增益并降低样本复杂性。我们的方法可实现LC-Quad(DBPedia),WEDQSP(FreeBase),简单问话(Wikidata)和MetaQA(WikiMovies-KG)的可比性或最先进的性能。
translated by 谷歌翻译
Mixup is a popular data augmentation technique based on creating new samples by linear interpolation between two given data samples, to improve both the generalization and robustness of the trained model. Knowledge distillation (KD), on the other hand, is widely used for model compression and transfer learning, which involves using a larger network's implicit knowledge to guide the learning of a smaller network. At first glance, these two techniques seem very different, however, we found that ``smoothness" is the connecting link between the two and is also a crucial attribute in understanding KD's interplay with mixup. Although many mixup variants and distillation methods have been proposed, much remains to be understood regarding the role of a mixup in knowledge distillation. In this paper, we present a detailed empirical study on various important dimensions of compatibility between mixup and knowledge distillation. We also scrutinize the behavior of the networks trained with a mixup in the light of knowledge distillation through extensive analysis, visualizations, and comprehensive experiments on image classification. Finally, based on our findings, we suggest improved strategies to guide the student network to enhance its effectiveness. Additionally, the findings of this study provide insightful suggestions to researchers and practitioners that commonly use techniques from KD. Our code is available at https://github.com/hchoi71/MIX-KD.
translated by 谷歌翻译
State-of-the-art algorithms for Approximate Nearest Neighbor Search (ANNS) such as DiskANN, FAISS-IVF, and HNSW build data dependent indices that offer substantially better accuracy and search efficiency over data-agnostic indices by overfitting to the index data distribution. When the query data is drawn from a different distribution - e.g., when index represents image embeddings and query represents textual embeddings - such algorithms lose much of this performance advantage. On a variety of datasets, for a fixed recall target, latency is worse by an order of magnitude or more for Out-Of-Distribution (OOD) queries as compared to In-Distribution (ID) queries. The question we address in this work is whether ANNS algorithms can be made efficient for OOD queries if the index construction is given access to a small sample set of these queries. We answer positively by presenting OOD-DiskANN, which uses a sparing sample (1% of index set size) of OOD queries, and provides up to 40% improvement in mean query latency over SoTA algorithms of a similar memory footprint. OOD-DiskANN is scalable and has the efficiency of graph-based ANNS indices. Some of our contributions can improve query efficiency for ID queries as well.
translated by 谷歌翻译
机器学习潜力是分子模拟的重要工具,但是由于缺乏高质量数据集来训练它们的发展,它们的开发阻碍了它们。我们描述了Spice数据集,这是一种新的量子化学数据集,用于训练与模拟与蛋白质相互作用的药物样的小分子相关的潜在。它包含超过110万个小分子,二聚体,二肽和溶剂化氨基酸的构象。它包括15个元素,带电和未充电的分子以及广泛的共价和非共价相互作用。它提供了在{\ omega} b97m-d3(bj)/def2-tzVPPD理论水平以及其他有用的数量(例如多极矩和键阶)上计算出的力和能量。我们在其上训练一组机器学习潜力,并证明它们可以在化学空间的广泛区域中实现化学精度。它可以作为创建可转移的,准备使用潜在功能用于分子模拟的宝贵资源。
translated by 谷歌翻译
自然界中多元化的生态学在许多物种中具有各种形式的群体行为。蝴蝶物种是随机飞行的突出物种之一,有点有见地,并将其转化为人造隐喻将导致巨大的可能性。本文认为一种这种隐喻称为蝴蝶交配优化(BMO)。在BMO中,BFLE遵循巡逻的交配现象,并同时捕获了多模式函数的所有局部优势。为了模仿该算法,设计了一个移动机器人(BFlyBot),以满足BMO算法中BFLE的功能。此外,多Bflybot群的设计旨在像蝴蝶本质上的作用,并遵循该算法的规则。实时实验是在多动物领域的BMO算法上进行的,并将信号源视为光源。实验结果表明,BMO算法适用于检测多个信号源,其运动的变化显着,即静态和动态。在静态信号源的情况下,随着BFlybot的初始位置的不同,收敛性在时间和平稳性方面受到影响。而具有不同阶梯尺寸的实验会导致它们在机器人的执行时间和速度方面的变化。在这项工作中,在动态环境中进行了实验,在该环境中,信号源在操纵和非操作场景中的运动。 Bflybot群能够检测到单个和多信号源,在两个固定点之间在两个固定点之间进行线性移动,以圆形,向上和向下运动。评估BMO现象,各种正在进行的和前瞻性的作品,例如中海船舶检测,讨论了空中搜索应用和地震预测。
translated by 谷歌翻译
原始出版物使用周期一致的对抗网络不成对图像到图像的翻译,这是该实施项目的灵感。研究人员开发了一种新的方法,用于使用原始研究中的未配对数据集进行图像到图像翻译。尽管PIX2PIX模型发现很好,但匹配的数据集经常不可用。因此,在没有配对数据的情况下,Cyclegan可以通过将图像转换为图像来解决此问题。为了减少图像之间的差异,他们实施了周期一致性损失。我用三个不同的数据集评估了Cyclegan,本文简要讨论了发现和结论。
translated by 谷歌翻译
独立组件分析是一种无监督的学习方法,用于从多元信号或数据矩阵计算独立组件(IC)。基于权重矩阵与多元数据矩阵的乘法进行评估。这项研究提出了一个新型的Memristor横杆阵列,用于实施ACY ICA和快速ICA,以用于盲源分离。数据输入以脉冲宽度调制电压的形式应用于横梁阵列,并且已实现的神经网络的重量存储在Memristor中。来自Memristor列的输出电荷用于计算重量更新,该重量更新是通过电压高于Memristor SET/RESET电压执行的。为了证明其潜在应用,采用了基于ICA架构的基于ICA架构的拟议的Memristor横杆阵列用于图像源分离问题。实验结果表明,所提出的方法非常有效地分离图像源,并且与常规ACY的基于软件的ACY实施相比,与结构相似性的百分比相比,结构相似性的百分比为67.27%,图像的对比度得到了改进。 ICA和快速ICA算法。
translated by 谷歌翻译
基于预训练的深层模型的图像恢复方案由于解决各种反问题的独特灵活性,因此受到了极大的关注。尤其是,插件播放(PNP)框架是一种流行而强大的工具,可以将现成的深层Denoiser集成,以与已知的观察模型一起,以用于不同的图像恢复任务。但是,在实践中,获得与实际情况完全匹配的观察模型可能具有挑战性。因此,带有常规深地位者的PNP方案可能无法在某些现实世界图像恢复任务中产生令人满意的结果。我们认为,通过使用经过确定性优化训练的现成的深层DENOISER,PNP框架的鲁棒性在很大程度上受到限制。为此,我们提出了一种新颖的深钢筋学习(DRL),以称为Repnp的PNP框架,通过利用基于轻巧的DRL的DENOISER来制定可靠的图像恢复任务。实验结果表明,所提出的REPNP对与实际情况的PNP方案中使用的观察模型具有鲁棒性。因此,RepNP可以为图像脱张和超级分辨率任务生成更可靠的恢复结果。与几个最先进的深层图像恢复基线相比,RepNP可以通过更少的模型参数实现更好的模型偏差的结果。
translated by 谷歌翻译
基于单眼的道路检测方法主要基于机器学习方法,依靠分类和提取精度以及外观,照明和天气变化。传统方法将预测引入条件随机字段或马尔可夫随机场模型中,以改善基于结构的中间预测。这些方法是基于优化的,因此资源很重且缓慢,使其不适合实时应用。我们提出了一种方法,可以通过具有基于超级像素的机器学习功能的本地专家的随机森林分类器来检测和细分道路。随机森林从预先训练的卷积神经网络-VGG-16中吸入机器学习的描述符。这些功能还集中在各自的超级像素中,从而使本地结构保持连续。我们将算法与基于Nueral网络的方法和传统方法(基于手工制作的功能)进行了比较,在结构化的道路(Camvid和Kitti)和非结构化的道路数据集上进行了比较。最后,我们介绍了一个带有1000个带注释的图像的道路场景数据集,并验证我们的算法在非城市和农村道路方案中效果很好。
translated by 谷歌翻译