课堂表达学习是可解释的监督机器学习的分支,越来越重要。在描述逻辑中的类表达式学习的大多数现有方法是搜索算法或基于硬规则的。特别地,基于细化运营商的方法遭受可扩展性问题,因为它们依赖于启发式功能来探索每个学习问题的大搜索空间。我们提出了一系列新的方法,我们配合了合成方法。此系列的实例是从提供的示例中直接计算类表达式。因此,它们不受基于搜索方法的运行时限制,也不存在于基于硬规则的方法的缺乏灵活性。我们研究了这种新型方法的三个实例,该方法使用轻量级神经网络架构从积极的例子组合中综合类表达式。他们对四个基准数据集的评估结果表明,它们可以在平均水平上有效地合成相对于输入示例的高质量类表达。此外,与最先进的方法的比较Celoe和Eltl表明我们在大型本体中实现了更好的F措施。为了重现性目的,我们提供了我们的实施以及在HTTPS://github.com/conceptLengtlearner/nces的公共Github存储库中的预先训练模型
translated by 谷歌翻译
知识图中的节点是一个重要任务,例如,预测缺失类型的实体,预测哪些分子导致癌症,或预测哪种药物是有前途的治疗候选者。虽然黑匣子型号经常实现高预测性能,但它们只是hoc后和本地可解释的,并且不允许学习模型轻松丰富域知识。为此,已经提出了学习描述了来自正和否定示例的逻辑概念。然而,学习这种概念通常需要很长时间,最先进的方法为文字数据值提供有限的支持,尽管它们对于许多应用是至关重要的。在本文中,我们提出了Evolearner - 学习ALCQ(D)的进化方法,它是与合格基数限制(Q)和数据属性配对的补充(ALC)的定语语言和数据属性(D)。我们为初始群体贡献了一种新颖的初始化方法:从正示例开始(知识图中的节点),我们执行偏见随机散步并将它们转换为描述逻辑概念。此外,我们通过在决定分割数据的位置时,通过最大化信息增益来提高数据属性的支持。我们表明,我们的方法在结构化机器学习的基准框架SML - 台阶上显着优于现有技术。我们的消融研究证实,这是由于我们的新颖初始化方法和对数据属性的支持。
translated by 谷歌翻译
基于细化运算符的概念学习方法探索部分有序的解决方案空间来计算概念,这些空间用作个体的二进制分类模型。然而,这些方法探索的概念的数量可以很容易地增长到数百万的复杂学习问题。这通常会导致不切实际的运行时间。我们建议通过预测解决方案空间探索前的目标概念的长度来缓解这个问题。通过这些手段,我们可以在概念学习期间修剪搜索空间。为了实现这一目标,我们比较四个神经结构,并在四个基准上进行评估。我们的评估结果表明,经常性的神经网络架构在概念长度预测中表现最佳,宏F-MEARY从38%到92%。然后,我们扩展了eloe算法 - 学习ALC概念 - 我们的概念长度预测器。我们的扩展会产生算法剪辑。在我们的实验中,夹子比ALC的其他最先进的概念学习算法速度至少为7.5倍 - 包括Celoe - 并且在4个数据集中学习的3个概念的F-Peasure中实现了重大改进。为了重现性,我们在HTTPS://github.com/conceptlencthLearner/learnlencths中提供我们在公共Github存储库中的实现
translated by 谷歌翻译
知识图形嵌入研究主要集中在两个最小的规范部门代数,$ \ mathbb {r} $和$ \ mathbb {c} $。最近的结果表明,四元增值嵌入的三线性产品可以是解决链路预测的更有效手段。此外,基于真实嵌入的卷曲的模型通常会产生最先进的链路预测结果。在本文中,我们调查了一种卷积操作的组成,具有超量用乘法。我们提出了四个方法qmult,amult,convic和convo来解决链路预测问题。 Qmult和Omult可以被视为先前最先进方法的四元数和octonion扩展,包括Distmult和复杂。 Convic和Convo在Qmult和Omlult上建立在剩余学习框架的方式中包括卷积操作。我们在七个链路预测数据集中评估了我们的方法,包括WN18RR,FB15K-237和YAGO3-10。实验结果表明,随着知识图的规模和复杂性的增长,学习超复分价值的矢量表示的益处变得更加明显。 Convo优于MRR的FB15K-237上的最先进的方法,命中@ 1并点击@ 3,而Qmult,Omlult,Convic和Convo在所有度量标准中的Yago3-10上的最终倾斜的方式。结果还表明,通过预测平均可以进一步改善链路预测性能。为了培养可重复的研究,我们提供了开源的方法,包括培训和评估脚本以及佩戴型模型。
translated by 谷歌翻译
强大的深度学习技术的发展为社会和个人带来了一些负面影响。一个这样的问题是假媒体的出现。为了解决这个问题,我们组织了可信赖的媒体挑战(TMC)来探讨人工智能(AI)如何利用如何打击假媒体。我们与挑战一起发布了一个挑战数据集,由4,380张假和2,563个真实视频组成。所有这些视频都伴随着Audios,采用不同的视频和/或音频操作方法来生产不同类型的假媒体。数据集中的视频具有各种持续时间,背景,照明,最小分辨率为360p,并且可能包含模拟传输误差和不良压缩的扰动。我们还开展了用户学习,以展示所作数据集的质量。结果表明,我们的数据集具有有希望的质量,可以在许多情况下欺骗人类参与者。
translated by 谷歌翻译
估算干预措施对患者结果的影响是个性化医学的关键方面之一。他们的推断经常受到训练数据仅包括给药治疗的结果,而不是用于替代治疗(所谓的反事实结果)。基于观察数据的这种情况,即〜对于连续和二进制结果变量,不适用干预的数据,建议了几种方法。然而,患者结果通常以时间对次的数据记录,如果在观察期内未发生事件,则包括右审查的事件时间。尽管他们的重要性巨大,时间令人难度的数据很少用于治疗优化。我们建议一种名为Bites的方法(用于存活数据的平衡个体治疗效果),其将特定的半导体Cox损耗与治疗平衡的深神经网络相结合;即,我们使用积分概率度量(IPM)正常化治疗和未治疗的患者之间的差异。我们在仿真研究中展示了这种方法优于现有技术。此外,我们在应用于乳腺癌患者队列的应用中证明可以基于六个常规参数进行激素治疗。我们成功验证了独立的队列中的这一发现。提供叮咬作为易于使用的Python实现。
translated by 谷歌翻译
机器学习,在深入学习的进步,在过去分析时间序列方面表现出巨大的潜力。但是,在许多情况下,可以通过将其结合到学习方法中可能改善预测的附加信息。这对于由例如例如传感器位置的传感器网络而产生的数据至关重要。然后,可以通过通过图形结构建模,以及顺序(时间)信息来利用这种空间信息。适应深度学习的最新进展在各种图形相关任务中表明了有希望的潜力。但是,这些方法尚未在很大程度上适用于时间序列相关任务。具体而言,大多数尝试基本上围绕空间 - 时间图形神经网络巩固了时间序列预测的小序列长度。通常,这些架构不适合包含大数据序列的回归或分类任务。因此,在这项工作中,我们使用图形神经网络的好处提出了一种能够在多变量时间序列回归任务中处理这些长序列的架构。我们的模型在包含地震波形的两个地震数据集上进行测试,其中目标是预测在一组站的地面摇动的强度测量。我们的研究结果表明了我们的方法的有希望的结果,这是深入讨论的额外消融研究。
translated by 谷歌翻译
宇宙学调查实验中的数据处理和分析管道引入了数据扰动,可以显着降低基于深度学习的模型的性能。鉴于加工和分析宇宙学调查数据的监督深度学习方法的增加,数据扰动效应的评估以及增加模型稳健性的方法的发展越来越重要。在星系形态分类的背景下,我们研究了扰动在成像数据中的影响。特别是,我们在基线数据培训和扰动数据测试时检查使用神经网络的后果。我们考虑与两个主要来源相关的扰动:1)通过泊松噪声和2)诸如图像压缩或望远镜误差的图像压缩或望远粉误差所产生的步骤所产生的数据处理噪声提高了观测噪声。我们还测试了域适应技术在减轻扰动驱动误差时的功效。我们使用分类准确性,潜在空间可视化和潜在空间距离来评估模型稳健性。如果没有域适应,我们发现处理像素级别错误容易将分类翻转成一个不正确的类,并且更高的观察噪声使得模型在低噪声数据上培训无法对Galaxy形态进行分类。另一方面,我们表明,具有域适应的培训改善了模型稳健性并减轻了这些扰动的影响,以更高的观测噪声的数据提高了23%的分类精度。域适应也增加了基线与错误分类的错误分类的潜在空间距离〜2.3的倍数距离,使模型更强大地扰动。
translated by 谷歌翻译
贝叶斯优化已被证明是优化昂贵至尊评估系统的有效方法。然而,根据单一观察的成本,一个或多个目标的多维优化可能仍然是昂贵的。多保真优化通过包括多个更便宜的信息来源,例如数值模拟中的低分辨率近似来解决这个问题。用于多保真优化的采集功能通常基于勘探重算法,这些算法难以与多种目标的优化结合。在这里,我们认为预期的超越改善政策可以在许多情况下作为合适的替代品起作用。我们通过两步评估或在单个采集函数内纳入评估成本,额外的保真相关目标。这允许同时多目标和多保真优化,这允许以分数成本准确地建立帕累托集和前部。基准显示成本降低了一个数量级或更多的顺序。因此,我们的方法允许极其膨胀的黑盒功能进行静态优化。在现有的优化贝叶斯优化框架中实现了本方法简单且直接,可以立即扩展到批量优化。该技术还可用于组合不同的连续和/或离散保真度尺寸,这使得它们特别相关地与等离子体物理,流体动力学和许多科学计算分支中的模拟问题相关。
translated by 谷歌翻译
临床信息系统已成为半结构注释的医疗保健数据的大存储库,该数据已达到临界质量,使其成为监督数据驱动的神经网络方法的有趣。我们使用疾病(ICD-10)的国际分类来探讨了50个字符的长期临床问题列表条目的自动编码,并在前100个ICD-10三位数代码上评估了三种不同类型的网络架构。FastText基线达到0.83的宏观平均f1度量,然后是具有0.84的宏平均f1测量的字符级LSTM。使用自定义语言模型,Top执行是一个下游的Roberta模型,具有0.88的宏观平均f1-measure。一种神经网络激活分析以及对假阳性和假阴性的调查揭示了不一致的手动编码作为主要限制因素。
translated by 谷歌翻译