课堂表达学习是可解释的监督机器学习的分支,越来越重要。在描述逻辑中的类表达式学习的大多数现有方法是搜索算法或基于硬规则的。特别地,基于细化运营商的方法遭受可扩展性问题,因为它们依赖于启发式功能来探索每个学习问题的大搜索空间。我们提出了一系列新的方法,我们配合了合成方法。此系列的实例是从提供的示例中直接计算类表达式。因此,它们不受基于搜索方法的运行时限制,也不存在于基于硬规则的方法的缺乏灵活性。我们研究了这种新型方法的三个实例,该方法使用轻量级神经网络架构从积极的例子组合中综合类表达式。他们对四个基准数据集的评估结果表明,它们可以在平均水平上有效地合成相对于输入示例的高质量类表达。此外,与最先进的方法的比较Celoe和Eltl表明我们在大型本体中实现了更好的F措施。为了重现性目的,我们提供了我们的实施以及在HTTPS://github.com/conceptLengtlearner/nces的公共Github存储库中的预先训练模型
translated by 谷歌翻译
知识图中的节点是一个重要任务,例如,预测缺失类型的实体,预测哪些分子导致癌症,或预测哪种药物是有前途的治疗候选者。虽然黑匣子型号经常实现高预测性能,但它们只是hoc后和本地可解释的,并且不允许学习模型轻松丰富域知识。为此,已经提出了学习描述了来自正和否定示例的逻辑概念。然而,学习这种概念通常需要很长时间,最先进的方法为文字数据值提供有限的支持,尽管它们对于许多应用是至关重要的。在本文中,我们提出了Evolearner - 学习ALCQ(D)的进化方法,它是与合格基数限制(Q)和数据属性配对的补充(ALC)的定语语言和数据属性(D)。我们为初始群体贡献了一种新颖的初始化方法:从正示例开始(知识图中的节点),我们执行偏见随机散步并将它们转换为描述逻辑概念。此外,我们通过在决定分割数据的位置时,通过最大化信息增益来提高数据属性的支持。我们表明,我们的方法在结构化机器学习的基准框架SML - 台阶上显着优于现有技术。我们的消融研究证实,这是由于我们的新颖初始化方法和对数据属性的支持。
translated by 谷歌翻译
基于细化运算符的概念学习方法探索部分有序的解决方案空间来计算概念,这些空间用作个体的二进制分类模型。然而,这些方法探索的概念的数量可以很容易地增长到数百万的复杂学习问题。这通常会导致不切实际的运行时间。我们建议通过预测解决方案空间探索前的目标概念的长度来缓解这个问题。通过这些手段,我们可以在概念学习期间修剪搜索空间。为了实现这一目标,我们比较四个神经结构,并在四个基准上进行评估。我们的评估结果表明,经常性的神经网络架构在概念长度预测中表现最佳,宏F-MEARY从38%到92%。然后,我们扩展了eloe算法 - 学习ALC概念 - 我们的概念长度预测器。我们的扩展会产生算法剪辑。在我们的实验中,夹子比ALC的其他最先进的概念学习算法速度至少为7.5倍 - 包括Celoe - 并且在4个数据集中学习的3个概念的F-Peasure中实现了重大改进。为了重现性,我们在HTTPS://github.com/conceptlencthLearner/learnlencths中提供我们在公共Github存储库中的实现
translated by 谷歌翻译
知识图形嵌入研究主要集中在两个最小的规范部门代数,$ \ mathbb {r} $和$ \ mathbb {c} $。最近的结果表明,四元增值嵌入的三线性产品可以是解决链路预测的更有效手段。此外,基于真实嵌入的卷曲的模型通常会产生最先进的链路预测结果。在本文中,我们调查了一种卷积操作的组成,具有超量用乘法。我们提出了四个方法qmult,amult,convic和convo来解决链路预测问题。 Qmult和Omult可以被视为先前最先进方法的四元数和octonion扩展,包括Distmult和复杂。 Convic和Convo在Qmult和Omlult上建立在剩余学习框架的方式中包括卷积操作。我们在七个链路预测数据集中评估了我们的方法,包括WN18RR,FB15K-237和YAGO3-10。实验结果表明,随着知识图的规模和复杂性的增长,学习超复分价值的矢量表示的益处变得更加明显。 Convo优于MRR的FB15K-237上的最先进的方法,命中@ 1并点击@ 3,而Qmult,Omlult,Convic和Convo在所有度量标准中的Yago3-10上的最终倾斜的方式。结果还表明,通过预测平均可以进一步改善链路预测性能。为了培养可重复的研究,我们提供了开源的方法,包括培训和评估脚本以及佩戴型模型。
translated by 谷歌翻译
在本文中,在模拟环境中对战斗无人机(UAV)进行了建模。旋转翼无人机成功执行了各种任务,例如锁定目标,跟踪并与周围车辆共享相关数据。采用了不同的软件技术,例如API通信,地面控制站配置,自主运动算法,计算机视觉和深度学习。
translated by 谷歌翻译
当前文献中可用的卷积神经网络(CNN)方法旨在主要与低分辨率图像合作。当应用于非常大的图像时,与GPU记忆相关的挑战,比语义通信所需的较小的接受场以及需要结合多尺度特征的需求。但是,可以减少输入图像的分辨率,但要大量关键信息丢失。基于概述的问题,我们引入了一个新的研究问题,以培训CNN模型为非常大的图像,并介绍“超级数据集”,这是一个简单而代表性的基准数据集,用于此任务。 Ultramnist是使用流行的MNIST数字设计的,并添加了更多的复杂性,以很好地复制现实世界问题的挑战。我们提出了两个问题的两个变体:“超级分类”和“预算意识到的超级名人分类”。标准的超快分类基准旨在促进新型CNN培训方法的开发,从而有效利用最佳可用GPU资源。预算感知的变体旨在促进在受限GPU记忆下工作的方法的开发。为了开发竞争解决方案,我们为标准基准及其预算感知变体提供了几种基线模型。我们研究了减少分辨率对涉及流行最先进模型中预审预定型骨架的基线模型的性能的影响和目前的结果。最后,借助提出的基准数据集和基线,我们希望为新一代的CNN方法铺平地面,适合以有效和资源的方式处理大型图像。
translated by 谷歌翻译
本文介绍了一个新的多模式介入放射学数据集,称为POCAP(端口导管放置)语料库。该语料库由德语,X射线图像的语音和音频信号组成,以及六名外科医生从31个POCAP干预措施收集的系统命令,平均持续时间为81.4 $ \ pm $ 41.0分钟。该语料库旨在为在手术室中开发智能语音助理提供资源。特别是,它可用于开发语音控制的系统,该系统使外科医生能够控制操作参数,例如C臂运动和表位置。为了记录数据集,我们获得了Erlangen大学医院和患者数据隐私的机构审查委员会和工人委员会的同意。我们描述了录制设置,数据结构,工作流程和预处理步骤,并使用预告片的模型以11.52 $ \%$单词错误率报告了第一个POCAP语料库语音识别分析结果。研究结果表明,数据有可能构建强大的命令识别系统,并将使用医学领域中的语音和图像处理来开发新颖的干预支持系统。
translated by 谷歌翻译
语音可理解性评估在患有病理语音疾病的患者的治疗中起着重要作用。需要自动和客观的措施,以帮助治疗师进行传统的主观和劳动密集型评估。在这项工作中,我们研究了一种新的方法,该方法是使用从健康的参考和病理扬声器获得的平行话语对的分离潜在语音表示中的差异来获得这种度量的。使用每个扬声器的所有可用话语,在英语数据库上进行了英语数据库,显示出高和显着的相关值(r = -0.9),具有主观的可理解性指标,而在四个不同的参考扬声器对中仅具有最小的偏差(+-0.01) 。我们还通过考虑每个扬声器的话语少得多,在1000次迭代中偏离1000次迭代的 +-0.02偏离 +-0.02)也证明了稳健性。我们的结果之一是最早表明可以使用删除的语音表示形式用于自动病理语音可理解性评估,从而产生了参考扬声器对不变方法,适用于仅有几个话语的场景。
translated by 谷歌翻译
基础培训数据的质量对于建立具有更广泛的Generalizabilty的表演机器学习模型非常重要。但是,当前机器学习(ML)工具缺乏简化的流程,用于提高数据质量。因此,获取数据质量见解并迭代地修剪以获取最大代表下游使用情况的数据集的错误仍然是Ad-hoc手动过程。我们的工作解决了这种数据工具差距,需要纯粹通过以数据为中心的技术构建改进的ML工作流程。更具体地说,我们介绍了(1)在数据集中找到嘈杂或错误标记的样本的系统框架,(2)识别最具信息丰富的样本,当包含在训练中时,该样本将提供最大的模型性能提升。我们展示了我们在公共场合的框架以及两家财富500强公司的私营企业数据集的效果,并确信这项工作将形成ML团队执行更智能的数据发现和修剪的基础。
translated by 谷歌翻译
由于新型模型利用较大的数据集和新颖架构,通过生成模型创建的合成图像提高了质量和表现力。尽管这种质感主义是来自创意的角度的正副作用,但是当这种生成模型用于无同意时的冒充时,它会出现问题。这些方法中的大多数是基于源和目标对之间的部分传输,或者它们基于理想的分布生成完全新的样本,仍然类似于数据集中最接近的真实样本。我们提出Mixsyn(阅读为“Mixin”),用于从多种来源学习新的模糊组合物并将新颖的图像作为与组合物对应的图像区域的混合。 Mixsyn不仅将来自多个源掩码的不相关的区域与相干语义组成相结合,而且还生成了非现有图像的掩模感知的高质量重建。我们将Mixsyn与最先进的单源顺序发电和拼贴生成方法相比,在质量,多样性,现实主义和表现力方面;同时还展示了交互式合成,混合和匹配,以及编辑传播任务,没有掩码依赖性。
translated by 谷歌翻译