我们研究了学习算法的输出及其$ n $培训数据之间(某些摘要)之间的共同信息,以$ n+1 $ i.i.d.的超级样本为条件。随机选择训练数据而无需更换的数据。这些算法(Steinke and Zakynthinou,2020)的条件相互信息(CMI)的这些剩余变体也被认为可以控制具有有界损耗函数的学习算法的平均通用误差。为了学习在0-1损失(即插值算法)下实现零经验风险的学习算法,我们提供了剩余的CMI与风险的经典保留误差估计之间的明确联系。使用此连接,我们就(评估)保留的CMI获得了上限和下限。当限制风险恒定或多项式衰减时,边界会收敛到两个恒定因子。作为应用程序,我们分析了单个包含图算法的人口风险,这是一种在可实现的环境中的VC类的通用转导学习算法。使用一对一的CMI,我们匹配在可实现的设置中学习VC课程的最佳界限,回答了Steinke和Zakynthinou(2020)提出的开放挑战。最后,为了理解剩余的CMI在研究概括中的作用,我们将剩余的CMI放在措施层次结构中,并在根本上使用新颖的无条件相互信息。对于0-1的损失和插值学习算法,观察到此相互信息恰恰是风险。
translated by 谷歌翻译
在本文中,我们介绍了TweetNLP,这是社交媒体中自然语言处理(NLP)的集成平台。TweetNLP支持一套多样化的NLP任务,包括诸如情感分析和命名实体识别的通用重点领域,以及社交媒体特定的任务,例如表情符号预测和进攻性语言识别。特定于任务的系统由专门用于社交媒体文本的合理大小的基于变压器的语言模型(尤其是Twitter)提供动力,无需专用硬件或云服务即可运行。TweetNLP的主要贡献是:(1)使用适合社会领域的各种特定于任务的模型,用于支持社交媒体分析的现代工具包的集成python库;(2)使用我们的模型进行无编码实验的交互式在线演示;(3)涵盖各种典型社交媒体应用的教程。
translated by 谷歌翻译
胎儿超声(US)中胎盘的自动分割由于(i)(i)胎盘外观的高度多样性而具有挑战性我们禁止在妊娠晚期进行整个胎盘评估的观点。在这项工作中,我们通过多任务学习方法解决了这三个挑战,该方法结合了单个卷积神经网络中胎盘位置(例如,前,后部)和语义胎盘分段的分类。通过分类任务,模型可以从更大,更多样化的数据集中学习,同时在有限的训练集条件下提高分割任务的准确性。通过这种方法,我们研究了多个评估者的注释的变异性,并表明我们的自动分割(前胎盘的骰子为0.86,后胎盘的骰子为0.83),与观察者内和观察者间的变异性相比,我们的自动段性能达到了人级的性能。最后,我们的方法可以使用由三个阶段组成的多视图US采集管道提供整个胎盘分割:多探针图像采集,图像融合和图像分段。这会导致对较大结构(例如胎盘中的胎盘)的高质量分割,其图像伪像降低,这超出了单个探针的视野。
translated by 谷歌翻译
计算机辅助方法为诊断和预测脑疾病显示了附加的价值,因此可以支持临床护理和治疗计划中的决策。本章将洞悉方法的类型,其工作,输入数据(例如认知测试,成像和遗传数据)及其提供的输出类型。我们将专注于诊断的特定用例,即估计患者的当前“状况”,例如痴呆症的早期检测和诊断,对脑肿瘤的鉴别诊断以及中风的决策。关于预测,即对患者的未来“状况”的估计,我们将缩小用例,例如预测多发性硬化症中的疾病病程,并预测脑癌治疗后患者的结局。此外,根据这些用例,我们将评估当前的最新方法,并强调当前对这些方法进行基准测试的努力以及其中的开放科学的重要性。最后,我们评估了计算机辅助方法的当前临床影响,并讨论了增加临床影响所需的下一步。
translated by 谷歌翻译
当观察结果被截断时,我们仅限于数据集的不完整图片。最近的方法通过转向得分匹配来处理截短的密度估计问题,而不需要访问棘手的归一化常数。我们为Riemannian歧管提供了一个新颖的扩展,以截断得分匹配。在$ \ r^3 $中的二维领域上向von Mises-Fisher和Kent发行版提供了申请,以及美国极端风暴观察的现实应用。在模拟数据实验中,我们的分数匹配估计器能够以较低的估计误差近似于真实的参数值,并显示出比最大似然估计器的改进。
translated by 谷歌翻译
在口语理解(SLU)中,任务是从音频命令中提取重要信息,例如用户想要该系统执行的操作和特殊实体(例如位置或数字)的意图。本文提出了一种简单的方法,可以将意图和实体嵌入有限的状态换能器中,并结合预处理的通用语音到文本模型,允许构建SLU模型,而无需任何其他培训。构建这些型号非常快,只需要几秒钟。它也完全是独立的。通过对不同基准测试的比较,可以表明该方法可以胜过多种其他资源要求的SLU方法。
translated by 谷歌翻译
对于现代自治系统来说,可靠的场景理解是必不可少的。当前基于学习的方法通常试图根据仅考虑分割质量的细分指标来最大化其性能。但是,对于系统在现实世界中的安全操作,考虑预测的不确定性也至关重要。在这项工作中,我们介绍了不确定性感知的全景分段的新任务,该任务旨在预测每个像素语义和实例分割,以及每个像素不确定性估计。我们定义了两个新颖的指标,以促进其定量分析,不确定性感知的综合质量(UPQ)和全景预期校准误差(PECE)。我们进一步提出了新型的自上而下的证据分割网络(EVPSNET),以解决此任务。我们的架构采用了一个简单而有效的概率融合模块,该模块利用了预测的不确定性。此外,我们提出了一种新的LOV \'ASZ证据损失函数,以优化使用深度证据学习概率的分割的IOU。此外,我们提供了几个强大的基线,将最新的泛型分割网络与无抽样的不确定性估计技术相结合。广泛的评估表明,我们的EVPSNET可以实现标准综合质量(PQ)的新最新技术,以及我们的不确定性倾斜度指标。
translated by 谷歌翻译
基于内核的量子分类器是用于复杂数据的超线化分类的最有趣,最强大的量子机学习技术,可以在浅深度量子电路(例如交换测试分类器)中轻松实现。出乎意料的是,通过引入差异方案,可以将支持向量机固有而明确地实现,以将SVM理论的二次优化问题映射到量子古典的变分优化问题。该方案使用参数化的量子电路(PQC)实现,以创建一个不均匀的权重向量,以索引量子位,可以在线性时间内评估训练损失和分类得分。我们训练该变量量子近似支持向量机(VQASVM)的经典参数,该参数可以转移到其他VQASVM决策推理电路的许多副本中,以分类新查询数据。我们的VQASVM算法对基于云的量子计算机的玩具示例数据集进行了实验,以进行可行性评估,并进行了数值研究以评估其在标准的IRIS花朵数据集上的性能。虹膜数据分类的准确性达到98.8%。
translated by 谷歌翻译
本文衍生出绑定在从其规范投影子集中获得的最佳子空间估计量结合的,该估计量受噪声污染的规范投影。这种基本结果对矩阵完成,子空间聚类和相关问题具有重要意义。
translated by 谷歌翻译
通过填写数据集中的缺失值,插入允许这些数据集与无法自行处理缺失值的算法一起使用。但是,缺少的价值原则上可能会贡献通过插补而丢失的有用信息。缺失的指示方法可以与归档的结合使用,而是将此信息表示为数据集的一部分。有几个理论上的考虑因素为什么缺失指导者可能会或可能没有好处,但是在现实生活中没有任何大规模实践实验来测试此问题以进行机器学习预测。我们根据二十个现实生活数据集对三种归纳策略和一系列不同的分类算法进行此实验。我们发现,在这些数据集上,缺失指标通常会提高分类性能。此外,我们没有发现大多数算法的证据表明,最近的邻居和迭代插补比简单的平均/模式插补带来更好的性能。因此,我们建议使用具有平均/模式归档的缺失指标作为安全的默认值,需要将决策树用于防止过度拟合。在后续实验中,我们确定每个分类器的属性特异性缺失阈值,在该实验中,缺失指标更有可能增加分类性能,并观察到这些阈值的分类要比数值属性要低得多。最后,我们认为,数值属性的插补的平均值可能会保留一些信息中的某些信息,并且我们表明,在没有缺失的指示器的情况下,将平均插入量应用于单热编码的分类属性而不是,而不是有用模式插补。
translated by 谷歌翻译