机器学习已成功构建许多顺序决策,作为监督预测,或通过加强学习的最佳决策政策识别。在数据约束的离线设置中,两种方法可能会失败,因为它们假设完全最佳行为或依赖于探索可能不存在的替代方案。我们介绍了一种固有的不同方法,该方法识别出状态空间的可能的“死角”。我们专注于重症监护病房中患者的状况,其中``“医疗死亡端”表明患者将过期,无论所有潜在的未来治疗序列如何。我们假设“治疗安全”为避免与其导致死亡事件的机会成比例的概率成比例的治疗,呈现正式证明,以及作为RL问题的帧发现。然后,我们将三个独立的深度神经模型进行自动化状态建设,死端发现和确认。我们的经验结果发现,死亡末端存在于脓毒症患者的真正临床数据中,并进一步揭示了安全处理与施用的差距。
translated by 谷歌翻译
高斯工艺(GPS)是贝叶斯非参数模型,由于其准确性和天然不确定性定量(UQ),因此在各种应用中流行。调整GP超参数对于确保预测准确性和不确定性的有效性至关重要。独特地估计多个超参数,例如Matern内核也可能是一个重大挑战。此外,大规模数据集中的培训GPS是一个高度活跃的研究领域:传统的最大似然超参数训练需要二次记忆以形成协方差矩阵并具有立方训练的复杂性。为了解决可扩展的超参数调整问题,我们提出了一种新型算法,该算法估算了Matern内核中的平滑度和长度尺度参数,以提高所得预测不确定性的鲁棒性。使用与超参数估计算法MUYGPS提供的计算框架中的合并预测算法相似的新型损失函数,我们在数值实验中证明了高度可伸缩性,同时保持了高度可伸缩性。
translated by 谷歌翻译
Contrastive learning has been successfully used for retrieval of semantically aligned sentences, but it often requires large batch sizes or careful engineering to work well. In this paper, we instead propose a generative model for learning multilingual text embeddings which can be used to retrieve or score sentence pairs. Our model operates on parallel data in $N$ languages and, through an approximation we introduce, efficiently encourages source separation in this multilingual setting, separating semantic information that is shared between translations from stylistic or language-specific variation. We show careful large-scale comparisons between contrastive and generation-based approaches for learning multilingual text embeddings, a comparison that has not been done to the best of our knowledge despite the popularity of these approaches. We evaluate this method on a suite of tasks including semantic similarity, bitext mining, and cross-lingual question retrieval -- the last of which we introduce in this paper. Overall, our Variational Multilingual Source-Separation Transformer (VMSST) model outperforms both a strong contrastive and generative baseline on these tasks.
translated by 谷歌翻译
The NASA Astrophysics Data System (ADS) is an essential tool for researchers that allows them to explore the astronomy and astrophysics scientific literature, but it has yet to exploit recent advances in natural language processing. At ADASS 2021, we introduced astroBERT, a machine learning language model tailored to the text used in astronomy papers in ADS. In this work we: - announce the first public release of the astroBERT language model; - show how astroBERT improves over existing public language models on astrophysics specific tasks; - and detail how ADS plans to harness the unique structure of scientific papers, the citation graph and citation context, to further improve astroBERT.
translated by 谷歌翻译
接受高等教育对于少数族裔和新兴双语学生至关重要。但是,高等教育机构用来与准学生交流的语言通常太复杂了。具体而言,美国的许多机构发布录取申请指令远远高于典型高中毕业生的平均阅读水平,通常接近13年级或14年级。这导致学生之间不必要的障碍和获得高等教育。这项工作旨在通过简化文本来应对这一挑战。我们介绍PSAT(专业简化的录取文本),这是一个数据集,其中有112条从美国的高等教育机构中随机选择的录取说明。然后,这些文本将被专业地简化,并被各个机构招生办公室的专职员工专家进行了验证和接受。此外,PSAT带有1,883个原始简化句子对的手动对齐。结果是在与现有简化资源不同的高风险流派中评估和微调文本简化系统的首个语料库。
translated by 谷歌翻译
估计深神经网络(DNN)的概括误差(GE)是一项重要任务,通常依赖于持有数据的可用性。基于单个训练集更好地预测GE的能力可能会产生总体DNN设计原则,以减少对试用和错误的依赖以及其他绩效评估优势。为了寻找与GE相关的数量,我们使用无限宽度DNN限制到绑定的MI,研究了输入和最终层表示之间的相互信息(MI)。现有的基于输入压缩的GE绑定用于链接MI和GE。据我们所知,这代表了该界限的首次实证研究。为了实证伪造理论界限,我们发现它通常对于表现最佳模型而言通常很紧。此外,它在许多情况下检测到训练标签的随机化,反映了测试时间扰动的鲁棒性,并且只有很少的培训样本就可以很好地工作。考虑到输入压缩是广泛适用的,可以在信心估算MI的情况下,这些结果是有希望的。
translated by 谷歌翻译
深度神经网络无法推广到分布数据是一个众所周知的问题,并引起了人们对在安全关键领域(例如医疗保健,金融和自动驾驶汽车)部署训练的网络的担忧。我们研究了一种特定的分销偏移$ \ unicode {x2013} $快捷方式或培训数据中的虚假相关性。快捷方式学习通常仅在对不包含相同伪造相关性的现实世界数据进行评估时才能暴露出来,这使AI从业人员适当评估训练有素的现实世界应用模型的有效性构成了严重的困境。在这项工作中,我们建议在学习的表示和输入之间使用共同信息(MI)作为指标,以查找培训中的位置,网络锁定在快捷方式上。实验表明,MI可以用作监测快捷方式学习的域敏捷度量。
translated by 谷歌翻译
数字病理学(DP)域中培训深层学习模型的危急挑战是医学专家的高注重成本。解决此问题的一种方法是通过从自然图像域(NI)的传输学习,其中注释成本显着更便宜。从NI到DP的跨域传输学习被证明通过类标签〜\ Cite {teh2020 learning}成功。依赖类标签的一个潜在弱点是缺乏空间信息,可以从空间标签获得,例如全像素 - 明智的分段标签和涂鸦标签。我们展示了来自NI域的杂文标签可以提高DP模型在两个癌症分类数据集上的性能(贴片Camelyon乳腺癌和结肠直肠癌数据集)。此外,我们展示了杂文标签培训的模型,尽管收集显着更容易和更快,但仍然具有完整像素 - 明智的分段标签的性能提升。
translated by 谷歌翻译
自我监督学习的最新进步降低了监督和无监督的代表学习之间的差距。然而,大多数自我监督和深度聚类技术严重依赖于数据增强,使它们无效,对于许多学习任务,域名知识存在不足以进行增强的学习任务。我们提出了一种新的域 - 无症集群的自蒸馏算法。我们的方法在现有的深度聚类框架上构建,不需要单独的学生模型。所提出的方法优于CIFAR-10上现有的现有域不可知(增强)算法。我们经验证明,知识蒸馏可以通过从模型中提取比单独使用预测的标签来改善来自模型的更丰富的“黑暗知识”来改善无监督的代表学习。初步实验还表明,自蒸馏改善了DeepCluster-V2的收敛性。
translated by 谷歌翻译
临床人工智能(AI)的神经网络的发展依赖于可解释性,透明度和性能。需要深入到黑匣子神经网络中,派生模型输出的解释解释是至关重要的。高临床重要性的任务是在不久的将来预测患者在不久的将户中预留到医院的可能性,以实现有效的分类。随着电子健康记录(EHRS)采用的日益增加,对自然语言处理(NLP)的应用很有兴趣在EHRS中包含的临床自由文本。在这项工作中,我们申请Infocal,目前的最先进的模型,为其预测产生提取理性,以使用医院排放笔记预测医院入院的任务。我们比较Infocal生产的提取理由在临床文本数据上预先追溯的基于竞争变压器的模型,并可用于解释来解释。我们发现每个呈现的模型具有选定的可解释性或特征重要性方法会产生不同的结果,临床语言域专业知识和预测对性能和随后的可解释性至关重要。
translated by 谷歌翻译