通常通过过去的选择来告知机器学习中的评估,例如要使用哪些数据集或指标。该标准化可以使用排行榜对平等基础进行比较,但是随着出现更好的替代方案,评估选择变得不佳。这个问题在自然语言生成中尤其相关,该语言需要不断改善的数据集,指标和人类评估以提出确定性的主张。为了使遵循最佳模型评估实践更加容易,我们介绍了GEMV2。新版本的一代,评估和指标基准为数据集,模型和指标开发人员提供了模块化基础架构,以使彼此受益。GEMV2支持40种记录的数据集中51种语言。所有数据集的模型都可以在线评估,我们的交互式数据卡创建和渲染工具使得在Living Benchmark中添加新数据集变得更加容易。
translated by 谷歌翻译
通过将搜索任务框架作为解释跨度检测来绘制语义搜索问题,即给定文本作为查询短语的段,任务是在给定文档中识别其释放,与通常相同的建模设置用于提取问题的回答。在Turku释放语料库中的100,000手动提取芬兰语释义对,包括其原始文档上下文,我们发现我们的扫描跨度检测模型分别优于31.9pp和22.4pp的两个强烈的检索基线(词汇相似性和BERT句子嵌入)。匹配,达到22.3pp和12.9pp的令牌级F分数。这展示了在跨度检索而不是句子相似性方面建模任务的强大优点。此外,我们介绍了一种通过背部翻译创建人工释义数据的方法,适用于手动注释用于训练的跨度检测模型的剖析资源。
translated by 谷歌翻译
The demonstrated success of transfer learning has popularized approaches that involve pretraining models from massive data sources and subsequent finetuning towards a specific task. While such approaches have become the norm in fields such as natural language processing, implementation and evaluation of transfer learning approaches for chemistry are in the early stages. In this work, we demonstrate finetuning for downstream tasks on a graph neural network (GNN) trained over a molecular database containing 2.7 million water clusters. The use of Graphcore IPUs as an AI accelerator for training molecular GNNs reduces training time from a reported 2.7 days on 0.5M clusters to 1.2 hours on 2.7M clusters. Finetuning the pretrained model for downstream tasks of molecular dynamics and transfer to a different potential energy surface took only 8.3 hours and 28 minutes, respectively, on a single GPU.
translated by 谷歌翻译
We present SLATE, a sequence labeling approach for extracting tasks from free-form content such as digitally handwritten (or "inked") notes on a virtual whiteboard. Our approach allows us to create a single, low-latency model to simultaneously perform sentence segmentation and classification of these sentences into task/non-task sentences. SLATE greatly outperforms a baseline two-model (sentence segmentation followed by classification model) approach, achieving a task F1 score of 84.4\%, a sentence segmentation (boundary similarity) score of 88.4% and three times lower latency compared to the baseline. Furthermore, we provide insights into tackling challenges of performing NLP on the inking domain. We release both our code and dataset for this novel task.
translated by 谷歌翻译
我们介绍了一种通过使用高维随机向量计算来识别说话者的方法。它的优势是简单和速度。只有1.02k的活动参数和128分钟的通过训练数据,我们在1,251位扬声器的Voxceleb1数据集上获得了前1位和前5个分数,为31%和52%。这与CNN模型相反,CNN模型需要数百万个参数和数量级较高的计算复杂性,仅在相互信息中衡量的判别功率2 $ \ times $获得的判别能力。额外的92秒训练和广义学习矢量量化(GLVQ)将分数提高到48%和67%。训练有素的分类器在5.7毫秒内分类1秒。所有处理均在标准基于CPU的机器上进行。
translated by 谷歌翻译
随着机器学习(ML)模型在临床应用中获得吸引力,了解临床医生和社会偏见对ML模型的影响越来越重要。尽管用于模型训练的标签可能会出现偏见,但这些偏见的许多来源尚未得到充分研究。在本文中,我们重点介绍了不同的审查制度(即,患者组的测试率差异)是临床ML模型可能会放大的标签偏差来源,可能造成损害。许多患者风险分层模型都使用标签的临床医生诊断和实验室测试的结果进行培训。没有测试结果的患者通常会分配负标签,该标签假设未经测试的患者没有经历结果。由于订单受到临床和资源考虑因素的影响,因此在患者人群中进行测试可能不统一,从而导致不同的审查制度。同等风险患者的不同审查制度会导致某些组的承诺,进而对此类组的有偏见的标签进行审查。在标准ML管道中使用此类偏见的标签可能会导致患者组的模型性能差距。在这里,我们从理论和经验上表征了不同的条件,在这些条件下,不同的审查制度或承诺会影响跨亚组的模型绩效。我们的发现呼吁人们注意不同的审查制度,作为临床ML模型中标签偏差的来源。
translated by 谷歌翻译
对于移动机器人,移动机械手和自治车辆,以安全地在街道和仓库等人口众多的地方驾驶,人类观察者必须能够理解他们的导航意图。启用这种理解的一种方法是通过在周围环境上的投影来可视化这一意图。但尽管存在此类预测的有效性,但不存在具有集成硬件设置的开放式代码库。在这项工作中,我们详细介绍了这种定向预测的有效性的经验证据,并使用广泛使用的机器人操作系统(ROS)和RVIZ在C ++中分享了这种预测的机器人无关的实施。此外,我们使用获取机器人演示用于部署此软件的硬件配置,并简要概括激励此配置的全尺寸用户学习。代码,配置文件(Roslaunch和RVIZ文件)以及文档在Github上自由地提供HTTPS://github.com/umhan35/Arrow_Projection。
translated by 谷歌翻译
预计将在2026年促使新兴的无人机航空公司(UAV)服务市场达到584亿美元,促使常规将常规无人机运营促进到国家空域中的重大努力,以至于它们不会损害现有的安全水平。通过感觉和避免潜在的中空碰撞威胁,将提高无人机的商业用途,但是在缺乏可用的数据集时,该领域的研究是缺乏可用的数据集,因为它们昂贵且技术上是为了捕获。在本文中,我们为基于视觉的飞机检测提供了一个数据集。 DataSet由15个图像序列组成,其中包含55,521张固定翼飞机的图像,接近固定式接地的摄像头。还提供了地面真理标签和绩效基准。为了我们的知识,这是第一个在碰撞课程上学习中型固定翼飞机的第一个公共数据集。完整的数据集和地面真理标签在https://qcr.github.io/dataset/aircraft -collision-.c资料/航空公司
translated by 谷歌翻译
蛋白质 - 配体相互作用(PLIS)是生化研究的基础,其鉴定对于估计合理治疗设计的生物物理和生化特性至关重要。目前,这些特性的实验表征是最准确的方法,然而,这是非常耗时和劳动密集型的。在这种情况下已经开发了许多计算方法,但大多数现有PLI预测大量取决于2D蛋白质序列数据。在这里,我们提出了一种新颖的并行图形神经网络(GNN),以集成PLI预测的知识表示和推理,以便通过专家知识引导的深度学习,并通过3D结构数据通知。我们开发了两个不同的GNN架构,GNNF是采用不同特种的基础实现,以增强域名认识,而GNNP是一种新颖的实现,可以预测未经分子间相互作用的先验知识。综合评价证明,GNN可以成功地捕获配体和蛋白质3D结构之间的二元相互作用,对于GNNF的测试精度和0.958,用于预测蛋白质 - 配体络合物的活性。这些模型进一步适用于回归任务以预测实验结合亲和力,PIC50对于药物效力和功效至关重要。我们在实验亲和力上达到0.66和0.65的Pearson相关系数,分别在PIC50和GNNP上进行0.50和0.51,优于基于2D序列的模型。我们的方法可以作为可解释和解释的人工智能(AI)工具,用于预测活动,效力和铅候选的生物物理性质。为此,我们通过筛选大型复合库并将我们的预测与实验测量数据进行比较来展示GNNP对SARS-COV-2蛋白靶标的实用性。
translated by 谷歌翻译
大型变压器模型在许多任务中产生令人印象深刻的结果,但培训昂贵,甚至微调,如此慢,在解码中,他们的使用和研究变得无法触及。我们通过利用稀疏性来解决这个问题。我们研究变压器中的所有层的稀疏变体,并提出缩放变压器,一个缩放变压器模型,使用稀疏层的型号有效地缩放,并在我们扩展模型大小时比标准变压器更快地执行不匹配的解码。令人惊讶的是,稀疏层足以获得与具有相同数量的参数的标准变压器相同的困惑。我们还与现有的稀疏性融合,即使存储器有限,也能够对长期序列进行快速推断。这导致在长期摘要上对最先进的表现竞争。
translated by 谷歌翻译