本文提出了第二版的头部和颈部肿瘤(Hecktor)挑战的概述,作为第24届医学图像计算和计算机辅助干预(Miccai)2021的卫星活动。挑战由三个任务组成与患有头颈癌(H&N)的患者的PET / CT图像的自动分析有关,专注于oropharynx地区。任务1是FDG-PET / CT图像中H&N主肿瘤肿瘤体积(GTVT)的自动分割。任务2是来自同一FDG-PET / CT的进展自由生存(PFS)的自动预测。最后,任务3与任务2的任务2与参与者提供的地面真理GTVT注释相同。这些数据从六个中心收集,总共325个图像,分为224个培训和101个测试用例。通过103个注册团队和448个结果提交的重要参与,突出了对挑战的兴趣。在第一任务中获得0.7591的骰子相似度系数(DSC),分别在任务2和3中的0.7196和0.6978的一致性指数(C-Index)。在所有任务中,发现这种方法的简单性是确保泛化性能的关键。 PFS预测性能在任务2和3中的比较表明,提供GTVT轮廓对于实现最佳结果,这表明可以使用完全自动方法。这可能避免了对GTVT轮廓的需求,用于可重复和大规模的辐射瘤研究的开头途径,包括千元潜在的受试者。
translated by 谷歌翻译
社区问题应答(CQA)论坛为许多现实生活质疑提供答案。由于大小,这些论坛在机器学习研究人员中非常受欢迎。自动答案选择,答案排名,问题检索,专家查找,事实检查是使用CQA数据执行的示例学习任务。在本文中,我们展示了CQA的第一个波斯数据集PercQA。此数据集包含从最着名的波斯论坛爬行的问题和答案。在数据采集之后,我们在迭代过程中提供严格的注释指南,然后在SemevalcQA格式中注释问题答案对。PercQ包含989个问题和21,915个答案答案。我们将Percqa公开可供使波斯CQA更多的研究。我们还通过使用单语和多语言预先训练的语言模型来构建PercQA中答案选择任务的强大基准
translated by 谷歌翻译
动态场景图表形式的结构化视频表示是有关多个视频理解任务的有效工具。与场景图的任务相比,由于场景的时间动态和预测的固有时间波动,动态场景图生成是更具挑战性。我们表明捕获长期依赖性是有效生成动态场景图的关键。我们通过从视频中构造一致的长期对象轨迹来介绍检测跟踪 - 识别范例,然后是捕获对象和视觉关系的动态。实验结果表明,我们的动态场景图检测变压器(DSG-DETR)在基准数据集动作基因组上的显着余量优于最先进的方法。我们还进行消融研究并验证所提出的方法的每个组成部分的有效性。
translated by 谷歌翻译
建立一个小型的快速监控系统模型,适合有限的资源设备是一个具有挑战性的,但却是一个重要的任务。卷积神经网络(CNNS)在检测和分类任务中取代了传统的特征提取和机器学习模型。提出了各种复杂的大型CNN模型,从而实现了精度的显着改善。最近介绍了轻量级CNN型号用于实时任务。本文介绍了一种基于CNN的轻量级模型,可以适合诸如覆盆子PI的有限边缘装置。我们所提出的模型提供了具有更好的性能时间,较小的尺寸和与现有方法的可比准确度。在多个基准数据集中评估模型性能。它也与现有模型相比,在大小,平均处理时间和F分数方面。建议未来研究的其他增强功能。
translated by 谷歌翻译
我们在大图中介绍了图形神经网络(GNNS)的分布式全批量培训的顺序聚合和换算(SAR)方案。最近,GNN的大规模培训是基于非学习消息传递的基于采样的方法和方法主导的。另一方面,SAR是一种分布式技术,可以直接在整个大图上培训任何GNN类型。 SAR中的关键创新是分布式顺序修补方案,其在后向通过期间依次重新构造,然后在后向通行证期间释放禁止的大型GNN计算图。这导致优异的记忆缩放行为,其中每个工作人员的内存消耗与工人的数量线性地下降,即使对于密集连接的图形。使用SAR,我们报告了最大的全批量GNN培训应用到目前为止,并随着工人数量的增加而展示了大的内存节省。我们还基于内核融合和注意力矩阵的一般技术提出了一种优化了基于关注的模型的运行时和内存效率。我们表明,与SAR相结合,我们的优化注意核导致了基于关注的GNN的显着加速和内存节省。
translated by 谷歌翻译
最近的性能(SOTA)用于图表代表学习(GRL)的性能的改进已经以显着的计算资源要求,例如,用于训练,例如,通过背部计算渐变在许多数据时期。同时,单数值分解(SVD)可以找到闭合形式的解决方案以凸出的问题,仅使用少数时代的时期。在本文中,我们为具有适度硬件的人进行了更多计算贸易。我们设计一个计算\ textit {隐式}定义的矩阵的SVD的框架,并将此框架应用于多个GRL任务。对于每个任务,我们导出了SOTA模型的线性近似,其中我们设计(昂贵 - 存储)矩阵$ \ mathbf {m} $和培训模型,通过$ \ mathbf {m}的svd rend-form,以封闭形式$,无需计算$ \ mathbf {m} $的条目。通过在一个步骤中融合到独特的点,并且在没有计算梯度的情况下,我们的模型在文章引文和生物互动网络等各种图表中显示出具有竞争性的经验测试性能。更重要的是,SVD可以初始化更深入的模型,该模型几乎无处不在地是非线性的,但在其参数驻留在超平面上时,虽然线性地行事,但是在超平面上初始化时,则行为。然后,更深入的模型可以在仅几个时期内进行微调。总的来说,我们的程序比现有技术的方法训练数百次,同时竞争经验测试性能。我们开源我们的实施:https://github.com/samihaija/isvd
translated by 谷歌翻译
介绍了埃及对话中阿拉伯语语音错误发布检测的最大数据集。DataSet由表示最常用于阿拉伯语中最常用的100个单词的注释音频文件组成,由100埃及儿童(年龄在2到8岁之间)发出明显。通过专家侦听器收集数据集并注释在分段发音错误检测上。
translated by 谷歌翻译
用于计算病理(CPATH)的深度分割模型的发展可以帮助培养可解释的形态生物标志物的调查。然而,这些方法的成功存在主要瓶颈,因为监督的深度学习模型需要丰富的准确标记数据。该问题在CPATH领域加剧,因为详细注释的产生通常需要对病理学家的输入能够区分不同的组织构建体和核。手动标记核可能不是收集大规模注释数据集的可行方法,特别是当单个图像区域可以包含数千个不同的单元时。但是,仅依靠自动生成注释将限制地面真理的准确性和可靠性。因此,为了帮助克服上述挑战,我们提出了一种多级注释管道,以使大规模数据集进行用于组织学图像分析,具有病理学家in-循环的细化步骤。使用本市管道,我们生成最大的已知核实例分段和分类数据集,其中包含近百万分之一的H&E染色的结肠组织中标记的细胞核。我们发布了DataSet并鼓励研究社区利用它来推动CPATH中下游小区模型的发展。
translated by 谷歌翻译