Deep learning approaches to 3D shape segmentation are typically formulated as a multi-class labeling problem. Existing models are trained for a fixed set of labels, which greatly limits their flexibility and adaptivity. We opt for top-down recursive decomposition and develop the first deep learning model for hierarchical segmentation of 3D shapes, based on recursive neural networks. Starting from a full shape represented as a point cloud, our model performs recursive binary decomposition, where the decomposition network at all nodes in the hierarchy share weights. At each node, a node classifier is trained to determine the type (ad-jacency or symmetry) and stopping criteria of its decomposition. The features extracted in higher level nodes are recursively propagated to lower level ones. Thus, the meaningful decompositions in higher levels provide strong con-textual cues constraining the segmentations in lower levels. Meanwhile, to increase the segmentation accuracy at each node, we enhance the recursive contextual feature with the shape feature extracted for the corresponding part. Our method segments a 3D shape in point cloud into an unfixed number of parts, depending on the shape complexity, showing strong generality and flexibility. It achieves the state-of-the-art performance, both for fine-grained and semantic segmentation, on the public benchmark and a new benchmark of fine-grained segmentation proposed in this work. We also demonstrate its application for fine-grained part refinements in image-to-shape reconstruction.
translated by 谷歌翻译
Cascade是一种经典但功能强大的架构,可以提升各种任务的性能。但是,如何将级联引入实例分割仍然是一个悬而未决的问题。 Cascade R-CNN和Mask R-CNNonly的简单组合带来有限的增益。在探索更有效的方法时,我们发现成功的实例分割级联的关键是充分利用检测和分割之间的相互关系。在这项工作中,我们提出了一个新的框架,混合任务级联(HTC),它在两个重要方面有所不同:(1)它们不是分别对这些两个方面进行级联细化,而是将它们交织在一起进行联合多阶段处理; (2)采用完全卷积分支提供空间背景,有助于区分硬前景与杂乱背景。总的来说,这个框架可以逐步学习更多的判别特征,同时在每个阶段将互补特征整合在一起。没有钟声和口哨,单个HTC比MSCOCO数据集上强大的CascadeMask R-CNN基线获得38.4%和1.5%的改进。更重要的是,我们的整体系统在测试挑战数据集和49.0掩模AP ontest-dev上实现了48.6掩模AP,这是最先进的性能。
translated by 谷歌翻译
胶质瘤是最常见的原发性脑恶性肿瘤,具有不同程度的侵袭性,可变预后和各种异质性组织亚区域,即肿瘤周围水肿/侵入组织,坏死核心,活性和非增强核心。这种内在的异质性也被用于它们的放射性表型,因为它们的子区域通过在多参数磁共振成像(mpMRI)扫描中传播的不同强度分布来描绘,反映了不同的生物学特性。它们的异质形状,范围和位置是其中的一部分。使这些肿瘤难以切除的因素,在某些情况下无法手术。切除肿瘤的数量也是纵向扫描中考虑的一个因素,用于评估表观肿瘤以进行潜在的进展诊断。此外,有越来越多的证据表明,各种肿瘤亚区域的准确分割可以为定量图像分析提供预测患者整体的基础。生存。该研究评估了在国际脑肿瘤分割(BraTS)挑战的最后七个实例(即2012-2018)期间用于mpMRI扫描中的脑肿瘤图像分析的最先进的机器学习(ML)方法。具体而言,我们专注于i)评估术前mpMRI扫描中各种神经胶质瘤亚区的分割,ii)通过肿瘤亚区的纵向生长评估潜在的肿瘤进展,超出RECIST标准的使用,以及iii)预测整体术前mpMRI扫描对经历完全切除的患者的生存率。最后,我们研究了为每个任务确定最佳ML算法的挑战,考虑到除了在每个挑战实例上多样化之外,多机构mpMRI BraTS数据集也是一个不断发展/不断发展的数据集。
translated by 谷歌翻译
阅读策略已经被证明可以提高理解水平,特别是对于缺乏足够先验知识的读者。正如知识积累的过程对于人类读者来说是耗时的一样,通过预训练将丰富的一般领域知识传递到语言模型中是一种资源要求(Radford等,2018; Devlin等,2018)。受到认知科学中确定的阅读策略的启发,以及有限的计算资源 - 只是预先训练的模型和固定数量的训练实例 - 我们因此提出了三个简单的领域独立策略,旨在改善非提取机器阅读理解(MRC):( i)返回和阅读,同时考虑输入序列的原始顺序和反向顺序,(ii)突出显示,增加可训练嵌入到与问题和候选人相关的令牌的文本嵌入,以及(iii)产生实践的自我评估问题并以无人监督的方式直接从文本中提出答案。通过使用我们在最大的现有通用域多选MRCdataset RACE上提出的策略微调预训练语言模型(Radford等,2018),我们获得的精确度比之前的最高结果的绝对值增加5.8%。在没有使用策略的情况下在RACE上微调的预训练模型。我们进一步微调了目标任务上的结果模型,从而为来自不同领域的六个代表性非提取MRC数据集(即ARC,OpenBookQA,MCTest,MultiRC,SemEval-2018和ROCStories)带来了最新的最新结果)。这些结果表明了所提出的策略的有效性以及包含这些策略的微调模型的多功能性和可生成性。
translated by 谷歌翻译
对话状态跟踪是口语对话系统的核心部分。在每次对话转变时都会考虑可能的用户目标的信念。然而,对于大多数当前的方法,很难扩展到大型对话域。它们具有以下一个或多个限制:(a)某些模型在本体中的槽值动态变化的情况下不起作用; (b)模型参数的数量与槽的数量成正比; (c)一些基于手工制作词典的模型提取特征。为了应对这些挑战,我们提出了StateNet,一个普遍的对话状态跟踪器。它独立于值的数量,在所有插槽中共享参数,并使用预先训练的字向量而不是显式语义字典。我们在twodatasets上的实验表明,我们的方法不仅克服了局限性,而且显着优于最先进方法的性能。
translated by 谷歌翻译
文本到SQL任务中的大多数现有研究都不需要生成具有多个子句或子查询的复杂SQL查询,并且需要推广到新的,未见过的数据库。在本文中,我们提出了SyntaxSQLNet,一种语法树网络,用于解决复杂的跨域文本到SQL生成任务.SyntaxSQLNet采用SQL特定的基于语法树的解码器,具有SQLgeneration路径历史和表感知列关注编码器。我们在Spider text-to-SQL任务上评估了SyntaxSQLNet,该任务包含具有多个表的数据库和具有多个SQL子句和嵌套查询的复杂SQL查询。我们使用数据库拆分设置,其中测试集中的数据库在培训期间是不可见的。实验结果表明,SyntaxSQLNet可以处理比以前工作更多的复杂SQL示例,在精确匹配精度方面优于先前最先进的模型8.3%。我们还表明,使用跨域增强方法,SyntaxSQLNet可以进一步提高8.1%的性能,总计提高16.4%。据我们所知,我们是第一个研究这个复杂的跨域文本到SQL任务的人。
translated by 谷歌翻译
知识图嵌入(KGE)旨在表示低维连续向量空间中的实体和知识图的关系。最近的工作重点是将结构知识与附加信息相结合,例如实体描述,关系路径等。然而,常用的附加信息通常包含大量噪声,这使得它很难容忍有价值的表示。在本文中,我们提出了一种新的附加信息,称为实体邻居,它包含给定实体的语义和拓扑特征。然后,我们开发了一个深度记忆网络模型来编码来自邻居的信息。使用门控机制,结构和邻居的表示被整合到一个联合表示中。实验结果表明,我们的模型优于使用实体描述的KGE方法,并在4个数据集上实现了最先进的指标。
translated by 谷歌翻译
语音识别是序列预测问题。除了采用各种深度学习方法进行帧级分类之外,序列 - 低度判别训练已被证明是实现大词汇量连续语音识别(LVCSR)中最先进性能所不可或缺的。然而,关键字定位(KWS)作为最常见的语音识别任务之一,由于难以获得竞争序列假设,因此几乎仅受益于帧级深度学习。关于KWS的序列判别训练的少数研究仅限于固定词汇或基于VLCSR的方法,并且未与基于最新技术的基于学习的KWS方法进行比较。本文针对固定词汇和非限制声学KWS提出了一种序列判别训练框架。系统地研究了序列级别生成和判别模型的序列判别训练。通过引入与字无关的电话格子或非关键字空白符号来构建竞争假设,为声学KWS提出了可行且有效的序列判别训练方法。实验表明,与先前基于帧级深度学习的声学KWS方法相比,所提出的方法在固定词汇和无限制KWS任务中获得了一致且显着的改进。
translated by 谷歌翻译
我们通过$ \ ell_1 $ -minimization研究从一组信号中全局恢复字典的问题。我们假设信号是asi.i.d生成的。来自完整参考字典$ D ^ * \ in \ mathbb R ^ {K \ times K} $的$ K $原子的随机线性组合,其中线性组合系数来自伯努利型模型或精确稀疏模型。首先,我们获得必要且充分的规范条件,引用的字典$ D ^ * $是预期的$ \ ell_1 $目标函数的一个尖锐的局部最小值。我们的结果大大扩展了Wu和Yu(2015)的结果,并允许组合系数是非负的。其次,我们在所引用的字典的目标值最小的区域上获得显式绑定。第三,我们证明了参考字典是唯一的尖锐局部最小值,从而建立了第一个已知的$ \ ell_1 $ -minimization字典学习的全局属性。在理论结果的推动下,我们引入了基于扰动的测试来确定adictionary是否是目标函数的尖锐局部最小值。此外,我们还提出了一种新的基于Block CoordinateDescent的字典学习算法,称为DL-BCD,保证具有单调收敛性。模拟研究表明DL-BCD在恢复率方面具有竞争性,与许多状态相比。 -art字典学习算法。
translated by 谷歌翻译
能够解释来自实时视频流的场景的视觉算法对于计算机辅助手术系统来实现上下文感知行为是必要的。在腹腔镜手术中,这种系统所需的一种特定算法是手术阶段的识别,对于该手术阶段,现有技术是基于CNN-LSTM的模型。许多使用此类模型的先前工作已经以完全监督的方式训练它们,需要完全注释的数据集。相反,我们的工作面临着在提供大量注释数据(低于所有可用视频录像的25%)的情况下学习手术阶段识别的问题。我们提出了ateacher / student类型的方法,其中一个称为教师的强预测器,事先在一个关于地面实况注释视频的小数据集上进行训练,为更大的数据集生成合成注释,另一个模型 - 学生 - 从中​​学习。在我们的案例中,教师采用了新颖的CNN-biLSTM-CRF架构,仅用于离线推理。另一方面,学生是能够进行实时预测的CNN-LSTM。各种数量的手动注释视频的结果证明了新CNN-biLSTM-CRF预测器的优越性以及使用针对未注释视频生成的合成标签从CNN-LSTMtrained获得的改进性能。对于离线和在线手术阶段识别,只有很少的注释记录可用,这种新的教师/学生策略通过有效地利用未注释的数据提供了有价值的性能改进。
translated by 谷歌翻译