我们提出了一种模块化架构,用于终身学习的分层结构化任务。具体而言,我们证明我们的架构是理论上能够学习通过可被学习的函数来解决的任务,这些任务可以给予用于其他,先前学习的任务作为子例程的函数。我们经验证明,我们可以通过标准培训方法在实践中学习的一些任务;实际上,事先工作表明,在没有更简单的任务的帮助下,无法通过任何有效的方法学习一些这样的任务。我们还考虑自动识别任务的方法,而无需依赖明确给出指标。
translated by 谷歌翻译
复杂查询应答(CQA)是知识图中的一个重要推理任务。目前已经证明能够从原子操作员概括到更复杂的公式中的当前CQA学习模型,这可以被视为组合概括性。在本文中,我们呈现EFO-1-QA,通过包括301种不同的查询类型来基准CQA模型的组合概括性的EFO-1-QA来基准,这是比现有数据集大的20倍。此外,我们的工作首次提供基准来评估和分析不同运营商和正常形式的影响,通过使用(a)7个选择的操作系统和(b)9形式的复杂查询。具体地,我们提供了两个常用的运营商的组合概括性的详细研究,即投影和交叉点,并证明了鉴于运营商的规范选择的疑问形式的影响。我们的代码和数据可以为基准CQA模型提供有效的管道。
translated by 谷歌翻译
多发性硬化症(MS)是中枢神经系统的慢性炎症和退行性疾病,其特征在于,白色和灰质的外观与个体患者的神经症状和标志进行地平整相关。磁共振成像(MRI)提供了详细的体内结构信息,允许定量和分类MS病变,其批判性地通知疾病管理。传统上,MS病变在2D MRI切片上手动注释,一个流程效率低,易于观察室内误差。最近,已经提出了自动统计成像分析技术以基于MRI体素强度检测和分段段病变。然而,它们的有效性受到MRI数据采集技术的异质性和MS病变的外观的限制。通过直接从图像学习复杂的病变表现,深度学习技术已经在MS病变分割任务中取得了显着的突破。在这里,我们提供了全面审查最先进的自动统计和深度学习MS分段方法,并讨论当前和未来的临床应用。此外,我们审查了域适应等技术策略,以增强现实世界临床环境中的MS病变分段。
translated by 谷歌翻译
从单个视图中重建高质量的3D对象,从单个视图中的部分观测可能对计算机视觉,机器人和图形的各种应用来说至关重要。虽然最近的神经隐式建模方法显示了合成或密集数据的有希望的结果,但它们在稀疏和嘈杂的现实世界数据上表现不佳。我们发现流行的神经隐式模型的局限性是由于缺乏鲁棒形状的主管和缺乏适当的正则化。在这项工作中,我们展示了使用:(i)一个深度编码器作为形状潜在代码的鲁棒初始化器的深度编码器; (ii)正规化的测试时间优化潜在代码; (iii)以学习的高维形状为深度鉴别者; (iv)一种新颖的课程学习策略,允许模型学习合成数据的形状前瞻,并将其平稳地将它们转移到稀疏的现实世界数据。我们的方法更好地捕获了全局结构,在遮挡和稀疏观测上表现良好,并用地面真理形状良好寄存。我们在两个现实世界数据集上展示了最先进的3D对象重建方法的卓越性能。
translated by 谷歌翻译
我们介绍了CVSS,这是一种大规模的多语言对语音转换(S2ST)语料库,从21种语言覆盖了21种语言的句子级并行S2ST对。通过将Covost 2从Covost 2的翻译文本综合将翻译文本与最先进的TTS系统合成语音,源自公共语音语音语料库和COVOST 2语音到文本转换(ST)语料库。提供了两个版本的翻译演讲:1)CVSS-C:所有翻译演讲都是一种高质量的规范声音; 2)CVSS-T:翻译语音从相应的源语音传输。此外,CVSS提供标准化的翻译文本,它与翻译语音中的发音匹配。在每个版本的CVSS上,我们建立了基线多语言直接S2ST模型和Cascade S2ST模型,验证了语料库的有效性。为了构建强大的Cascade S2ST基准,我们在Covost 2上培训了St模型,这优于前一种最先进的培训,而无需额外的数据。尽管如此,直接S2ST模型的性能在从头开始训练时接近强级联基线,并且在匹配ST模型中初始化时,仅在ASR转换转换时的0.1或0.7bleu差异。
translated by 谷歌翻译
我们在本文中重新审视语义场景(SSC),是预测3D场景的语义和占用表示的有用任务。此任务的许多方法始终基于用于保存本地场景结构的体蛋白化场景表示。然而,由于存在可见空体素,当网络更深时,这些方法总是遭受重型计算冗余,从而限制完成质量。为了解决这种困境,我们提出了我们为此任务的新型点体素聚集网络。首先,我们通过去除这些可见的空体素来将Voxized场景传输到点云,并采用深点流,以有效地从场景中捕获语义信息。同时,仅包含两个3D卷积层的轻重体素流保留了体蛋白化场景的局部结构。此外,我们设计一个各向异性体素聚合运算符,将结构细节从体素流融合到点流中,并通过语义标签来增强点流中的上采样过程的语义感知传播模块。我们展示了我们的模型在两个基准上超越了最先进的余量,只有深度图像作为输入。
translated by 谷歌翻译
最优传输(OT)正式确定在给定成本矩阵的概率测量之间找到最佳耦合的问题。推断给出耦合的成本的逆问题是逆最佳传输(物联网)。IOT不太明朗地理解OT。我们使用熵正规的OT研究的工具来正式化和系统地分析物联网的属性。理论贡献包括横向比等同成本的歧管的表征,模型前沿的含义,以及MCMC采样器的推导。经验贡献包括对基本实施例和仿真验证理论结果的基本实施例的串联等效效果的可视化。
translated by 谷歌翻译
自我监督的学习是一种从自然数据中学习有用表示的强大方法。还建议作为在人类中建立视觉表现的一种可能手段,但具体的目标和算法是未知的。目前,大多数自我监督的方法都鼓励系统学习与其他图像相反的相同图像的不同变换的不变表示。然而,这种变换通常是非生物学上的,并且通常由具有随机裁剪和颜色抖动之类的具有相识的感知方案组成。在本文中,我们试图反向工程师这些增强术语更加生物学或感知可符号,同时仍然赋予鼓励鲁棒代表的相同益处。批判性地,我们发现随机裁剪可以被皮质倍率代替,并且图像的扫视样品也可以帮助表示学习。这些转变的可行性表明,生物视觉系统可以实施自我监督的潜在方式。此外,它们打破了许多计算机视觉算法中使用的广泛接受的空间均匀的处理假设,这表明在人类和机器中的空间自适应计算的作用。我们可以在此处找到我们的代码和演示。
translated by 谷歌翻译
自我监督的学习表明它有可能在没有人为注释的情况下提取强大的视觉表现。提出各种作品从不同的角度处理自我监督的学习:(1)对比学习方法(例如,MOCO,SIMCLR)利用阳性和阴性样品来引导训练方向; (2)不对称网络方法(例如,BYOL,SIMSIAM)通过引入预测器网络和止动梯度操作来摆脱阴性样本; (3)特征去相关方法(例如,Barlow Twins,ViCREG),而是旨在降低特征尺寸之间的冗余。这些方法在各种动机的设计损失功能中看起来非常不同。最终的准确度数也各不相同,其中不同的网络和技巧在不同的作品中使用。在这项工作中,我们证明这些方法可以统一成相同的形式。我们不是比较他们的损失函数,我们通过梯度分析推出统一的公式。此外,我们进行公平和详细的实验以比较他们的表现。事实证明,这些方法之间几乎没有差距,并且使用动量编码器是提高性能的关键因素。从这个统一的框架来看,我们提出了一个简单但有效的自我监督学习的简单但有效的渐变形式。它不需要内存银行或预测的网络,但仍然可以实现最先进的性能,并轻松采用其他培训策略。广泛的线性评估实验和许多下游任务也表现出其有效性。代码应释放。
translated by 谷歌翻译
最近,基于变压器的图像分割方法对先前的解决方案取得了显着的成功。虽然对于视频域,如何有效地模拟时间上下文,以跨越帧的对象实例的注意仍然是一个打开问题。在本文中,我们提出了一种具有新颖的实例感知时间融合方法的在线视频实例分段框架。我们首先利用表示,即全局上下文(实例代码)和CNN特征映射中的潜在代码来表示实例和像素级别功能。基于此表示,我们介绍了一种无裁剪的时间融合方法来模拟视频帧之间的时间一致性。具体地,我们在实例代码中编码全局实例特定信息,并在实例代码和CNN特征映射之间构建与混合关注的帧间上下文融合。使用订单约束进一步强制执行实例代码之间的帧间一致性。通过利用学习的混合时间一致性,我们能够直接检索和维护帧中的实例标识,从而消除了先前方法中的复杂帧实例匹配。已经在流行的VIS数据集中进行了广泛的实验,即YouTube-Vis-19/21。我们的模式实现了所有在线VIS方法中的最佳性能。值得注意的是,我们的模型也在使用Reset-50骨干时eClipses所有脱机方法。
translated by 谷歌翻译