多模态情绪分析是研究由语言,视觉和声学模式表达的说话者情感的核心研究领域。多模态学习中的中心挑战涉及推断可以处理和关联来自这些模态的信息的联合表示。然而,现有工作通过要求所有模态作为输入来学习联合表示,因此,学习的表示可能对测试时的噪声缺失模态敏感。随着机器翻译中序列序列(Seq2Seq)模型的最近成功,有机会探索在测试时可能不需要所有输入模态的联合表示的新方法。在本文中,我们提出了一种通过在模态之间进行转换来学习联合表示的方法。我们的方法基于以下关键洞察:从源到目标模态的转换提供了仅使用源模态作为输入来学习联合表示的方法。我们使用循环一致性损失来增强模态转换,以确保我们的联合表示保留最大的信息。一旦我们的翻译模型使用配对的多模态数据进行训练,我们只需要在测试时从源模态获得最终情绪预测的数据。这确保了我们的模型在其他模态中保持强大的功能或缺少信息。我们使用耦合的翻译预测目标训练我们的模型,并在多模态情感分析数据集上实现最新的结果:CMU-MOSI,ICT-MMMO和YouTube。另外的实验表明,我们的模型学习越来越多的判别性联合表示,具有更多的输入模态,同时保持对丢失或扰动模态的鲁棒性。
translated by 谷歌翻译
胶质瘤是最常见的原发性脑恶性肿瘤,具有不同程度的侵袭性,可变预后和各种异质性组织亚区域,即肿瘤周围水肿/侵入组织,坏死核心,活性和非增强核心。这种内在的异质性也被用于它们的放射性表型,因为它们的子区域通过在多参数磁共振成像(mpMRI)扫描中传播的不同强度分布来描绘,反映了不同的生物学特性。它们的异质形状,范围和位置是其中的一部分。使这些肿瘤难以切除的因素,在某些情况下无法手术。切除肿瘤的数量也是纵向扫描中考虑的一个因素,用于评估表观肿瘤以进行潜在的进展诊断。此外,有越来越多的证据表明,各种肿瘤亚区域的准确分割可以为定量图像分析提供预测患者整体的基础。生存。该研究评估了在国际脑肿瘤分割(BraTS)挑战的最后七个实例(即2012-2018)期间用于mpMRI扫描中的脑肿瘤图像分析的最先进的机器学习(ML)方法。具体而言,我们专注于i)评估术前mpMRI扫描中各种神经胶质瘤亚区的分割,ii)通过肿瘤亚区的纵向生长评估潜在的肿瘤进展,超出RECIST标准的使用,以及iii)预测整体术前mpMRI扫描对经历完全切除的患者的生存率。最后,我们研究了为每个任务确定最佳ML算法的挑战,考虑到除了在每个挑战实例上多样化之外,多机构mpMRI BraTS数据集也是一个不断发展/不断发展的数据集。
translated by 谷歌翻译
多模式机器学习是跨越语言,视觉和声学模式的核心研究领域。多模式学习的核心挑战涉及学习表示,可以处理和关联来自多种模态的信息。在本文中,我们提出了两种使用序列到序列(Seq2Seq)方法进行联合多模态表示的无监督学习的方法:a \ textit {Seq2Seq模态翻译模型}和\ textit {Hierarchical Seq2Seq模态翻译模型}。我们还探讨了这些seq2seq模型的多模式输入和输出的多种不同变化。我们使用CMU-MOSI数据集进行多模态情感分析的实验表明,我们的方法学习的信息多模态表示优于基线并在多模态情感分析中实现改进的性能,特别是在我们的模型能够将F1得分提高12分的双峰情况下。我们还讨论了多模式Seq2Seq方法的futuredirections。
translated by 谷歌翻译
视网膜血管的准确分割是糖尿病性视网膜病变(DR)检测的基本步骤。大多数基于深度卷积神经网络(DCNN)的方法具有较小的感受野,因此它们无法捕获较大区域的全局背景信息,具有难以识别的病变。最终的分段视网膜血管包含更多噪声,分类精度低。因此,在本文中,我们提出了一个名为D-Net的DCNN结构。在所提出的D-Net中,扩张卷积用于骨干网络中以获得更大的感受野而没有空间分辨率,从而减少特征信息的丢失并减少细小血管分割的难度。大的感受野可以更好地区分病变区域和血管容器。在所提出的多尺度信息融合模块(MSIF)中,使用具有不同扩张率的平行卷积层,使得模型可以获得更密集的特征信息并且更好地捕获不同尺寸的视网膜血管信息。在解码模块中,跳过层连接用于将上下文信息传播到更高分辨率的层,以防止低级信息通过整个网络结构。最后,我们的方法在DRIVE,STARE和CHASE数据集上得到了验证。实验结果表明,我们的网络结构在准确性,灵敏度,特异性方面优于N4-fields,U-Net和DRIU等一些现有方法。和AUCROC。特别是,D-Net在DRIVE,STARE和CHASE三数据集中的U-Net分别优于1.04%,1.23%和2.79%。
translated by 谷歌翻译
神经语言模型(NLM)通过学习单词的密集表示并使用它们来估计概率分布函数来实现强泛化能力。然而,学习rarewords的表示是一个具有挑战性的问题,导致NLM产生不可靠的概率估计。为了解决这个问题,我们提出了一种方法来丰富预训练NLM中稀有单词的表示,从而提高其概率估计性能。所提出的方法增加了预训练NLM的wordembedding矩阵,同时保持其他参数不变。具体地,我们的方法使用其他语义和语法相似词的嵌入向量来更新稀有词的嵌入向量。为了评估所提出的方法,我们在预先训练的NLM中丰富了罕见的街道名称,并用它来重新调整来自新加坡英语语音识别系统的100个最佳假设。与基线NLM相比,丰富的NLM相对减少了6%的蠕动率,并且将rarewords的识别准确度提高了16%。
translated by 谷歌翻译
自动编码器是一种神经网络,其数据投射到低维潜在空间和从低维潜在空间投射,其中该数据更容易理解和建模。自动编码器由两个子网络组成,即编码器和解码器,它们执行这些变换。训练神经网络使得输出尽可能接近输入,数据已经通过信息瓶颈:潜在空间。该工具与主成分分析(PCA)具有显着的相似性,主要有两个区别。首先,自动编码器是一种非线性变换,与PCA相反,它使自动编码器更加灵活和强大。其次,由aPCA找到的轴是正交的,并且根据数据沿这些轴呈现的可变性量来排序。这使得PCA的可解释性大于自动编码器的可解释性,后者没有这些属性。理想情况下,我们想要一个自动编码器,其潜在空间由独立组件组成,通过降低对数据的重要性来排序。在本文中,我们提出了一种创建这种网络的算法。我们创建一个迭代算法,逐步增加thelatent空间的大小,在每一步学习一个新的维度。其次,我们建议将协方差损失项添加到标准自动编码器损失函数中,以及在潜在空间之前的归一化层,这促使有限空间分量在统计上独立。我们在简单的几何形状上展示了这种自动编码器的结果,并发现该算法确实在潜在空间中找到了有意义的表示。这意味着潜在空间中的后续插值具有关于图像的几何特性的含义。
translated by 谷歌翻译
在本研究中,我们建立了在应用机器学习技术解决材料科学问题时选择相似性度量的基础。这种选择被认为强调了反映其性质的材料之间的独特性。我们用使用轨道场矩阵描述符和库仑矩阵描述符表示的稀土过渡金属晶体化合物的adataset进行案例研究。使用k-最近邻回归,岭回归和核岭回归来执行对地层能量的预测。通过对产量预测精度的详细分析,我们研究了材料表示和相似性度量的特征之间的关系,以及它们可以捕获的能量函数的复杂性。经验实验和理论分析表明,相似性度量和最小化材料独特性损失的核心提高了预测性能。
translated by 谷歌翻译
神经机器翻译(NMT)系统的多语言训练已经导致对低资源语言的精确改进。然而,在缺乏数据的情况下,有效学习单词表示仍然存在重大挑战。在本文中,我们提出了软解耦编码(SDE),这是一种多语言词典编码框架,专门设计用于智能地共享层级信息,而不需要诸如预分割数据之类的启发式预处理。 SDE通过字符编码表示一个单词,通过所有语言共享的嵌入空间表示其语义。对四种低资源语言的标准数据集进行的实验显示,对于强多语言NMT基线有一致的改进,其中一种测试语言的增益高达2 BLEU,在所有四种语言对上实现了新的最新技术水平。
translated by 谷歌翻译
多项选择阅读理解是一项具有挑战性的任务,需要复杂的推理程序。鉴于段落和问题,需要从一组候选答案中选择正确的答案。在本文中,我们提出了\ textbf {D} ual \ textbf {C} o- \ textbf {M} atching \ textbf {N} etwork(\ textbf {DCMN}),它模拟了段落,问题和答案之间的关系。与现有的只计算问题感知或选项感知通道表示的方法不同,我们同时计算通道感知问题表示和通道感知答案表示。为了证明我们的模型的有效性,我们在大型多选机阅读理解数据集({\ em,即RACE)上评估我们的模型。实验结果表明,我们提出的模型可以产生新的最新结果。
translated by 谷歌翻译
深度神经网络(DNN)在各种预测任务中已经取得了优异的性能,但是很容易受到对抗性示例或扰动的影响。因此,在实际应用中测量DNN对各种扰动的敏感性至关重要。我们引入了一种新颖的微扰流形及其相关的影响度量来量化各种扰动对DNN分类器的影响。这种扰动包括对输入样本和网络参数的各种外部和内部扰动。所提出的度量由信息几何驱动并提供期望的不变性属性。我们证明了我们的影响测量对于四个模型构建任务是有用的:检测潜在的“异常值”,分析模型体系结构的敏感性,比较训练和测试集之间的网络敏感性,以及定位易受攻击的区域。实验表明所提出的测量方法的性能相当好DNN在CIFAR10和MNIST数据集上建模ResNet50和DenseNet121。
translated by 谷歌翻译