Uniapaired 3D对象完成旨在从不完整的输入预测完整的3D形状,而不知道训练期间完整和不完整的形状之间的对应关系。为了构建两个数据模式之间的对应关系,之前的方法通常会应用逆势训练以匹配编码器提取的全局形状特征。然而,这忽略了解码器的金字塔层次结构中嵌入的多级几何信息之间的对应关系,这使得先前的方法难以产生高质量的完整形状。为了解决这个问题,我们提出了一种新颖的未配对形状完成网络,命名为MFM-Net,使用多级特征匹配,将几何对应的学习分解成在点云解码器中的分层生成过程中的多级。具体地,MFM-Net采用双路径架构,以在解码器的不同层中建立多个特征匹配信道,然后与对手学习组合以合并来自完整和不完整的模式的特征的分布。此外,还应用了一种改进来增强细节。结果,MFM-Net利用更全面的理解来在本地到全局角度下建立完整和不完整的形状之间的几何对应,这使得能够更详细的几何推断来产生高质量的完整形状。我们对多个数据集进行全面实验,结果表明,我们的方法优于以前的未配对点云完成方法,具有大的余量。
translated by 谷歌翻译
会话双语语言包括三种类型的话语:两个纯粹单色类型和一个内侧型代码切换类型。在这项工作中,我们提出了一个综合框架,共同模拟包括双语语音识别的单声道和代码交换机子任务的可能性。通过定义具有标签到帧同步的单个子任务,我们的联合建模框架可以条件地分解,使得可以仅获得或可能不切换的最终双语输出,仅给出单格式信息。我们表明,该条件分解的联合框架可以由端到端可分解的神经网络进行建模。我们展示了我们拟议模型在单语和代码切换的语料中对双语普通话语音识别的效果。
translated by 谷歌翻译
用于压缩神经网络的非均匀量化策略通常实现的性能比其对应于对应物,即统一的策略,因为其优越的代表性能力。然而,许多非均匀量化方法在实现不均匀量化的权重/激活时忽略了复杂的投影过程,这在硬件部署中引起了不可忽略的时间和空间开销。在这项研究中,我们提出了非均匀致均匀的量化(N2UQ),一种方法,其能够保持非均匀方法的强表示能力,同时硬件友好且有效地作为模型推理的均匀量化。我们通过学习灵活的等距输入阈值来实现这一目标,以更好地拟合潜在的分布,同时将这些实值输入量化为等距输出电平。要使用可学习的输入阈值训练量化网络,我们将广义直通估计器(G-STE)介绍,用于难以应答的后向衍生计算W.r.t.阈值参数。此外,我们考虑熵保持正则化,以进一步降低重量量化的信息损失。即使在这种不利约束的施加均匀量化的重量和激活的情况下,我们的N2UQ也经历了最先进的非均匀量化方法,在想象中达到了0.7〜1.8%,展示了N2UQ设计的贡献。代码将公开可用。
translated by 谷歌翻译
我们介绍了文本到图像生成的矢量量化扩散(VQ-扩散)模型。该方法基于矢量量化变分性AutoEncoder(VQ-VAE),其潜像通过最近开发的去噪扩散概率(DDPM)的条件变体为基础。我们发现这种潜在空间方法非常适合于图像到图像生成任务,因为它不仅消除了具有现有方法的单向偏差,还允许我们结合掩模和更换的扩散策略,以避免积累错误,这是现有方法的严重问题。我们的实验表明,与具有类似数量的参数数量的传统自回归(AR)模型相比,VQ扩散产生明显更好的文本到图像生成结果。与以前的基于GAN的文本到图像方法相比,我们的VQ扩散可以通过大边缘处理更复杂的场景并提高合成的图像质量。最后,我们表明我们的方法中的图像生成计算可以通过Reparameter化进行高效。利用传统的AR方法,文本到图像生成时间随输出图像分辨率线性增加,因此即使对于正常尺寸图像也是相当耗时的。 VQ-扩散使我们能够在质量和速度之间实现更好的权衡。我们的实验表明,具有Reparameterization的VQ扩散模型比传统的AR方法快15倍,同时实现更好的图像质量。
translated by 谷歌翻译
视觉变形金刚(VIT)S表现出可观的全球和本地陈述的自我监督学习表现,可以转移到下游应用程序。灵感来自这些结果,我们介绍了一种新的自我监督学习框架,具有用于医学图像分析的定制代理任务。具体而言,我们提出:(i)以新的3D变压器为基础的型号,被称为往返变压器(Swin Unet),具有分层编码器,用于自我监督的预训练; (ii)用于学习人类解剖学潜在模式的定制代理任务。我们展示了来自各种身体器官的5,050个公共可用的计算机断层扫描(CT)图像的提出模型的成功预培训。通过微调超出颅穹窿(BTCV)分割挑战的预先调整训练模型和来自医疗细分牌组(MSD)数据集的分割任务,通过微调训练有素的模型来验证我们的方法的有效性。我们的模型目前是MSD和BTCV数据集的公共测试排行榜上的最先进的(即第1号)。代码:https://monai.io/research/swin-unetr.
translated by 谷歌翻译
针灸是一种技术,从业者刺激身体上的​​特定点。这些点,称为针灸点(或穴位),解剖学上限定皮肤上的区域相对于身体上的一些地标。传统针灸治疗依靠经验丰富的针灸师进行精确定位穴位。由于缺乏视觉线索,新手通常会发现它很难。该项目提供了Faceatlasar,一个原型系统,在增强现实(AR)上下文中定位和可视化面部穴位。该系统旨在以解剖学但可行的方式定位面部穴位和耳廓区域图,2)通过AR中的类别覆盖所要求的穴位,3)在耳朵上显示檐耳区图。我们采用MediaPipe,一个跨平台机器学习框架,构建在桌面和Android手机上运行的管道。我们在不同的基准上执行实验,包括“野外”,AMI EAR数据集和我们自己的注释数据集。结果显示面部穴位的定位精度为95%,99%/ 97%(“野生”/ ami)用于耳廓区域地图和高稳健性。通过该系统,用户甚至不是专业人士,可以快速定位穴位以获得自我压缩处理。
translated by 谷歌翻译
大多数图形神经网络(GNNS)使用传递范例的消息,其中节点特征在输入图上传播。最近的作品指出,从远处节点流动的信息失真,作为限制依赖于长途交互的任务的消息的效率。这种现象称为“过度挤压”,已经启动到图形瓶颈,其中$ k $ -hop邻居的数量以$ k $迅速增长。我们在GNNS中提供了精确描述了GNNS中的过度挤压现象,并分析了它如何从图中的瓶颈引发。为此目的,我们介绍了一种新的基于边缘的组合曲率,并证明了负曲面负责过度挤压问题。我们还提出并通过实验测试了一种基于曲率的曲线图重新挖掘方法,以减轻过度挤压。
translated by 谷歌翻译
在基于深度学习的中文命名实体识别的任务中,激活函数起到不可替代的作用,它将非线性特性引入神经网络中,从而可以将拟合模型应用于各种任务。然而,工业安全分析文本的信息密度相对较高,信息之间的相关性和相似性很大,这很容易导致模型的高偏差问题和高标准偏差,没有设计特定的激活功能在先前的研究中,传统的激活函数具有梯度消失和负区域的问题,这也导致模型的识别精度不能进一步提高。为了解决这些问题,本文提出了一种新的激活功能AIS。 AIS是应用于工业安全工程中的激活功能,由两种分段非线性功能组成。在正区域中,组合指数函数和二次函数的结构用于缓解偏差和标准偏差的问题,并且添加线性函数以修改它,这使得整个激活函数更顺畅并克服梯度消失的问题。在负区域中,立方函数结构用于解决负面区域问题并加速模型的收敛。基于BERT-BILSTM-CRF的深度学习模型,评估AIS的性能。结果表明,与其他激活功能相比,AIS克服了梯度消失和负面区域的问题,减少了模型的偏差,加快了模型配件,提高了工业实体模型的提取能力。
translated by 谷歌翻译
在本研究中,提出了一种新的,一般和巧妙的激活函数,被称为MDAC,以超越梯度消失和不可分化的存在的麻烦。 MDAC大致继承指数激活函数(如Tanh系列)的属性和分段线性激活函数(例如Relu系列)。具体地,在正区域中,自适应线性结构被设计为响应各种域分布。在负面地区,指数和线性度的组合被认为是征服梯度消失的障碍。此外,通过光滑的近似消除了不可分化的存在。实验表明,MDAC通过简单地改变激活功能,MDAC在六个域数据集中提高了六个域数据集的性能,这表明MDAC的有效性和高尚的革命性。 MDAC优于鲁棒性和泛化的其他普遍激活功能,并且可以在多个域中反映出色的激活性能。
translated by 谷歌翻译
危险和可操作性分析(HAZOP)是工业安全工程中卓越的代表,HAZOP报告包含了工业安全知识(ISK)的巨大仓库。为了解锁ISK的价值并提高HAZOP效率,提出了一种新颖的知识图表开发工业安全(ISKG)。首先,根据国际标准IEC61882,我们使用自上而下的方法将HAZOP解体到具有多级信息的危险事件,该事件构建本体库。其次,采用自下而上的方法和自然语言处理技术,我们提出了一种基于杂交深度学习的Hainex的巧妙信息提取模型。简而言之,Hainex由以下模块组成:改进的工业双向编码器,用于提取语义特征,用于获得上下文表示的双向短期存储网络,以及基于具有改进的工业损失功能的条件随机场的解码器。最后,将构造的HAZOP三元组导入图表数据库。实验表明,Hainex先进,可靠。我们采取间接煤液化过程作为发展ISKG的案例研究。 ISKG导向应用,如ISK可视化,ISK检索,辅助斑纹和危险传播推理,可以挖掘ISK的潜力,提高HAZOP效率,这在加强工业安全方面具有重要意义。更重要的是,基于ISKG的问答系统可以应用于教学指导,以推广安全知识,并加强对非专业人士的预防意识。
translated by 谷歌翻译