解决逆运动学问题是针对清晰机器人的运动计划,控制和校准的基本挑战。这些机器人的运动学模型通常通过关节角度进行参数化,从而在机器人构型和最终效果姿势之间产生复杂的映射。或者,可以使用机器人附加点之间的不变距离来表示运动学模型和任务约束。在本文中,我们将基于距离的逆运动学的等效性和大量铰接式机器人和任务约束的距离几何问题进行形式化。与以前的方法不同,我们使用距离几何形状和低级别矩阵完成之间的连接来通过局部优化完成部分欧几里得距离矩阵来找到逆运动学解决方案。此外,我们用固定级革兰氏矩阵的Riemannian歧管来参数欧几里得距离矩阵的空间,从而使我们能够利用各种成熟的Riemannian优化方法。最后,我们表明,绑定的平滑性可用于生成知情的初始化,而无需大量的计算开销,从而改善收敛性。我们证明,我们的逆运动求解器比传统技术获得更高的成功率,并且在涉及许多工作区约束的问题上大大优于它们。
translated by 谷歌翻译
在没有对其相对姿势的准确估计的情况下,无法正确融合来自两个传感器的数据,这可以通过外部校准的过程来确定。当两个或更多个传感器能够产生自己的eGomotion估计(即,通过环境测量它们的轨迹),可以采用“手眼”外部校准的制定。在本文中,我们将最近的工作扩展到凸优化方法,以便手眼校准到一个传感器不能观察其翻译运动的比例(例如,观察未拍摄环境的单眼摄像机)。我们证明我们的技术能够为手眼校准的已知和未知级别的变体提供认真的全球最佳解决方案,只要测量噪声被界定。这里,我们专注于问题的理论方面,展示了我们解决方案的密封性和稳定性,并通过合成数据的实验展示了我们算法的最优性和速度。
translated by 谷歌翻译
在NLP中,句子的语义表示学习是一个重要且研究的问题。该任务的当前趋势涉及通过与文本的对比目标进行培训基于变压器的句子编码器,即具有语义上相似的含义并散布他人的聚类句子。在这项工作中,我们发现,通过使用另一种模式(例如,句子和不相关的图像/音频数据),使用多模式多任务损失的训练,可以通过多模式多任务损失进行训练来改进变压器模型的性能。特别是,除了通过文本的对比损失学习外,我们的模型簇还来自非语言域(例如,视觉/音频),同时具有相似的对比度损失。我们框架对未配对的非语言数据的依赖使IT语言不可思议,从而使其在英语NLP之外广泛适用。在7个语义文本相似性基准上进行的实验表明,经过其他非语言(图像/音频)对比目标训练的模型可导致更高质量的句子嵌入。这表明变压器模型能够通过执行类似的任务(即聚类),并以多任务方式的不同模式的示例来更好地概括。
translated by 谷歌翻译
自杀是主要的公共卫生危机。每年有超过20,000,000多次自杀企图,对自杀意图的早期发现有可能挽救数十万生命。传统的心理健康筛查方法是耗时的,昂贵的,而且弱势群体通常无法获得;使用机器学习对自杀意图的在线检测提供了可行的替代方法。在这里,我们介绍了迄今为止最大的非关键字生成的自杀语料库Robin,包括超过110万个在线论坛发布。除了其前所未有的规模外,罗宾还专门构建了各种自杀文本,例如自杀丧亲和轻率的参考文献,更好地促进了对罗宾进行培训的模型,以学习表达自杀构思的文本细微差别。实验结果通过传统方法(例如逻辑回归(F1 = 0.85))以及大规模的预训练的语言模型(例如BERT)(F1 = 0.92),实现了自杀文本分类的最新性能。 。最后,我们公开发布Robin数据集作为机器学习资源,有可能推动下一代自杀情绪研究。
translated by 谷歌翻译
众所周知,庞大的文本数据始终是培训深层模型(例如基于变压器)的关键需求。这个问题正在以较低的资源语言(例如Farsi)出现。我们提出了Naab,这是Farsi中最大的清洁和现成的开源文本语料库。它包含约130GB的数据,2.5亿段和150亿个单词。项目名称源自Farsi Word Naab K,这意味着纯净和高级。我们还提供了名为Naab-Raw的语料库的原始版本,以及易于使用的预处理器,可以由想要制作定制语料库的人使用。
translated by 谷歌翻译
生成的对抗网络由于研究人员的最新性能在生成新图像时仅使用目标分布的数据集,因此引起了研究人员的关注。已经表明,真实图像的频谱和假图像之间存在差异。由于傅立叶变换是一种徒图映射,因此说该模型在学习原始分布方面有一个重大问题是一个公平的结论。在这项工作中,我们研究了当前gan的架构和数学理论中提到的缺点的可能原因。然后,我们提出了一个新模型,以减少实际图像和假图像频谱之间的差异。为此,我们使用几何深度学习的蓝图为频域设计了一个全新的架构。然后,我们通过将原始数据的傅立叶域表示作为训练过程中的主要特征来表明生成图像的质量的有希望的改善。
translated by 谷歌翻译
最近,视觉变压器变得非常流行。但是,将它们部署在许多应用程序中的计算昂贵部分是由于注意力块中的软磁层。我们引入了一个简单但有效的,无软的注意力块Sima,它使用简单的$ \ ell_1 $ -norm而不是使用SoftMax层,将查询和密钥矩阵归一化。然后,SIMA中的注意力块是三个矩阵的简单乘法,因此SIMA可以在测试时间动态更改计算的顺序,以在令牌数量或通道数量上实现线性计算。我们从经验上表明,SIMA应用于变形金刚,DEIT,XCIT和CVT的三种SOTA变体,与SOTA模型相比,SIMA可在不需要SoftMax层的情况下达到PAR准确性。有趣的是,将SIMA从多头更改为单头只会对精度产生很小的影响,这进一步简化了注意力障碍。该代码可在此处找到:$ \ href {https://github.com/ucdvision/sima} {\ text {this https url}} $
translated by 谷歌翻译
视觉变压器(VIT)最近在各种视觉任务上表现出了典范的性能,并被用作CNN的替代方案。它们的设计基于一种自我发挥的机制,该机制将图像作为一系列斑块进行处理,与CNN相比,这是完全不同的。因此,研究VIT是否容易受到后门攻击的影响很有趣。当攻击者出于恶意目的,攻击者毒害培训数据的一小部分时,就会发生后门攻击。模型性能在干净的测试图像上很好,但是攻击者可以通过在测试时间显示触发器来操纵模型的决策。据我们所知,我们是第一个证明VIT容易受到后门攻击的人。我们还发现VIT和CNNS之间存在着有趣的差异 - 解释算法有效地突出了VIT的测试图像的触发因素,但没有针对CNN。基于此观察结果,我们提出了一个测试时间图像阻止VIT的防御,这将攻击成功率降低了很大。代码可在此处找到:https://github.com/ucdvision/backdoor_transformer.git
translated by 谷歌翻译
根据诊断各种疾病的胸部X射线图像的可观增长,以及收集广泛的数据集,使用深神经网络进行了自动诊断程序,已经占据了专家的思想。计算机视觉中的大多数可用方法都使用CNN主链来获得分类问题的高精度。然而,最近的研究表明,在NLP中成为事实上方法的变压器也可以优于许多基于CNN的模型。本文提出了一个基于SWIN变压器的多标签分类深模型,作为实现最新诊断分类的骨干。它利用了头部体系结构来利用多层感知器(也称为MLP)。我们评估了我们的模型,该模型称为“ Chest X-Ray14”,最广泛,最大的X射线数据集之一,该数据集由30,000多名14例著名胸部疾病的患者组成100,000多个额叶/背景图像。我们的模型已经用几个数量的MLP层用于头部设置,每个模型都在所有类别上都达到了竞争性的AUC分数。胸部X射线14的全面实验表明,与以前的SOTA平均AUC为0.799相比,三层头的平均AUC得分为0.810,其平均AUC得分为0.810。我们建议对现有方法进行公平基准测试的实验设置,该设置可以用作未来研究的基础。最后,我们通过确认所提出的方法参与胸部的病理相关区域,从而跟进了结果。
translated by 谷歌翻译
人工智能,特别是通过深度学习的最新进步,在自然语言处理和计算机视觉等领域的许多任务中都取得了出色的表现。除了理想的评估指标外,这些模型通常需要高水平的解释性。因此,对模型将其输入映射到其输出的过程的解释是备受追捧的。不幸的是,机器学习模型的当前黑匣子性质仍然是一个尚未解决的问题,这种性质使研究人员无法学习并为模型的行为和最终预测提供阐释描述。在这项工作中,我们提出了一个利用对抗性逆强化学习的新颖框架,该框架可以为通过强化学习模型做出的决策提供全球解释,并捕获模型通过总结模型的决策过程所遵循的直觉趋势。
translated by 谷歌翻译