自然语言界面(NLIS)为用户提供了一种方便的方式来通过自然语言查询交互分析数据。然而,交互式数据分析是一种苛刻的过程,特别是对于新手数据分析师。从不同域探索大型和复杂的数据集时,数据分析师不一定有足够的关于数据和应用域的知识。它使他们无法有效地引起一系列查询并广泛导出理想的数据洞察力。在本文中,我们使用Step-Wise查询推荐模块开发NLI,以帮助用户选择适当的下一步探索操作。该系统采用数据驱动方法,以基于其查询日志生成用户兴趣的应用域的逐步语义相关和上下文感知的查询建议。此外,该系统可帮助用户将查询历史和结果组织成仪表板以传达发现的数据洞察力。通过比较用户学习,我们表明我们的系统可以促进比没有推荐模块的基线更有效和系统的数据分析过程。
translated by 谷歌翻译
长期以来,可以将可以应用于新数据库的文本到SQL解析器的重要性已得到认可,实现此目标的关键步骤是架构链接,即在生成SQL时正确地识别未见列或表的提及。在这项工作中,我们提出了一个新颖的框架,以通过基于PoinCar \'e距离指标的探测程序从大规模预训练的语言模型(PLM)中引起关系结构,并使用诱导的关系来增强基于图的解析器为了更好的模式链接。与常用的基于规则的架构链接方法相比,我们发现探测关系也可以稳健地捕获语义对应关系,即使提及和实体的表面形式不同。此外,我们的探测过程完全不受监督,不需要其他参数。广泛的实验表明,我们的框架在三个基准测试中设定了新的最新性能。我们从经验上验证我们的探测程序确实可以通过定性分析找到所需的关系结构。
translated by 谷歌翻译
我们介绍了CVSS,这是一种大规模的多语言对语音转换(S2ST)语料库,从21种语言覆盖了21种语言的句子级并行S2ST对。通过将Covost 2从Covost 2的翻译文本综合将翻译文本与最先进的TTS系统合成语音,源自公共语音语音语料库和COVOST 2语音到文本转换(ST)语料库。提供了两个版本的翻译演讲:1)CVSS-C:所有翻译演讲都是一种高质量的规范声音; 2)CVSS-T:翻译语音从相应的源语音传输。此外,CVSS提供标准化的翻译文本,它与翻译语音中的发音匹配。在每个版本的CVSS上,我们建立了基线多语言直接S2ST模型和Cascade S2ST模型,验证了语料库的有效性。为了构建强大的Cascade S2ST基准,我们在Covost 2上培训了St模型,这优于前一种最先进的培训,而无需额外的数据。尽管如此,直接S2ST模型的性能在从头开始训练时接近强级联基线,并且在匹配ST模型中初始化时,仅在ASR转换转换时的0.1或0.7bleu差异。
translated by 谷歌翻译
机器学习算法通常假设培训和测试示例是从相同的分布中汲取的。然而,分发转移是现实世界应用中的常见问题,并且可以在测试时间造成模型急剧执行。在本文中,我们特别考虑域移位和亚泊素班次的问题(例如,不平衡数据)。虽然先前的作品通常会寻求明确地将模型的内部表示和预测器进行明确,以成为域不变的,但我们旨在规范整个功能而不限制模型的内部表示。这导致了一种简单的基于混合技术,它通过名为LISA的选择性增强来学习不变函数。 Lisa选择性地用相同的标签而单独地插值样本,但不同的域或具有相同的域但不同的标签。我们分析了线性设置,从理论上展示了LISA如何导致较小的最差组错误。凭经验,我们研究了LISA对从亚本化转变到域移位的九个基准的有效性,我们发现LISA一直以其他最先进的方法表达。
translated by 谷歌翻译
我们在本文中重新审视语义场景(SSC),是预测3D场景的语义和占用表示的有用任务。此任务的许多方法始终基于用于保存本地场景结构的体蛋白化场景表示。然而,由于存在可见空体素,当网络更深时,这些方法总是遭受重型计算冗余,从而限制完成质量。为了解决这种困境,我们提出了我们为此任务的新型点体素聚集网络。首先,我们通过去除这些可见的空体素来将Voxized场景传输到点云,并采用深点流,以有效地从场景中捕获语义信息。同时,仅包含两个3D卷积层的轻重体素流保留了体蛋白化场景的局部结构。此外,我们设计一个各向异性体素聚合运算符,将结构细节从体素流融合到点流中,并通过语义标签来增强点流中的上采样过程的语义感知传播模块。我们展示了我们的模型在两个基准上超越了最先进的余量,只有深度图像作为输入。
translated by 谷歌翻译
自我监督的学习是一种从自然数据中学习有用表示的强大方法。还建议作为在人类中建立视觉表现的一种可能手段,但具体的目标和算法是未知的。目前,大多数自我监督的方法都鼓励系统学习与其他图像相反的相同图像的不同变换的不变表示。然而,这种变换通常是非生物学上的,并且通常由具有随机裁剪和颜色抖动之类的具有相识的感知方案组成。在本文中,我们试图反向工程师这些增强术语更加生物学或感知可符号,同时仍然赋予鼓励鲁棒代表的相同益处。批判性地,我们发现随机裁剪可以被皮质倍率代替,并且图像的扫视样品也可以帮助表示学习。这些转变的可行性表明,生物视觉系统可以实施自我监督的潜在方式。此外,它们打破了许多计算机视觉算法中使用的广泛接受的空间均匀的处理假设,这表明在人类和机器中的空间自适应计算的作用。我们可以在此处找到我们的代码和演示。
translated by 谷歌翻译
自我监督的学习表明它有可能在没有人为注释的情况下提取强大的视觉表现。提出各种作品从不同的角度处理自我监督的学习:(1)对比学习方法(例如,MOCO,SIMCLR)利用阳性和阴性样品来引导训练方向; (2)不对称网络方法(例如,BYOL,SIMSIAM)通过引入预测器网络和止动梯度操作来摆脱阴性样本; (3)特征去相关方法(例如,Barlow Twins,ViCREG),而是旨在降低特征尺寸之间的冗余。这些方法在各种动机的设计损失功能中看起来非常不同。最终的准确度数也各不相同,其中不同的网络和技巧在不同的作品中使用。在这项工作中,我们证明这些方法可以统一成相同的形式。我们不是比较他们的损失函数,我们通过梯度分析推出统一的公式。此外,我们进行公平和详细的实验以比较他们的表现。事实证明,这些方法之间几乎没有差距,并且使用动量编码器是提高性能的关键因素。从这个统一的框架来看,我们提出了一个简单但有效的自我监督学习的简单但有效的渐变形式。它不需要内存银行或预测的网络,但仍然可以实现最先进的性能,并轻松采用其他培训策略。广泛的线性评估实验和许多下游任务也表现出其有效性。代码应释放。
translated by 谷歌翻译
最近,基于变压器的图像分割方法对先前的解决方案取得了显着的成功。虽然对于视频域,如何有效地模拟时间上下文,以跨越帧的对象实例的注意仍然是一个打开问题。在本文中,我们提出了一种具有新颖的实例感知时间融合方法的在线视频实例分段框架。我们首先利用表示,即全局上下文(实例代码)和CNN特征映射中的潜在代码来表示实例和像素级别功能。基于此表示,我们介绍了一种无裁剪的时间融合方法来模拟视频帧之间的时间一致性。具体地,我们在实例代码中编码全局实例特定信息,并在实例代码和CNN特征映射之间构建与混合关注的帧间上下文融合。使用订单约束进一步强制执行实例代码之间的帧间一致性。通过利用学习的混合时间一致性,我们能够直接检索和维护帧中的实例标识,从而消除了先前方法中的复杂帧实例匹配。已经在流行的VIS数据集中进行了广泛的实验,即YouTube-Vis-19/21。我们的模式实现了所有在线VIS方法中的最佳性能。值得注意的是,我们的模型也在使用Reset-50骨干时eClipses所有脱机方法。
translated by 谷歌翻译
在本文中,我们提出了一种确定性变分推理方法,通过最小化内核差异来产生低差异点,也称为最大均值差异或MMD。基于Wang Et的一般能量变分推理框架。 al。 (2021),最小化内核差异被转换为通过显式欧拉方案求解动态颂音系统。我们将结果算法EVI-MMD命名,并通过其中统一化常数的常规规定常量规定的实例,并以培训数据的形式明确地已知的示例。与分布近似,数值集成和生成式学习中的应用中的替代方法相比,其性能令人满意。 EVI-MMD算法克服了现有MMD-DESCLITHMS的瓶颈,主要适用于两个样本问题。可以在EVI框架下开发具有更复杂结构和潜在优势的算法。
translated by 谷歌翻译
过度分化的深网络的泛化神秘具有有动力的努力,了解梯度下降(GD)如何收敛到概括井的低损耗解决方案。现实生活中的神经网络从小随机值初始化,并以分类的“懒惰”或“懒惰”或“NTK”的训练训练,分析更成功,以及最近的结果序列(Lyu和Li ,2020年; Chizat和Bach,2020; Ji和Telgarsky,2020)提供了理论证据,即GD可以收敛到“Max-ramin”解决方案,其零损失可能呈现良好。但是,仅在某些环境中证明了余量的全球最优性,其中神经网络无限或呈指数级宽。目前的纸张能够为具有梯度流动训练的两层泄漏的Relu网,无论宽度如何,都能为具有梯度流动的双层泄漏的Relu网建立这种全局最优性。分析还为最近的经验研究结果(Kalimeris等,2019)给出了一些理论上的理由,就GD的所谓简单的偏见为线性或其他“简单”的解决方案,特别是在训练中。在悲观方面,该论文表明这种结果是脆弱的。简单的数据操作可以使梯度流量会聚到具有次优裕度的线性分类器。
translated by 谷歌翻译