Current audio-visual separation methods share a standard architecture design where an audio encoder-decoder network is fused with visual encoding features at the encoder bottleneck. This design confounds the learning of multi-modal feature encoding with robust sound decoding for audio separation. To generalize to a new instrument: one must finetune the entire visual and audio network for all musical instruments. We re-formulate visual-sound separation task and propose Instrument as Query (iQuery) with a flexible query expansion mechanism. Our approach ensures cross-modal consistency and cross-instrument disentanglement. We utilize "visually named" queries to initiate the learning of audio queries and use cross-modal attention to remove potential sound source interference at the estimated waveforms. To generalize to a new instrument or event class, drawing inspiration from the text-prompt design, we insert an additional query as an audio prompt while freezing the attention mechanism. Experimental results on three benchmarks demonstrate that our iQuery improves audio-visual sound source separation performance.
translated by 谷歌翻译
尽管完全监督的人类骨架序列建模成功,但使用自我监督的预训练进行骨架序列表示学习一直是一个活跃的领域,因为很难在大规模上获取特定于任务的骨骼注释。最近的研究重点是使用对比学习学习视频级别的时间和歧视性信息,但忽略了人类骨骼的层次空间时间。与视频级别的这种表面监督不同,我们提出了一种自我监督的分层预训练方案,该方案纳入了基于层次变压器的骨骼骨骼序列编码器(HI-TRS),以明确捕获空间,短期和长期和长期框架,剪辑和视频级别的时间依赖性分别。为了通过HI-TR评估提出的自我监督预训练方案,我们进行了广泛的实验,涵盖了三个基于骨架的下游任务,包括动作识别,动作检测和运动预测。根据监督和半监督评估协议,我们的方法实现了最新的性能。此外,我们证明了我们的模型在训练阶段中学到的先验知识具有强大的下游任务的转移能力。
translated by 谷歌翻译
医生经常基于患者的图像扫描,例如磁共振成像(MRI),以及患者的电子健康记录(EHR),如年龄,性别,血压等。尽管在计算机视觉或自然语言研究领域的图像或文本分析中提出了大量的自动方法,但已经为医学图像的融合和医疗问题的EHR数据进行了更少的研究。在现有的早期或中间融合方法中,两种方式的特征串联仍然是一个主流。为了更好地利用图像和EHR数据,我们提出了一种多模态注意力模块,该模块使用EHR数据来帮助选择传统CNN的图像特征提取过程期间的重要区域。此外,我们建议将多头Machnib纳入门控多媒体单元(GMU),使其能够在不同子空间中平行熔断图像和EHR特征。在两个模块的帮助下,可以使用两个模态增强现有的CNN架构。预测脑内出血患者的Glasgow结果规模(GOS)和分类Alzheimer病的实验表明,该方法可以自动关注任务相关领域,并通过更好地利用图像和EHR功能来实现更好的结果。
translated by 谷歌翻译
人工智能(AI)为简化Covid-19诊断提供了有前景的替代。然而,涉及周围的安全和可信度的担忧阻碍了大规模代表性的医学数据,对临床实践中训练广泛的模型造成了相当大的挑战。为了解决这个问题,我们启动了统一的CT-Covid AI诊断计划(UCADI),其中AI模型可以在没有数据共享的联合学习框架(FL)下在每个主机机构下分发和独立地在没有数据共享的情况下在每个主机机构上执行。在这里,我们认为我们的FL模型通过大的产量(中国测试敏感性/特异性:0.973 / 0.951,英国:0.730 / 0.942),与专业放射科医师的面板实现可比性表现。我们进一步评估了持有的模型(从另外两家医院收集,留出FL)和异构(用造影材料获取)数据,提供了模型所做的决策的视觉解释,并分析了模型之间的权衡联邦培训过程中的性能和沟通成本。我们的研究基于来自位于中国和英国的23家医院的3,336名患者的9,573次胸部计算断层扫描扫描(CTS)。统称,我们的工作提出了利用联邦学习的潜在保留了数字健康的前景。
translated by 谷歌翻译
近年来,自动路滚轮作为一种流行的建筑机器人,吸引了行业和研究界的兴趣。然而,当涉及突破退变问题的隧道时,为机器人提供准确的定位结果,仍然是一个具有挑战性的问题。在本文中,我们的目的是通过基于优化来解决激光雷达和UWB测量来处理这个问题。在所提出的定位方法中,将受到限制的非变性的指示,将引入UWB重建的协方差以提高本地化的准确性。除此之外,还介绍了一种可以提取隧道内壁的特征以辅助定位的方法。为了评估所提出的方法的有效性,进行了真正的公路滚轮的三个实验,结果表明,我们的方法可以实现比现有方法更好的性能,并且可以应用于隧道内部工作的自动路滚轮。最后,我们讨论了在实际应用中部署系统的可行性,并提出了一些建议。
translated by 谷歌翻译
The goal of a decision-based adversarial attack on a trained model is to generate adversarial examples based solely on observing output labels returned by the targeted model. We develop HopSkipJumpAttack, a family of algorithms based on a novel estimate of the gradient direction using binary information at the decision boundary. The proposed family includes both untargeted and targeted attacks optimized for 2 and ∞ similarity metrics respectively. Theoretical analysis is provided for the proposed algorithms and the gradient direction estimate. Experiments show HopSkipJumpAttack requires significantly fewer model queries than several state-of-the-art decision-based adversarial attacks. It also achieves competitive performance in attacking several widely-used defense mechanisms.
translated by 谷歌翻译
We present HashEncoding, a novel autoencoding architecture that leverages a non-parametric multiscale coordinate hash function to facilitate a per-pixel decoder without convolutions. By leveraging the space-folding behaviour of hashing functions, HashEncoding allows for an inherently multiscale embedding space that remains much smaller than the original image. As a result, the decoder requires very few parameters compared with decoders in traditional autoencoders, approaching a non-parametric reconstruction of the original image and allowing for greater generalizability. Finally, by allowing backpropagation directly to the coordinate space, we show that HashEncoding can be exploited for geometric tasks such as optical flow.
translated by 谷歌翻译
具有对比性学习目标的预训练方法在对话了解任务中表现出了显着的成功。但是,当前的对比学习仅将自调查的对话样本视为正样本,并将所有其他对话样本视为负面样本,即使在语义上相关的对话框中,也会强制执行不同的表示。在本文中,我们提出了一个树木结构化的预培训对话模型Space-2,该模型从有限标记的对话框和大规模的无标记的对话框COLPORA通过半监督的对比度预培训来学习对话框表示。具体而言,我们首先定义一个通用的语义树结构(STS),以统一不同对话框数据集的注释模式,以便可以利用所有标记数据中存储的丰富结构信息。然后,我们提出了一个新颖的多视图分数功能,以增加共享类似STS的所有可能对话框的相关性,并且在监督的对比预训练期间仅推开其他完全不同的对话框。为了充分利用未标记的对话,还增加了基本的自我监督对比损失,以完善学习的表示。实验表明,我们的方法可以在DialogLue基准测试中实现新的最新结果,该基准由七个数据集和四个流行的对话框组成。为了获得可重复性,我们在https://github.com/alibabaresearch/damo-convai/tree/main/main/space-2上发布代码和数据。
translated by 谷歌翻译
标准化的数据集和基准刺激了计算机视觉,自然语言处理,多模式和表格设置的创新。我们注意到,与其他经过良好研究的领域相比,欺诈检测有许多差异。差异包括高级失衡,多样化的特征类型,经常改变的欺诈模式以及问题的对抗性。由于这些差异,用于其他分类任务的建模方法可能对欺诈检测效果不佳。我们介绍了欺诈数据集基准(FDB),该基准是针对欺诈检测的公开可用数据集的汇编。 FDB包括各种与欺诈相关的任务,从识别欺诈性卡片 - 不出现交易,检测机器人攻击,对恶意URL进行分类,预测贷款的风险降至内容适度。来自FDB的基于Python的库为数据加载提供了一致的API,并具有标准化的训练和测试拆分。作为参考,我们还提供了FDB上不同建模方法的基线评估。考虑到各种研究和业务问题的自动化机器学习(AUTOML)的日益普及,我们使用了Automl框架进行基线评估。为了预防欺诈,拥有有限资源和缺乏ML专业知识的组织通常会聘请一个调查人员,使用区块列表和手动规则,所有这些规则效率低下且规模不佳。这些组织可以从易于在生产中部署并通过欺诈预防要求的汽车解决方案受益。我们希望FDB有助于开发适合不同欺诈模式操作数(MOS)的定制欺诈检测技术,以及改善汽车系统,这些系统可以很好地适用于基准中的所有数据集。
translated by 谷歌翻译
自我监督的对比表示学习提供了从未标记的医学数据集中学习有意义的视觉表示的优势,以进行转移学习。但是,将当前的对比度学习方法应用于医疗数据而不考虑其特定区域的解剖学特征可能会导致视觉表示,这些视觉表示在外观和语义上是不一致的。在本文中,我们建议通过解剖学对比度学习(AWCL)改善医学图像的视觉表示,该学习结合了解剖学信息,以以对比度学习方式增强正/阴性对采样。为自动化的胎儿超声成像任务展示了所提出的方法,从而使从解剖学上相似的相同或不同的超声扫描实现了正对,这些扫描在解剖学上相似,可以将其拉在一起,从而改善了表示的学习。我们从经验上研究了与粗粒和细粒度的粒度纳入解剖信息的效果,以进行对比学习,并发现使用细粒度的解剖学信息的学习能够保留阶层内差异比其对应物更有效。我们还分析了解剖比对我们的AWCL框架的影响,发现使用更独特但解剖学上的样品构成阳性对的影响会带来更好的质量表示。大规模胎儿超声数据集的实验表明,我们的方法对学习表征有效,可以很好地转移到三个临床下游任务,并且与受监督的Imagenet和当前的先进对比度学习方法相比,取得了优越的性能。特别是,在跨域分割任务上,AWCL的表现优于Imagenet监督方法,高于13.8%,基于最先进的对比度方法的方法为7.1%。
translated by 谷歌翻译