实时音乐伴奏的生成在音乐行业(例如音乐教育和现场表演)中具有广泛的应用。但是,自动实时音乐伴奏的产生仍在研究中,并且经常在逻辑延迟和暴露偏见之间取决于权衡。在本文中,我们提出了Song Driver,这是一种无逻辑延迟或暴露偏见的实时音乐伴奏系统。具体而言,Songdriver将一个伴奏的生成任务分为两个阶段:1)安排阶段,其中变压器模型首先安排了和弦,以实时进行输入旋律,并在下一阶段加速了和弦,而不是播放它们。 2)预测阶段,其中CRF模型基于先前缓存的和弦生成了即将到来的旋律的可播放的多轨伴奏。通过这种两相策略,歌手直接生成即将到来的旋律的伴奏,从而达到了零逻辑延迟。此外,在预测时间步的和弦时,歌手是指第一阶段的缓存和弦,而不是其先前的预测,这避免了暴露偏见问题。由于输入长度通常在实时条件下受到限制,因此另一个潜在的问题是长期顺序信息的丢失。为了弥补这一缺点,我们在当前时间步骤作为全球信息之前从长期音乐作品中提取了四个音乐功能。在实验中,我们在一些开源数据集上训练歌手,以及由中国风格的现代流行音乐得分构建的原始\```````'''aisong数据集。结果表明,歌手在客观和主观指标上均优于现有的SOTA(最先进)模型,同时大大降低了物理潜伏期。
translated by 谷歌翻译
已知神经网络在输入图像上产生过度自信的预测,即使这些图像不存在(OOD)样本。这限制了神经网络模型在存在OOD样本的实际场景中的应用。许多现有方法通过利用各种提示来确定OOD实例,例如在特征空间,逻辑空间,梯度空间或图像的原始空间中查找不规则模式。相反,本文提出了一种简单的测试时间线性训练(ETLT)用于OOD检测方法。从经验上讲,我们发现输入图像的概率不存在,与神经网络提取的功能令人惊讶地线性相关。具体来说,许多最先进的OOD算法虽然旨在以不同的方式衡量可靠性,但实际上导致OOD得分主要与其图像特征线性相关。因此,通过简单地学习从配对图像特征训练并在测试时间推断的OOD分数的线性回归模型,我们可以为测试实例做出更精确的OOD预测。我们进一步提出了该方法的在线变体,该变体可以实现有希望的性能,并且在现实世界中更为实用。值得注意的是,我们将FPR95从$ 51.37 \%$提高到CIFAR-10数据集的$ 12.30 \%$,最大的SoftMax概率是基本的OOD检测器。在几个基准数据集上进行的广泛实验显示了ETLT对OOD检测任务的功效。
translated by 谷歌翻译
基于持续的同源性的拓扑损失在各种应用中都表现出了希望。拓扑损失强制执行该模型以实现某些所需的拓扑特性。尽管取得了经验成功,但对损失的优化行为的了解却很少。实际上,拓扑损失涉及在优化过程中可能振荡的组合构型。在本文中,我们引入了通用正规拓扑感知损失。我们提出了一个新颖的正则化项,并修改了现有的拓扑损失。这些贡献导致了新的损失函数,不仅强制实施模型具有所需的拓扑行为,而且还可以达到满足收敛行为。我们的主要理论结果确保在轻度假设下可以有效地优化损失。
translated by 谷歌翻译
已经出现了许多变形金刚的改编,以解决单模式视觉任务,在该任务中,自我发项模块被堆叠以处理图像之类的输入源。直观地,将多种数据馈送到视觉变压器可以提高性能,但是内模式的专注权也可能会稀释,从而可能破坏最终性能。在本文中,我们提出了一种针对基于变压器的视力任务的多模式令牌融合方法(TokenFusion)。为了有效地融合多种方式,TokenFusion动态检测非信息令牌,并用投影和聚合的模式间特征将这些令牌替换为这些令牌。还采用了残留位置对准来实现融合后模式间比对的明确利用。 TokenFusion的设计使变压器能够学习多模式特征之间的相关性,而单模式变压器体系结构基本上保持完整。对各种均质和异构方式进行了广泛的实验,并证明TokenFusion在三个典型的视觉任务中超过了最新方法:多模式图像到图像到图像到图像转换,RGB深度语义分段和3D对象检测3D对象检测点云和图像。我们的代码可从https://github.com/yikaiw/tokenfusion获得。
translated by 谷歌翻译
多模式融合和多任务学习是机器学习中的两个重要主题。尽管进展丰富了富有成果,但两种问题的现有方法仍然脆弱,仍然是同样的挑战 - 它仍然是困境的,以便整合跨模式(RESP.TASK)的共同信息。同时保留每个模态的特定模式(RESP。任务)。此外,虽然它们实际上与彼此密切相关,但在相同的方法框架之前很少探讨多模式融合和多任务学习。在本文中,我们提出了频道交换网络(CEN),它是自适应,无参数的,更重要的是,适用于多模式融合和多任务学习。在其核心,CEN动态交换不同模式的子网之间的频道。具体地,信道交换过程是通过训练期间批量归一化(BN)缩放因子的大小来自指导的单独信道重要性。对于致密图像预测的应用,CEN的有效性由四种不同的场景测试:多模式融合,循环多模式融合,多任务学习和多式联多任务学习。通过RGB-D数据和通过多域输入的图像转换对语义分割的广泛实验验证了与当前最先进的方法相比我们CEN的有效性。还进行了详细的消融研究,从而证明了我们提出的每个组件的优势。
translated by 谷歌翻译
目前基于学习的单图像超分辨率(SISR)算法由于假定的Daradada-Tion过程中的偏差而导致的实际数据up到实际数据。常规的劣化过程考虑在高分辨率(HR)图像上应用模糊,噪声和下采样(通常是较大的采样)以合成低分辨率(LR)对应物。然而,很少有用于退化建模的作品已经采取了光学成像系统的物理方面。在本文中,我们光学分析了成像系统,并探索了空间频域的实际LR-HR对的特征。通过考虑optiopticsandsordegration,我们制定真实的物理启发的退化模型;成像系统的物理劣化被建模为低通滤波器,其截止频率由物体距离,焦距的更焦距和图像传感器的像素尺寸。特别是,我们建议使用卷积神经网络(CNN)来学习现实世界劣化过程的截止频率。然后应用学习的网络从未配对的HR图像合成LR图像。稍后使用合成的HR-LR图像对培训SISR网络。我们评估所提出的不同成像系统捕获的现实世界图像中提出的退化模型的有效性和泛化能力。实验结果展示了通过使用传统的退化模型使用我们的合成数据训练的SISR网络通过传统的降级模型对网络进行了有利的。此外,我们的结果与通过使用现实世界LR-HR对训练的相同网络获得的结果相当,这是在真实场景中获得的具有挑战性。
translated by 谷歌翻译
The mainstream workflow of image recognition applications is first training one global model on the cloud for a wide range of classes and then serving numerous clients, each with heterogeneous images from a small subset of classes to be recognized. From the cloud-client discrepancies on the range of image classes, the recognition model is desired to have strong adaptiveness, intuitively by concentrating the focus on each individual client's local dynamic class subset, while incurring negligible overhead. In this work, we propose to plug a new intra-client and inter-image attention (ICIIA) module into existing backbone recognition models, requiring only one-time cloud-based training to be client-adaptive. In particular, given a target image from a certain client, ICIIA introduces multi-head self-attention to retrieve relevant images from the client's historical unlabeled images, thereby calibrating the focus and the recognition result. Further considering that ICIIA's overhead is dominated by linear projection, we propose partitioned linear projection with feature shuffling for replacement and allow increasing the number of partitions to dramatically improve efficiency without scarifying too much accuracy. We finally evaluate ICIIA using 3 different recognition tasks with 9 backbone models over 5 representative datasets. Extensive evaluation results demonstrate the effectiveness and efficiency of ICIIA. Specifically, for ImageNet-1K with the backbone models of MobileNetV3-L and Swin-B, ICIIA can improve the testing accuracy to 83.37% (+8.11%) and 88.86% (+5.28%), while adding only 1.62% and 0.02% of FLOPs, respectively.
translated by 谷歌翻译
无监督的域对点云语义分割的适应性引起了极大的关注,因为它在没有标记的数据中学习有效性。大多数现有方法都使用全局级特征对齐方式将知识从源域转移到目标域,这可能会导致特征空间的语义歧义。在本文中,我们提出了一个基于图形的框架,以探索两个域之间的局部特征对齐,可以在适应过程中保留语义歧视。具体而言,为了提取本地级特征,我们首先在两个域上动态构建本地特征图,并使用来自源域的图形构建存储库。特别是,我们使用最佳传输来生成图形匹配对。然后,基于分配矩阵,我们可以将两个域之间的特征分布与基于图的本地特征损失对齐。此外,我们考虑了不同类别的特征之间的相关性,并制定了类别引导的对比损失,以指导分割模型以学习目标域上的区分特征。对不同的合成到现实和真实域的适应情景进行了广泛的实验表明,我们的方法可以实现最先进的性能。
translated by 谷歌翻译
现有的自我监督的单眼估计方法可以摆脱昂贵的注释并获得令人鼓舞的结果。但是,当直接采用接受固定分辨率训练的模型以评估其他不同决议时,这些方法会遭受严重的性能降解。在本文中,我们通过学习场景深度的规模不变性,提出了一个分辨率自适应自我监督的单眼估计方法(RA-DEPTH)。具体而言,我们提出了一种简单而有效的数据增强方法,以生成具有任意尺度的同一场景的图像。然后,我们开发了一个双重高分辨率网络,该网络使用具有密集交互的多路径编码器和解码器来汇总多尺度特征,以进行准确的深度推理。最后,为了明确了解场景深度的规模不变性,我们在具有不同尺度的深度预测上制定了跨尺度的深度一致性损失。对Kitti,Make3D和NYU-V2数据集进行了广泛的实验表明,RA-DEPTH不仅可以实现最新的性能,而且还表现出很好的解决能力。
translated by 谷歌翻译
考虑以下优化问题:给定$ n \ times n $矩阵$ a $和$ \ lambda $,最大化$ \ langle a,u \ lambda u^*\ rangle $,其中$ u $ $ u $在unital Group $ \ mathrm上变化{u}(n)$。这个问题试图通过矩阵大约$ a $,其频谱与$ \ lambda $相同,并且通过将$ \ lambda $设置为适当的对角矩阵,可以恢复矩阵近似问题,例如pca和等级$ k $近似。我们研究了在使用用户的私人数据构建矩阵$ a $的设置中,为这种优化问题设计差异化私有算法的问题。我们给出有效的私有算法,在近似误差上带有上和下限。我们的结果统一并改进了有关私人矩阵近似问题的几项先前的作品。他们依靠格拉斯曼尼亚人的包装/覆盖数量范围扩展到应该具有独立利益的单一轨道。
translated by 谷歌翻译