Label noise is ubiquitous in various machine learning scenarios such as self-labeling with model predictions and erroneous data annotation. Many existing approaches are based on heuristics such as sample losses, which might not be flexible enough to achieve optimal solutions. Meta learning based methods address this issue by learning a data selection function, but can be hard to optimize. In light of these pros and cons, we propose Selection-Enhanced Noisy label Training (SENT) that does not rely on meta learning while having the flexibility of being data-driven. SENT transfers the noise distribution to a clean set and trains a model to distinguish noisy labels from clean ones using model-based features. Empirically, on a wide range of tasks including text classification and speech recognition, SENT improves performance over strong baselines under the settings of self-training and label corruption.
translated by 谷歌翻译
The role of mobile cameras increased dramatically over the past few years, leading to more and more research in automatic image quality enhancement and RAW photo processing. In this Mobile AI challenge, the target was to develop an efficient end-to-end AI-based image signal processing (ISP) pipeline replacing the standard mobile ISPs that can run on modern smartphone GPUs using TensorFlow Lite. The participants were provided with a large-scale Fujifilm UltraISP dataset consisting of thousands of paired photos captured with a normal mobile camera sensor and a professional 102MP medium-format FujiFilm GFX100 camera. The runtime of the resulting models was evaluated on the Snapdragon's 8 Gen 1 GPU that provides excellent acceleration results for the majority of common deep learning ops. The proposed solutions are compatible with all recent mobile GPUs, being able to process Full HD photos in less than 20-50 milliseconds while achieving high fidelity results. A detailed description of all models developed in this challenge is provided in this paper.
translated by 谷歌翻译
旨在解决不完整的多视图数据中缺少部分视图的聚类问题的不完整的多视图聚类,近年来受到了越来越多的关注。尽管已经开发了许多方法,但大多数方法要么无法灵活地处理不完整的多视图数据,因此使用任意丢失的视图,或者不考虑视图之间信息失衡的负面因素。此外,某些方法并未完全探索所有不完整视图的局部结构。为了解决这些问题,本文提出了一种简单但有效的方法,称为局部稀疏不完整的多视图聚类(LSIMVC)。与现有方法不同,LSIMVC打算通过优化一个稀疏的正则化和新颖的图形嵌入式多视图矩阵分数模型来从不完整的多视图数据中学习稀疏和结构化的潜在表示。具体而言,在基于矩阵分解的这种新型模型中,引入了基于L1规范的稀疏约束,以获得稀疏的低维单个表示和稀疏共识表示。此外,引入了新的本地图嵌入项以学习结构化共识表示。与现有作品不同,我们的本地图嵌入术语汇总了图形嵌入任务和共识表示任务中的简洁术语。此外,为了减少多视图学习的不平衡因素,将自适应加权学习方案引入LSIMVC。最后,给出了有效的优化策略来解决我们提出的模型的优化问题。在六个不完整的多视图数据库上执行的全面实验结果证明,我们的LSIMVC的性能优于最新的IMC方法。该代码可在https://github.com/justsmart/lsimvc中找到。
translated by 谷歌翻译
自上而下的方法主导了3D人类姿势和形状估计的领域,因为它们与人类的检测脱钩,并使研究人员能够专注于核心问题。但是,裁剪是他们的第一步,从一开始就丢弃了位置信息,这使自己无法准确预测原始摄像机坐标系中的全局旋转。为了解决此问题,我们建议将完整框架(悬崖)的位置信息携带到此任务中。具体而言,我们通过将裁剪图像功能与其边界盒信息连接在一起来养活更多的整体功能来悬崖。我们通过更广泛的全帧视图来计算2D再投影损失,进行了类似于图像中投射的人的投影过程。克里夫(Cliff)通过全球态度感知信息进行了喂养和监督,直接预测全球旋转以及更准确的明确姿势。此外,我们提出了一个基于Cliff的伪基真实注释,该注释为野外2D数据集提供了高质量的3D注释,并为基于回归的方法提供了至关重要的全面监督。对流行基准测试的广泛实验表明,悬崖的表现要超过先前的艺术,并在Agora排行榜上获得了第一名(SMPL-Algorithms曲目)。代码和数据可在https://github.com/huawei-noah/noah-research/tree/master/cliff中获得。
translated by 谷歌翻译
考虑到用户项目网络中幂律分布的流行率,双曲线空间最近引起了人们的关注,并在推荐系统中获得了令人印象深刻的性能。双曲线推荐的优点在于,其指数增加的能力非常适合描述幂律分布式用户项目网络,而欧几里得等效的不足。尽管如此,尚不清楚双曲模型可以有效地推荐哪些项目,哪些项目不能。为了解决上述问题,我们采用最基本的建议技术,将协作过滤作为一种媒介,以研究双曲线和欧几里得建议模型的行为。结果表明,(1)尾部在双曲线空间中比在欧几里得空间中更重点,但是仍然有足够的改进空间。 (2)头部物品在双曲线空间中受到适度的关注,这可以大大改善; (3)尽管如此,双曲线模型比欧几里得模型表现出更具竞争力的性能。在上述观察结果的驱动下,我们设计了一种新颖的学习方法,称为双曲线信息合作过滤(HICF),旨在弥补头部项目的建议有效性,同时提高尾部项目的性能。主要的想法是调整双曲线的排名学习,使其拉力和推动程序几何了解,并为学习头和尾部的学习提供信息指导。广泛的实验备份了分析结果,还显示了该方法的有效性。这项工作对于个性化的建议很有价值,因为它揭示了双曲线空间有助于建模尾部项目,这通常代表用户定制的偏好或新产品。
translated by 谷歌翻译
旨在恢复图像中影子区域的原始强度,并使它们与剩余的非阴影区域兼容,而没有跟踪,删除阴影是一个非常具有挑战性的问题,使许多下游图像/视频相关的任务受益。最近,变形金刚通过捕获全局像素相互作用来显示它们在各种应用中的强大能力,并且这种能力在删除阴影时非常可取。然而,由于以下两个原因,应用变压器促进阴影去除是非平凡的:1)修补程序操作不适用于由于不规则的阴影形状而导致阴影去除; 2)阴影去除只需要从非阴影区域到阴影区域的单向交互,而不是图像中所有像素之间的共同双向相互作用。在本文中,我们提出了一种新型的跨区域变压器,即CRFormer,用于去除阴影,它与现有变压器的不同之处仅通过考虑从非阴影区域到阴影区域的像素相互作用而不将图像分为斑块。这是通过精心设计的区域感知的跨注意操作来实现的,该操作可以汇总以非阴影区域特征为条件的恢复的阴影区域特征。与其他最先进的方法相比,关于ISTD,AISTD,SRD和视频阴影删除数据集的广泛实验证明了我们方法的优势。
translated by 谷歌翻译
图形离群值检测是一项具有许多应用程序的新兴但至关重要的机器学习任务。尽管近年来算法扩散,但缺乏标准和统一的绩效评估设置限制了它们在现实世界应用中的进步和使用。为了利用差距,我们(据我们所知)(据我们所知)第一个全面的无监督节点离群值检测基准为unod,并带有以下亮点:(1)评估骨架从经典矩阵分解到最新图形神经的骨架的14个方法网络; (2)在现实世界数据集上使用不同类型的注射异常值和自然异常值对方法性能进行基准测试; (3)通过在不同尺度的合成图上使用运行时和GPU存储器使用算法的效率和可扩展性。基于广泛的实验结果的分析,我们讨论了当前渠道方法的利弊,并指出了多个关键和有希望的未来研究方向。
translated by 谷歌翻译
先前的深视频压缩方法仅使用单一运动补偿策略,并且很少采用来自传统标准(例如H.264/h.265)的模式预测技术来进行运动和残留压缩。在这项工作中,我们首先提出了一个粗到精细的(C2F)深视频压缩框架,以进行更好的运动补偿,其中我们以粗到良好的方式进行了两次运动估计,压缩和补偿。我们的C2F框架可以实现更好的运动补偿结果,而不会显着增加位成本。观察高优势网络中的高优势信息(即平均值和方差值)包含不同斑块的判别统计信息,我们还提出了两种有效的超优先指导模式预测方法。具体而言,使用高优势信息作为输入,我们建议两个模式预测网络分别预测最佳块分辨率,以进行更好的运动编码,并决定是否从每个块中跳过剩余信息以进行更好的剩余编码,而无需引入额外的位置,同时带来可忽略的额外计算成本。全面的实验结果表明,配备了新的高位指导模式预测方法,我们提出的C2F视频压缩框架实现了HEVC,UVG和MCL-JCV数据集的最新性能。
translated by 谷歌翻译
在最近的联邦学习研究中,使用大批量提高了收敛率,但是与使用小批量相比,它需要额外的计算开销。为了克服这一限制,我们提出了一个统一的框架,该框架基于时间变化的概率将参与者分为锚和矿工组。锚点组中的每个客户都使用大批量计算梯度,该梯度被视为其靶心。矿工组中的客户使用串行迷你批次执行多个本地更新,并且每个本地更新也受到客户平均值Bullseyes的平均值的全局目标的间接调节。结果,矿工组遵循了对全球最小化器的近乎最佳更新,该更新适合更新全局模型。通过$ \ epsilon $ - Approximation衡量,FedAmd通过以恒定概率对锚点进行采样锚点,在非convex目标下达到了$ o(1/\ epsilon)$的收敛速率。理论上的结果大大超过了最先进的算法BVR-l-SGD $ O(1/\ Epsilon^{3/2})$,而FedAmd至少减少了$ O(1/\ Epsilon)$沟通开销。关于现实世界数据集的实证研究验证了FedAmd的有效性,并证明了我们提出的算法的优势。
translated by 谷歌翻译
在联合优化的设置中,在周期性地聚合全局模型的情况下,当参与者通过完全利用其计算资源进行模型训练时,将发生步骤异步。很好地承认,在非i.i.d下,STEP异步导致客观不一致。数据,降低了模型精度。为了解决这个问题,我们提出了一种新的算法\ texttt {fedagrac},它将本地方向校准到预测的全球方向。采取估计取向的优势,我们保证,聚合模型不会过度偏离预期的方向,同时充分利用更快的节点的本地更新。理论上,我们证明\ texttt {fedagrac}保持比最先进的方法的收敛速度提高,并消除了步骤异步的负效应。经验结果表明,我们的算法加速了培训并增强了最终的准确性。
translated by 谷歌翻译