Dataset Distillation (DD), a newly emerging field, aims at generating much smaller and high-quality synthetic datasets from large ones. Existing DD methods based on gradient matching achieve leading performance; however, they are extremely computationally intensive as they require continuously optimizing a dataset among thousands of randomly initialized models. In this paper, we assume that training the synthetic data with diverse models leads to better generalization performance. Thus we propose two \textbf{model augmentation} techniques, ~\ie using \textbf{early-stage models} and \textbf{weight perturbation} to learn an informative synthetic set with significantly reduced training cost. Extensive experiments demonstrate that our method achieves up to 20$\times$ speedup and comparable performance on par with state-of-the-art baseline methods.
translated by 谷歌翻译
Purpose: Vision-based robot tool segmentation plays a fundamental role in surgical robots and downstream tasks. CaRTS, based on a complementary causal model, has shown promising performance in unseen counterfactual surgical environments in the presence of smoke, blood, etc. However, CaRTS requires over 30 iterations of optimization to converge for a single image due to limited observability. Method: To address the above limitations, we take temporal relation into consideration and propose a temporal causal model for robot tool segmentation on video sequences. We design an architecture named Temporally Constrained CaRTS (TC-CaRTS). TC-CaRTS has three novel modules to complement CaRTS - temporal optimization pipeline, kinematics correction network, and spatial-temporal regularization. Results: Experiment results show that TC-CaRTS requires much fewer iterations to achieve the same or better performance as CaRTS. TC- CaRTS also has the same or better performance in different domains compared to CaRTS. All three modules are proven to be effective. Conclusion: We propose TC-CaRTS, which takes advantage of temporal constraints as additional observability. We show that TC-CaRTS outperforms prior work in the robot tool segmentation task with improved convergence speed on test datasets from different domains.
translated by 谷歌翻译
Image super-resolution is a common task on mobile and IoT devices, where one often needs to upscale and enhance low-resolution images and video frames. While numerous solutions have been proposed for this problem in the past, they are usually not compatible with low-power mobile NPUs having many computational and memory constraints. In this Mobile AI challenge, we address this problem and propose the participants to design an efficient quantized image super-resolution solution that can demonstrate a real-time performance on mobile NPUs. The participants were provided with the DIV2K dataset and trained INT8 models to do a high-quality 3X image upscaling. The runtime of all models was evaluated on the Synaptics VS680 Smart Home board with a dedicated edge NPU capable of accelerating quantized neural networks. All proposed solutions are fully compatible with the above NPU, demonstrating an up to 60 FPS rate when reconstructing Full HD resolution images. A detailed description of all models developed in the challenge is provided in this paper.
translated by 谷歌翻译
具有多传感器的3D对象检测对于自主驾驶和机器人技术的准确可靠感知系统至关重要。现有的3D探测器通过采用两阶段范式来显着提高准确性,这仅依靠激光点云进行3D提案的细化。尽管令人印象深刻,但点云的稀疏性,尤其是对于遥远的点,使得仅激光雷达的完善模块难以准确识别和定位对象。要解决这个问题,我们提出了一种新颖的多模式两阶段方法FusionRcnn,有效,有效地融合了感兴趣区域(ROI)的点云和摄像头图像。 FusionRcnn自适应地整合了LiDAR的稀疏几何信息和统一注意机制中相机的密集纹理信息。具体而言,它首先利用RoiPooling获得具有统一大小的图像集,并通过在ROI提取步骤中的建议中采样原始点来获取点设置;然后利用模式内的自我注意力来增强域特异性特征,此后通过精心设计的跨注意事项融合了来自两种模态的信息。FusionRCNN从根本上是插件,并支持不同的单阶段方法与不同的单阶段方法。几乎没有建筑变化。对Kitti和Waymo基准测试的广泛实验表明,我们的方法显着提高了流行探测器的性能。可取,FusionRCNN在Waymo上的FusionRCNN显着提高了强大的第二基线,而Waymo上的MAP则超过6.14%,并且优于竞争两阶段方法的表现。代码将很快在https://github.com/xxlbigbrother/fusion-rcnn上发布。
translated by 谷歌翻译
实体对齐旨在发现在不同知识图(kg)之间具有相同含义的独特等效实体对。对于知识整合或融合,这是一项令人信服但具有挑战性的任务。现有模型主要集中于将KGS投射到潜在的嵌入空间中,以捕获实体对齐实体之间的固有语义。但是,一致性冲突的不利影响在训练过程中被大大忽略了,从而限制了实体对准绩效。为了解决这个问题,我们提出了一种新颖的冲突感知伪标签,该标签通过最佳运输模型(CPL-OT)进行实体对齐。 CPL-OT的关键思想是迭代的伪标签对齐对,并通过冲突意识到的最佳运输建模授权,以提高实体对齐的精度。 CPL-OT由两个关键组成部分 - 实体嵌入学习,其中包括全球本地聚集和迭代冲突感知的伪标签 - 相互互相加强。为了减轻伪标签期间的一致性冲突,我们建议使用最佳运输(OT)作为有效手段,以保证两公斤之间的一对一实体对齐,而总体运输成本最少。运输成本被计算为通过图形卷积获得的实体嵌入之间的整流距离,并用全球级别的语义增强。基准数据集的广泛实验表明,在有或没有先前对齐种子的两个设置下,CPL-OT可以显着超过最先进的基准。
translated by 谷歌翻译
传统的联邦优化方法的性能较差(即降低准确性),尤其是对于高度偏斜的数据。在本文中,我们调查了佛罗里达州的标签分布偏斜,在那里标签的分布各不相同。首先,我们从统计视图研究了标签分布偏斜。我们在理论上和经验上都证明了基于软马克斯跨凝结的先前方法不合适,这可能会导致本地模型非常适合少数群体和缺失的类别。此外,我们从理论上引入了一个偏离,以测量本地更新后梯度的偏差。最后,我们建议通过\ textbf {l} ogits \ textbf {c}启动)FedLc(\ textbf {fed {fed}学习,该学习根据每个类别的出现可能性。 FedLC通过添加成对标签的边距将细粒度校准的跨透镜损失应用于本地更新。联合数据集和现实世界数据集的广泛实验表明,联邦快递会导致更准确的全球模型和大大改善的性能。此外,将其他FL方法集成到我们的方法中可以进一步增强全球模型的性能。
translated by 谷歌翻译
旨在预测人们对不同视觉刺激的情绪的视觉情感分析(VEA)最近已成为一个有吸引力的研究主题。而不是单个标签分类任务,而是通过向不同个人投票将VEA视为标签分布学习(LDL)问题是更合理的。现有方法通常可以预测统一网络中的视觉情绪分布,从而忽略了人群投票过程中的固有主观性。在心理学中,\ textit {object-appraiSal-emotion}模型表明,每个人的情绪都受到主观评估的影响,这是由情感记忆进一步形成的。受此启发,我们提出了一个新颖的\ textit {主观性评估和匹配网络(SAMNET)},以研究视觉情感分布中的主观性。为了描述人群投票过程中的多样性,我们首先提出了\ textit {主观性评估},其中每个分支都模拟了特定个人的情感唤起过程。具体而言,我们使用基于注意力的机制来构建情感记忆,以保护每个人的独特情感体验。进一步提出了主观性损失,以确保不同个体之间的差异。此外,我们提出了\ textit {主观性匹配},旨在将无序的情感标签分配给与匈牙利算法一对一的对应关系中的单个预测。广泛的实验和比较是在公共视觉情绪分布数据集上进行的,结果表明,所提出的SAMNET始终优于最新方法。消融研究验证我们方法的有效性,可视化证明了其可解释性。
translated by 谷歌翻译
对于视网膜图像匹配(RIM),我们提出了SuperRetina,这是第一个具有可训练的键盘检测器和描述符的端到端方法。 SuperRetina以一种新颖的半监督方式接受了训练。一小部分(近100张)图像未完全标记,并用于监督网络以检测血管树上的关键点。为了攻击手动标记的不完整性,我们提出了进行性逐步扩展,以丰富每个训练时期的关键点标签。通过利用基于关键的改进的三重态损失作为描述损失,超级逆局以完全输入图像大小产生高度歧视性描述符。在多个现实世界数据集上进行了广泛的实验证明了超级丽菌的生存能力。即使手动标记被自动标记取代,因此使训练过程完全免费手动通道,超级retina也可以与多个强大的基线进行比较,以进行两个RIM任务,即图像注册和身份验证。 SuperRetina将是开源。
translated by 谷歌翻译
机器学习模型的隐私已成为许多新兴的机器学习应用程序中的重要问题,在这些应用程序中,基于训练有素的模型的预测服务通过按要求提供给用户。缺乏防御机制可以对服务器模型的隐私施加高风险,因为对手可以通过仅查询几个“好”数据点来有效地窃取模型。服务器的防御与对手的攻击之间的相互作用不可避免地导致了军备竞赛的困境,正如对抗机器学习中通常看到的那样。为了从良性用户的观点和隐私从对手的角度研究模型效用之间的基本权衡,我们开发了新的指标来量化此类权衡,分析其理论属性并开发优化问题,以了解最佳的对抗性攻击和防御策略。开发的概念和理论与隐私与效用之间的“均衡”有关的经验发现匹配。在优化方面,启用我们的结果的关键要素是对攻击防御问题的统一表示为Min-Max Bi级问题。开发的结果将通过示例和实验来证明。
translated by 谷歌翻译
模型压缩的目的是减小大型神经网络的大小,同时保持可比的性能。结果,通过减少冗余重量,神经元或层,可以大大降低资源有限应用中的计算和内存成本。提出了许多模型压缩算法,这些算法提供了令人印象深刻的经验成功。但是,对模型压缩的理论理解仍然受到限制。一个问题是了解网络是否比另一个相同结构更可压缩。另一个问题是量化有多少人可以通过理论上保证的准确性降解来修剪网络。在这项工作中,我们建议使用对稀疏敏感的$ \ ell_q $ -norm($ 0 <q <1 $)来表征可压缩性,并提供网络中的软稀疏性与受控程度的压缩程度之间的关系准确性降解结合。我们还开发了自适应算法,用于修剪我们理论所告知的网络中的每个神经元。数值研究表明,与标准修剪算法相比,提出的方法的表现有希望。
translated by 谷歌翻译