我们设计了一个合作规划框架,为束缚机器人Duo产生最佳轨迹,该轨迹是用柔性网聚集在大面积中蔓延的散射物体。具体地,所提出的规划框架首先为每个机器人生产一组密集的航点,用作优化的初始化。接下来,我们制定迭代优化方案,以产生平滑和无碰撞的轨迹,同时确保机器人DUO内的合作,以有效地收集物体并正确避免障碍物。我们使用模型参考自适应控制器(MRAC)验证模拟中的生成轨迹,并在物理机器人中实现它们,以处理携带有效载荷的未知动态。在一系列研究中,我们发现:(i)U形成本函数在规划合作机器人DUO方面是有效的,并且(ii)任务效率并不总是与系绳网的长度成比例。鉴于环境配置,我们的框架可以衡量最佳净长度。为了我们的最佳知识,我们的最初是第一个为系列机器人二人提供此类估算。
translated by 谷歌翻译
运动,作为视频中最明显的现象,涉及随时间的变化,对视频表示学习的发展是独一无二的。在本文中,我们提出了问题:特别是对自我监督视频表示学习的运动有多重要。为此,我们撰写了一个二重奏,用于利用对比学习政权的数据增强和特征学习的动作。具体而言,我们介绍了一种以前的对比学习(MCL)方法,其将这种二重奏视为基础。一方面,MCL大写视频中的每个帧的光流量,以在时间上和空间地样本地样本(即,横跨时间的相关帧斑块的序列)作为数据增强。另一方面,MCL进一步将卷积层的梯度图对准来自空间,时间和时空视角的光流程图,以便在特征学习中地进行地面运动信息。在R(2 + 1)D骨架上进行的广泛实验证明了我们MCL的有效性。在UCF101上,在MCL学习的表示上培训的线性分类器实现了81.91%的前1个精度,表现优于6.78%的训练预测。在动力学-400上,MCL在线方案下实现66.62%的前1个精度。代码可在https://github.com/yihengzhang-cv/mcl-motion-focused-contrastive-learning。
translated by 谷歌翻译
实时视频广播通常需要具有域知识的多种技能和专业知识,以实现多摄像头制作。随着摄像机的数量不断增加,指导现场运动广播现在比以往任何时候都变得更加复杂和挑战。在生产过程中,广播董事需要更加集中,响应,令人满意的知识。为了使董事免于其密集努力,我们开发了一个叫做智能总监的创新自动化体育广播指示系统,旨在模仿典型的人类循环广播过程,以实时自动创建近专业广播节目通过使用一组高级多视图视频分析算法。灵感来自于所谓的“三事”的体育广播建设,我们用一个由三个连续新型组件组成的事件驱动管道构建我们的系统:1)通过建模多视图相关性来检测事件的多视图事件定位2)多视图突出显示检测通过视图选择的视觉重视等级相机视图,3)自动广播调度程序来控制广播视频的生产。为了我们的最佳知识,我们的系统是用于多摄像机运动广播的第一个端到端的自动化指导系统,完全受到体育赛事的语义理解。它还是通过跨视网膜关系建模解决多视图联合事件检测的新问题的第一系统。我们对现实世界的多相机足球数据集进行客观和主观评估,这证明了我们的自动生成视频的质量与人类导向的质量相当。由于其更快的回应,我们的系统能够捕获更快速的快速和短期持续时间,通常由人道持有。
translated by 谷歌翻译
随着物联网设备的扩散,研究人员在机器学习的帮助下开发了各种IOT设备识别方法。尽管如此,这些识别方法的安全性主要取决于收集的培训数据。在这项研究中,我们提出了一种名为IOTGan的新型攻击策略来操纵IoT设备的流量,使得它可以避免基于机器学习的IOT设备识别。在IOTGAN的发展中,我们有两个主要的技术挑战:(i)如何在黑匣子环境中获得歧视模型,并如何通过操纵模型将扰动添加到物联网交通中,从而逃避识别不影响物联网设备的功能。为了解决这些挑战,基于神经网络的替代模型用于将目标模型放在黑盒设置中,它作为IOTGAN中的歧视模型。培训操纵模型,以将对抗性扰动添加到物联网设备的流量中以逃避替代模型。实验结果表明,IOTAN可以成功实现攻击目标。我们还开发了高效的对策,以保护基于机器的机器学习的IOT设备识别由IOTGAN破坏。
translated by 谷歌翻译
联合学习(FL)提供了一种高效的分散机器学习框架,其中培训数据仍然在网络中的远程客户端分发。虽然FL实现了使用物联网设备的隐私保留的移动边缘计算框架,但最近的研究表明,这种方法易于来自远程客户端的侧面中毒攻击。要解决FL的中毒攻击,我们提供了一个\ Textit {两阶段}防御算法,称为{lo} cal {ma}恶意的事实{r}(lomar)。在I阶段I中,通过使用内核密度估计方法测量其邻居的相对分布,LOMAR从每个远程客户端进行模型更新。在II阶段,最佳阈值近似以从统计角度来区分恶意和清洁更新。已经进行了四个现实数据集的综合实验,实验结果表明,我们的防御策略可以有效保护FL系统。 {具体来说,标签翻转攻击下的亚马逊数据集上的防御性能表明,与FG + Krum相比,LOMAR从96.0 \%$ 98.8 \%$ 96.0 \%$ 98.8 \%$增加目标标签测试精度,以及90.1美元的总平均测试准确性\%$至97.0 \%$。
translated by 谷歌翻译
域适应(DA)最近在医学影像社区提出了强烈的兴趣。虽然已经提出了大量DA技术进行了用于图像分割,但大多数这些技术已经在私有数据集或小公共可用数据集上验证。此外,这些数据集主要解决了单级问题。为了解决这些限制,与第24届医学图像计算和计算机辅助干预(Miccai 2021)结合第24届国际会议组织交叉模态域适应(Crossmoda)挑战。 Crossmoda是无监督跨型号DA的第一个大型和多级基准。挑战的目标是分割参与前庭施瓦新瘤(VS)的后续和治疗规划的两个关键脑结构:VS和Cochleas。目前,使用对比度增强的T1(CET1)MRI进行VS患者的诊断和监测。然而,使用诸如高分辨率T2(HRT2)MRI的非对比度序列越来越感兴趣。因此,我们创建了一个无人监督的跨模型分段基准。训练集提供注释CET1(n = 105)和未配对的非注释的HRT2(n = 105)。目的是在测试集中提供的HRT2上自动对HRT2进行单侧VS和双侧耳蜗分割(n = 137)。共有16支球队提交了评估阶段的算法。顶级履行团队达成的表现水平非常高(最佳中位数骰子 - vs:88.4%; Cochleas:85.7%)并接近完全监督(中位数骰子 - vs:92.5%;耳蜗:87.7%)。所有顶级执行方法都使用图像到图像转换方法将源域图像转换为伪目标域图像。然后使用这些生成的图像和为源图像提供的手动注释进行培训分割网络。
translated by 谷歌翻译
在单光子激光雷达,光子效率成像捕捉所述3D场景的由每个像素只几个检测到的信号的光子结构。此任务的现有深度学习模型被训练在模拟数据集,当应用到现实的情景,这对域转移的挑战。在本文中,我们提出了一种时空以来网络(STIN)用于光子效率成像,这是能够通过充分利用空间和时间信息精确地预测从稀疏和高噪声光子计数直方图的深度。然后,域对抗性适应框架,包括域对抗性神经网络和对抗性判别域适应,被有效地应用于STIN缓解域移位问题对于实际应用。从NYU〜v2和所述数据集Middlebury的所产生的模拟数据综合实验证明STIN优于国家的最先进的模型在低信号 - 背景比为2:10至2:100。此外,在由该单光子成像原型显示,相比与域对抗性训练STIN取得了较好的推广性能捕捉到的真实世界的数据集实验结果的国家的最艺术以及由模拟数据训练基线STIN 。
translated by 谷歌翻译
零拍学习(ZSL)旨在将分类能力转移到看不见的课程。最近的方法证明,泛化和专业化是在ZSL中实现良好性能的两个基本能力。然而,它们只关注一个能力,导致模型,这些模型太过普遍,具有劣化的分类能力或专注于概括到看不见的课程。在本文中,我们提出了一种端到端网络,具有平衡的泛化和专业化能力,称为BGSNet,利用两种能力,并在实例和数据集级别平衡它们。具体而言,BGSNet由两个分支组成:泛化网络(GNET),它应用epiSodic元学习学习广义知识,以及平衡专业化网络(BSNet),它采用多个细心提取器来提取歧视特征并满足实例级别平衡。一种新颖的自调整分集损失旨在优化具有较少冗余和更多样性的BSNet。我们进一步提出了可分辨性的数据集级别平衡并更新线性退火调度中的权重,以模拟网络修剪,从而以低成本获得BSNet的最佳结构,并且实现了数据集级平衡。四个基准数据集的实验展示了我们模型的效果。足够的组分消融证明了整合泛化和专业能力的必要性。
translated by 谷歌翻译
单光子光检测和测距(LIDAR)已广泛应用于挑战性方案的3D成像。然而,在收集的数据中有限的信号光子计数和高噪声对预测深度图像精确地构成了巨大的挑战。在本文中,我们提出了一种用于从高噪声数据的光子有效成像的像素 - 方面的剩余收缩网络,其自适应地产生每个像素的最佳阈值,并通过软阈值处理来剥夺中间特征。此外,重新定义优化目标作为像素明智的分类,提供了与现有研究相比产生自信和准确的深度估计的急剧优势。在模拟和现实世界数据集中进行的综合实验表明,所提出的模型优于现有技术,并在不同的信噪比下保持鲁棒成像性能,包括1:100的极端情况。
translated by 谷歌翻译
卷积神经网络(CNN)的量化表现出显着的进展,其意图通过低比特宽度数据输入降低计算和存储成本。然而,没有关于现有全比特宽处理单元(例如CPU和DSP)的系统研究,可以更好地利用各种量化位线下的卷积的显着更高的计算吞吐量。在这项研究中,我们提出了Hikonv,一个统一的解决方案,它通过新的比特和平的并行计算来最大化给定底层处理单元的计算吞吐量来处理低比特宽量化数据输入。我们使用全比特宽乘法器建立理论性能范围,以实现高度并行化的低位宽卷积,并展示在该关键域中的高性能计算的新突破。例如,单个32位处理单元可以在一个CPU指令下提供128个二值化卷积操作(乘法和添加),并且单个27X18 DSP核心可以在一个周期中提供具有4位输入的八个卷积操作。我们展示了Hikonv对卷积层或完整的DNN模型的CPU和FPGA的有效性。对于量化为4位的卷积层,Hikonv在CPU上使用C ++实现了基线实现的3.17x延迟改进。与FPGA的DAC-SDC 2020冠军模型相比,HIKONV分别实现了2.37倍的吞吐量提高和2.61倍的DSP效率改进。
translated by 谷歌翻译