用于单视网型3D重建(SVR)的神经网络(NN)已经获得了普及。最近的工作指出,对于SVR,大多数尖端NNS在重建看不见的对象时具有有限的性能,因为它们主要依赖于识别(即,基于分类的方法)而不是形状重建。要深入了解这个问题,我们对NNS更倾向识别重建的何时以及为什么提供系统的研究,反之亦然。我们的发现表明,确定识别与重建的主要因素是如何分散训练数据。因此,我们介绍了一个新的数据驱动度量的分散评分,以量化这种前导因素并研究其对NNS的影响。我们假设当训练图像更加分散时,NNS朝向识别偏置,并且训练形状较少分散。支持我们的假设,通过我们的合成和基准数据集的实验证明了分散评分。我们表明,拟议的指标是分析重建质量的主要方法,并提供除了传统的重建分数之外的新颖信息。
translated by 谷歌翻译
近年来,最终用户的多个(边缘)设备中有大量分散数据,而由于法律或法规,分散数据的聚合对机器学习工作仍然困难。联合学习(FL)作为处理分散数据而不分享敏感原始数据的有效方法,同时协作培训全球机器学习模型。 FL中的服务器需要在培训过程中选择(和计划)设备。但是,具有FL的多个作业的设备的调度仍然是一个关键和打开的问题。在本文中,我们提出了一种新的多工作FL框架,以实现多个作业的并行培训过程。该框架包括系统模型和两个调度方法。在系统模型中,我们提出了多个作业的并行培训过程,并根据各种工作培训过程基于培训时间和各种设备的数据公平构建成本模型。我们提出了一种基于钢筋的基于学习的方法和基于贝叶斯优化的方法,以便为多个作业调度设备,同时最小化成本。我们通过多个工作和数据集进行广泛的实验。实验结果表明,我们提出的方法在培训时间(速度越快8.67倍)和准确性(高度高达44.6%)方面显着优于基线。
translated by 谷歌翻译
由于LIDAR传感器捕获的精确深度信息缺乏准确的深度信息,单眼3D对象检测是一个关键而挑战的自主驾驶任务。在本文中,我们提出了一种立体引导的单目3D对象检测网络,称为SGM3D,其利用立体图像提取的鲁棒3D特征来增强从单眼图像中学到的特征。我们创新地研究了多粒度域适配模块(MG-DA)以利用网络的能力,以便仅基于单手套提示产生立体模拟功能。利用粗均衡特征级以及精细锚级域适配,以引导单眼分支。我们介绍了一个基于IOO匹配的对齐模块(iou-ma),用于立体声和单眼域之间的对象级域适应,以减轻先前阶段中的不匹配。我们对最具挑战性的基蒂和Lyft数据集进行了广泛的实验,并实现了新的最先进的性能。此外,我们的方法可以集成到许多其他单眼的方法中以提高性能而不引入任何额外的计算成本。
translated by 谷歌翻译
我们在王等人开发的正规化探索制剂下,研究政策梯度(PG),以便在连续时间和空间中进行加强学习。 (2020)。我们代表值函数的梯度相对于给定的参数化随机策略,作为可以使用样本和当前值函数进行评估的辅助运行奖励函数的预期集成。这有效地将PG转化为策略评估(PE)问题,使我们能够应用贾和周最近开发的Martingale方法来解决我们的PG问题。基于此分析,我们为RL提出了两种类型的演员 - 批评算法,在那里我们同时和交替地学习和更新值函数和策略。第一类型直接基于上述表示,涉及未来的轨迹,因此是离线的。专为在线学习的第二种类型使用了政策梯度的一阶条件,并将其转化为Martingale正交状态。然后在更新策略时使用随机近似并入这些条件。最后,我们通过模拟在两个具体示例中展示了算法。
translated by 谷歌翻译
周等人提出了一个无人监督,轻质和高性能的单一对象追踪器,称为UHP-SOT。最近。作为一个扩展,我们在这项工作中介绍了一个增强版本并将其命名为UHP-SOT ++。基于基于鉴别相关滤波器的(基于DCF的)跟踪器的基础,在UHP-SOT和UHP-SOT ++中引入了两种新成分:1)背景运动建模和2)对象盒轨迹建模。 UHP-SOT和UHP-SOT ++之间的主要区别是来自三种模型的提案的融合策略(即DCF,背景运动和对象盒轨迹模型)。 UHP-SOT ++采用了一种改进的融合策略,可针对大规模跟踪数据集更加强大的跟踪性能。我们的第二件贡献在于通过在四个SOT基准数据集 - OTB2015,TC128,UAV123和LASOT上进行测试,对最先进的监督和无监督方法进行了广泛的评估。实验表明,UHP-SOT ++优于所有先前的无监督方法和几种深度学习(DL)方法,以跟踪准确性。由于UHP-SOT ++具有极小的模型大小,高跟踪性能和低计算复杂性(即使在I5 CPU上以20 fps运行,即使没有代码优化),则是资源实时对象跟踪中的理想解决方案 - 有限平台。基于实验结果,我们比较监督和无监督者的优缺点,并提供了一种新的视角,了解监督和无监督方法之间的性能差距,这是这项工作的第三次贡献。
translated by 谷歌翻译
我们考虑与高斯数据的高维线性回归中的插值学习,并在类高斯宽度方面证明了任意假设类别中的内插器的泛化误差。将通用绑定到欧几里德常规球恢复了Bartlett等人的一致性结果。(2020)对于最小规范内插器,并确认周等人的预测。(2020)在高斯数据的特殊情况下,对于近乎最小常态的内插器。我们通过将其应用于单位来证明所界限的一般性,从而获得最小L1-NORM Interpoolator(基础追踪)的新型一致性结果。我们的结果表明,基于规范的泛化界限如何解释并用于分析良性过度装备,至少在某些设置中。
translated by 谷歌翻译
我们探索一种影响甚至控制极化社会群体内意见多样性的方法。我们利用了用户持有二进制意见的选民模式,并根据他们连接的其他人反复更新他们的信仰。从不改变他们的思想(“狂热”)的顽固代理也通过网络传播,由连接的图表建模。建立早期的结果,我们为均衡时的平均意见提供了封闭式表达。这使我们能够将狂热者注入极化网络的策略,以便将平均意见转移到任何目标值。我们考虑了可能存在的反馈效果,这可能导致该组产生负面反应并加强其响应的极化水平。我们的结果得到了合成数据的数值实验支持。
translated by 谷歌翻译
Vision-Language(V + L)预先润廓模型通过了解图像和文本之间的对齐来支持多媒体应用程序取得了巨大成功。虽然现有的视觉预押模型主要专注于了解文本中的图像或实体中的对象,但它们通常会忽略事件级别的对齐及其参数结构。 %在这项工作中,我们提出了一种对比的学习框架来强制执行愿景 - 语言预押模型来理解事件和相关参数(参与者)角色。为此,我们利用文本信息提取技术来获得事件结构知识,并利用多个提示函数来通过操纵事件结构来对比难度的负面描述。我们还基于最佳传输来设计事件图对齐损耗以捕获事件参数结构。此外,我们收集了一个大型活动的数据集(106,875张图片),用于预磨平,这提供了更具挑战性的图像检索基准,以评估对复杂冗长的句子的理解。实验表明,我们的零射剪辑事件优于在多媒体事件提取中的参数提取中的最先进的监督模型,从而实现了事件提取中的5±绝对f得分增益,以及显着改进零拍摄设置下的各种下游任务。
translated by 谷歌翻译
Detection Transformer (DETR) and Deformable DETR have been proposed to eliminate the need for many hand-designed components in object detection while demonstrating good performance as previous complex hand-crafted detectors. However, their performance on Video Object Detection (VOD) has not been well explored. In this paper, we present TransVOD, the first end-to-end video object detection system based on spatial-temporal Transformer architectures. The first goal of this paper is to streamline the pipeline of VOD, effectively removing the need for many hand-crafted components for feature aggregation, e.g., optical flow model, relation networks. Besides, benefited from the object query design in DETR, our method does not need complicated post-processing methods such as Seq-NMS. In particular, we present a temporal Transformer to aggregate both the spatial object queries and the feature memories of each frame. Our temporal transformer consists of two components: Temporal Query Encoder (TQE) to fuse object queries, and Temporal Deformable Transformer Decoder (TDTD) to obtain current frame detection results. These designs boost the strong baseline deformable DETR by a significant margin (2 %-4 % mAP) on the ImageNet VID dataset. TransVOD yields comparable performances on the benchmark of ImageNet VID. Then, we present two improved versions of TransVOD including TransVOD++ and TransVOD Lite. The former fuses object-level information into object query via dynamic convolution while the latter models the entire video clips as the output to speed up the inference time. We give detailed analysis of all three models in the experiment part. In particular, our proposed TransVOD++ sets a new state-of-the-art record in terms of accuracy on ImageNet VID with 90.0 % mAP. Our proposed TransVOD Lite also achieves the best speed and accuracy trade-off with 83.7 % mAP while running at around 30 FPS on a single V100 GPU device. Code and models will be available for further research.
translated by 谷歌翻译
在本文中,我们专注于3D形式抽象和语义分析的两个任务。这与目前的方法形成对比,仅关注3D形状抽象或语义分析。此外,以前的方法难以产生实例级语义结果,其限制了它们的应用。我们提出了一种用于联合估计3D形式抽象和语义分析的新方法。我们的方法首先为3D形状产生许多3D语义候选区域;然后,我们采用这些候选者直接预测语义类别,并使用深卷积神经网络同时细化候选地区的参数。最后,我们设计一种融合预测结果并获得最终语义抽象的算法,该抽象被显示为对标准非最大抑制的改进。实验结果表明,我们的方法可以产生最先进的结果。此外,我们还发现我们的结果可以很容易地应用于实例级语义部分割和形状匹配。
translated by 谷歌翻译