注意机制是深度神经网络的设计趋势,其在各种计算机视觉任务中脱颖而出。最近,一些工作尝试将注意机制应用于单图像超分辨率(SR)任务。然而,他们以相同或相似的方式将SR机制应用于高级计算机视觉问题,而不考虑SR和SR之间的不同特征。其他问题。在本文中,我们提出了一种新的关注方法,它由针对SR优化的新的渠道和空间关注机制以及融合它们的新融合关注组成。基于此,我们提出了一个新的剩余注意力模块(RAM)和一个使用RAM(SRRAM)的SR网络。我们对SR中不同的关注机制进行了深入的实验分析。结果表明,与现有技术相比,所提出的方法可以构建深度和轻量级SR网络,显示出改进的性能。
translated by 谷歌翻译
以前关于车辆Re-ID的工作主要集中在提取全局特征和学习距离度量。由于一些车辆通常共享相同的模型制造商,因此很难根据它们的整体外观来区分它们。与全球外观相比,挡风玻璃上附带的装饰和检查贴纸等局部区域可能更具特色的车型Re-ID。为了将详细的视觉线索嵌入到这些局部区域,我们提出了一个区域感知深度模型(RAM)。具体而言,除了提取全局功能外,RAM还从一系列局部区域中提取特征。随着每个地方区域传达更多独特的视觉线索,RAM鼓励深层模型学习辨别特征。我们还介绍了一种新的学习算法,以共同使用车辆ID,类型/模型和颜色来训练RAM。该策略为培训提供了更多线索,并产生了更具辨别力的全球和区域特征。我们在两个大型车辆Re-ID数据集上评估我们的方法,即VeRi和VehicleID。实验结果表明,与近期工作相比,我们的方法取得了良好的效果。
translated by 谷歌翻译
准确的环境深度图对于自主机器人和车辆的安全操作至关重要。目前,使用光检测和测距(LIDAR)或立体匹配算法来获取这种深度信息。然而,高分辨率激光雷达是昂贵的并且在大范围内产生稀疏深度图;立体匹配算法能够生成深度图,但通常不如LIDAR在远距离上准确。本文将这些方法结合在一起,生成高质量的密集深度图。与使用地面真实标记训练的先前方法不同,所提出的模型采用自监督训练过程。实验表明,所提出的方法能够生成高质量深度图并且即使在低分辨率输入下也能够稳健地执行。这显示了通过使用具有较低分辨率的LIDAR与立体声系统不同而降低成本的潜力,同时保持高分辨率。
translated by 谷歌翻译
我们研究了自动机器学习(AutoML)问题,该算法从算法组合中联合选择适当的算法,并优化它们对于某些学习任务的超参数。主要挑战包括:a)算法选择和超参数优化(HPO)之间的耦合,以及b)问题的黑盒优化性质,其中优化不能访问损失函数的梯度但可以查询函数值。为了规避这些困难,我们提出了一种新的AutoML框架,通过乘法交替方向乘法(ADMM)方案。对于ADMM的分裂特性,算法选择和HPO可以通过增广拉格朗日函数来分解。因此,具有混合连续和整数约束的HPO通过高效的贝叶斯优化方法和欧几里德投影算子有效地处理,从而产生封闭形式的解。 ADMM中的算法选择自然地被解释为组合强盗问题。在许多基准数据集上,将所提出的方法的有效性与最先进的AutoML方案(如TPOT和Auto-sklearn)进行了比较。
translated by 谷歌翻译
在未来的运输系统中,电动自动移动需求(AMoD)车队的充电行为,即服务按需行程请求的自动驾驶车队,将可能挑战配电网络(PDN),从而导致过载或电压下降。在本文中,我们表明,如果在操作电动AMoD车队时考虑PDN的操作约束和外部负载(例如,来自家庭或企业),这些挑战可以显着减弱。假设AMoD与PDN运营商之间的全面合作,我们专注于系统级视角。通过这种单一的实体观点,我们得出了协调效益的上限。我们提出了一种基于优化的建模方法,用于联合控制电动AMoD车队和一系列PDN,并分析负载平衡约束下的协调效益。对于位于加利福尼亚州OrangeCounty的案例研究,我们展示了协调电动AMoD车队和PDNs帮助减少99%的过载和50%的电压降,这是电动车队在没有协调的情况下造成的。我们的研究结果表明,协调电介质AMoD和PDN有助于平衡负载,并且可以显着推迟将网络容量升级到更大规模以保持稳定性的点。
translated by 谷歌翻译
移动电话等分布式设备可以生成和存储大量数据,从而增强机器学习模型;但是,此数据可能包含特定于数据所有者的私人信息,以防止数据的发布。我们希望在保持有用信息的同时减少用户特定的私人信息和数据之间的相关性。 Ratherthan学习了一个大型模型以实现端到端的私有化,我们引入了潜在表示的创建和数据私有化的解耦,允许用户特定的私有化在分布式设置中进行,计算量有限,对数据的有效性影响最小。我们利用变分自动编码器(VAE)来创建数据的紧凑潜在表示;然而,VAE仍然是固定的设备和所有可能的私人标签。然后,我们训练一个小的生成过滤器,根据私人和公用事业信息的个人偏好扰乱潜在的表示。通过使用可以在分布式设备上进行的GAN类型稳健优化来训练小型过滤器。我们对三个流行的数据集进行了实验:MNIST,UCI-Adult和CelebA,并进行全面的评估,包括可视化潜在嵌入的几何,并估计经验互信息,以显示我们的方法的有效性。
translated by 谷歌翻译
预先训练的语言表示模型在自然语言处理中的各种任务中实现了显着的状态。最重要的进步之一是BERT,这是一种深度预训练的变压器,其产生的结果比其前辈更好。然而,尽管其迅速普及,但BERT尚未应用于文档分类。这项任务值得关注,因为它包含一些细微差别:首先,对于文档分类而言,语法结构的建模不如其他问题,如自然语言推理和情感分类。其次,文档通常在几十个类中有多个标签,这是BERT探索的任务的特征。在本文中,我们描述了用于文档分类的BERT调整BERT。我们是第一个证明BERT在这项任务上取得成功的人,在四个数据集中实现了最先进的技术。
translated by 谷歌翻译
行为决策理论旨在解释人类行为。他们可以对它进行预测吗?提出了一个用于预测基础组成决策任务中人类选择的开放式比赛。结果表明,将某些行为理论作为机器学习系统中的特征进行整合可以提供最佳预测。令人惊讶的是,最有用的预测理论建立在人类和动物学习的基本属性上,并且与主流决策理论非常不同,主流决策理论关注于偏离理性选择。此外,我们发现理论特征不仅应基于定性行为见解(例如损失厌恶),还应基于功能描述模型(例如ProspectTheory)产生的定量行为前瞻性。我们的分析规定了推导人类决策的可解释的,有用的预测的方法。
translated by 谷歌翻译
弱监督对象检测旨在减少训练检测模型所需的监督量。传统上,这些模型是从仅用对象类而不是对象边界框标记的图像/视频中学习的。在我们的工作中,我们不仅尝试利用对象类标签,还尝试利用与数据相关联的动作标签。我们展示了图像/视频中描绘的动作可以提供关于相关对象的位置的强烈提示。我们学习依赖于动作的对象的空间先验(例如,“球”更接近“踢球”中的“人的腿”),并且在同时训练联合对象检测和动作分类模型之前将其结合。我们对视频数据集和图像数据集进行了实验,以评估我们的弱监督对象检测模型的性能。在Charades视频数据集中,我们的方法在mAP方面的表现优于目前最先进的(SOTA)方法超过6%。
translated by 谷歌翻译
在未知环境中基于视觉的无人驾驶飞行器(UAV)姿态估计是机器人视觉领域中一个快速发展的研究领域。当唯一可用的传感器是静态单片机(单目视觉)时,任务变得更加复杂。在这方面,我们提出了一种单眼视觉辅助定位算法,它将帮助无人机在室内走廊环境中安全导航。始终,目标是通过将无人机保持在中心位置,向左或向右方向无人驾驶,使无人机在前进方向上行驶。该算法利用从UAV前置摄像头捕获的RGB图像,并将其传递到训练有素的深度神经网络(DNN),以预测无人机在走廊的左侧或中央或右侧的位置。根据无人机相对于走廊的中心平分线(CBL)的偏差,产生合适的命令以使无人机到达中心。当无人机位于走廊的中心时,新图像通过另一个受训的DNN以预测无人机相对于走廊的CBL的方向。如果UAV向左或向右倾斜,则生成适当的命令以纠正方向。我们还提出了一个名为NITRCorrV1的新走廊数据集,其中包含无人机在各种走廊的所有可能位置时由无人机前置摄像头捕获的图像。在不同走廊中进行的一组不完整的实验揭示了所提出的算法的功效。
translated by 谷歌翻译