本文回顾了AIM 2022上压缩图像和视频超级分辨率的挑战。这项挑战包括两条曲目。轨道1的目标是压缩图像的超分辨率,轨迹〜2靶向压缩视频的超分辨率。在轨道1中,我们使用流行的数据集DIV2K作为培训,验证和测试集。在轨道2中,我们提出了LDV 3.0数据集,其中包含365个视频,包括LDV 2.0数据集(335个视频)和30个其他视频。在这一挑战中,有12支球队和2支球队分别提交了赛道1和赛道2的最终结果。所提出的方法和解决方案衡量了压缩图像和视频上超分辨率的最先进。提出的LDV 3.0数据集可在https://github.com/renyang-home/ldv_dataset上找到。此挑战的首页是在https://github.com/renyang-home/aim22_compresssr。
translated by 谷歌翻译
神经体系结构搜索方法寻求具有有效的体重共享超级网训练的最佳候选者。但是,最近的研究表明,关于独立架构和共享重量网络之间的性能的排名一致性差。在本文中,我们提出了提前引导的一声NAS(PGONA),以加强超级网的排名相关性。具体而言,我们首先探讨激活功能的效果,并提出基于三明治规则的平衡采样策略,以减轻超级网中的重量耦合。然后,采用了拖鞋和禅宗得分来指导超级网的训练,并具有排名相关性损失。我们的PGONA在CVPR2022第二轻型NAS挑战赛的SuperNet轨道中排名第三。代码可在https://github.com/pprp/cvpr2022-nas?competition-track1-3th-solution中找到。
translated by 谷歌翻译
强化学习(RL)是一种基于代理的方法,可以教机器人在物理世界中导航。已知收集RL的数据是一项费力的任务,现实世界实验可能会冒险。模拟器以更快,更具成本效益的方式促进培训数据的收集。但是,RL经常需要大量的仿真步骤才能使代理在简单任务上变得熟练。这是基于RL的视觉四面导航字段中普遍的问题,其中状态尺寸通常非常大,动态模型很复杂。此外,渲染图像和获得代理的物理特性在计算上可能很昂贵。为了解决这个问题,我们提出了一个基于Airsim的模拟框架,该框架提供了有效的并行训练。在此框架的基础上,APE-X经过修改,以结合空调环境的分散培训,以利用众多网络计算机。通过实验,我们能够使用上述框架将训练时间从3.9小时减少到11分钟,总共有74个代理和两台网络计算机。可以在https://sites.google.com/view/prl4airsim/home上找到有关我们项目Prl4airsim的更多详细信息和有关我们项目的视频。
translated by 谷歌翻译
我们提出了一个端到端的讲座视频生成系统,该系统可以直接从注释的幻灯片,讲师的参考语音和讲师的参考肖像视频中生成现实和完整的讲座视频。我们的系统主要由语音合成模块组成,具有很少的扬声器适应器和基于对抗性学习的说话头生成模块。它不仅能够减少讲师的工作量,还可以改变语言和口音,这可以帮助学生更轻松地跟随讲座,并能够更广泛地传播讲座内容。我们的实验结果表明,所提出的模型在真实性,自然性和准确性方面优于其他当前方法。这是一个视频演示,展示了我们的系统的工作原理以及评估和比较的结果:https://youtu.be/cy6tyki0cog。
translated by 谷歌翻译
Google,Amazon和Microsoft等提供商提供的商业ML API已在许多应用程序中大大简化了ML的采用。许多公司和学者都为使用ML API用于对象检测,OCR和情感分析等任务。处理相同任务的不同ML API可能具有非常异构的性能。此外,API的基础模型也随着时间的推移而发展。随着ML API迅速成为一个有价值的市场,并且是消耗机器学习的广泛方式,因此系统地研究和比较不同的API并表征API随时间变化的方式至关重要。但是,由于缺乏数据,目前该主题目前没有被忽视。在本文中,我们介绍了HAPI(API的历史),该数据集由1,761,417个商业ML API应用程序(涉及来自亚马逊,Google,IBM,Microsoft和其他提供商的API),包括图像标签,文本识别和文本识别和文本识别和文本,从2020年到2022年的挖掘。每个实例都由API的查询输入(例如图像或文本)以及API的输出预测/注释和置信分数组成。 HAPI是ML API使用情况的第一个大型数据集,并且是研究ML-AS-A-Service(MLAAS)的独特资源。作为HAPI启用的分析类型的示例,我们表明ML API的性能会随着时间的流逝而大幅变化 - 在特定基准数据集上删除了几个API的精度。即使API的汇总性能保持稳定,其误差模式也可以在2020年至2022年之间在不同的数据子类型中转移。这种更改可能会大大影响使用某些ML API作为组件的整个分析管道。随着时间的流逝,我们进一步使用HAPI研究人口亚组的商业API绩效差异。 HAPI可以刺激MLAA的不断发展领域的更多研究。
translated by 谷歌翻译
部署的机器学习(ML)模型经常遇到与培训数据不同的新用户数据。因此,估计给定模型在新数据上的性能是朝着可靠的ML应用程序迈出的重要一步。但是,这是非常具有挑战性的,因为数据分布可以以灵活的方式变化,并且我们可能没有新数据上的任何标签,这在监视设置时通常是这种情况。在本文中,我们提出了一种新的分配移位模型,即稀疏关节移位(SJS),该模型考虑了标签和一些特征的关节移位。这统一并概括了几种现有的偏移模型,包括标签移位和稀疏协变量移位,仅考虑边际特征或标签分布位移。我们描述了SJS可识别的数学条件。我们进一步提出了See,这是一个算法框架,以表征SJS下的分布变化,并估计模型在没有任何标签的新数据上的性能。我们在具有各种ML模型的几个现实世界数据集上进行了广泛的实验。在不同的数据集和分配变化中,看到对现有方法的误差改善(最多达到数量级)的显着(最多)。
translated by 谷歌翻译
电动汽车(EV)在自动启动的按需(AMOD)系统中起关键作用,但是它们的独特充电模式增加了AMOD系统中的模型不确定性(例如,状态过渡概率)。由于通常存在训练和测试(真)环境之间的不匹配,因此将模型不确定性纳入系统设计至关重要。但是,在现有文献重新平衡的EV AMOD系统中,尚未明确考虑模型不确定性,并且仍然是一项紧急和挑战的任务。在这项工作中,我们为EV重新平衡和充电问题设计了一个强大而有限的多机构增强学习(MARL)框架。然后,我们提出了一种强大且受限的MARL算法(Rocoma),该算法训练了强大的EV重新平衡政策,以平衡供需比率和整个城市的充电利用率在国家过渡不确定性下。实验表明,Rocoma可以学习有效且强大的重新平衡政策。当存在模型不确定性时,它的表现优于非稳定MAL方法。它使系统公平性增加了19.6%,并使重新平衡成本降低了75.8%。
translated by 谷歌翻译
在这个时代,智能和低功率视网膜假体的需求高度要求,在这个时代,可穿戴和可植入的设备用于众多医疗保健应用。在本文中,我们提出了一个节能动态场景处理框架(Spikesee),该框架结合了尖峰代表编码技术和生物启发的尖峰复发性神经网络(SRNN)模型,以实现智能处理和极端的低功耗计算。尖峰表示编码技术可以用稀疏的尖峰火车来解释动态场景,从而减少数据量。采用受人视网膜特殊结构和尖峰加工方法的启发的SRNN模型,以预测神经节细胞对动态场景的响应。实验结果表明,所提出的SRNN模型的Pearson相关系数达到0.93,这表现优于视网膜假体的最先进的处理框架。得益于尖峰表示和SRNN处理,该模型可以以无倍数的方式提取视觉特征。与基于卷积的复发神经网络(CRNN)处理框架相比,该框架可实现12倍的功率。我们提出的Spikesee可以通过较低的能源消耗来更准确地预测神经节细胞的响应,从而减轻了视网膜假体的精度和功率问题,并为可穿戴或可植入的假体提供了潜在的解决方案。
translated by 谷歌翻译
深Q学习网络(DQN)是一种成功的方式,将增强学习与深神经网络结合在一起,并导致广泛应用强化学习。当将DQN或其他强化学习算法应用于现实世界问题时,一个具有挑战性的问题是数据收集。因此,如何提高数据效率是强化学习研究中最重要的问题之一。在本文中,我们提出了一个框架,该框架使用深q网络中的最大均值损失(m $^2 $ dqn)。我们没有在训练步骤中抽样一批体验,而是从体验重播中采样了几批,并更新参数,以使这些批次的最大td-Error最小化。所提出的方法可以通过替换损耗函数来与DQN算法的大多数现有技术结合使用。我们在几个健身游戏中使用了最广泛的技术DQN(DDQN)之一来验证该框架的有效性。结果表明,我们的方法会导致学习速度和性能的实质性提高。
translated by 谷歌翻译
图神经网络(GNN)从材料科学家那里引起了越来越多的关注,并证明了建立结构和属性之间的连接的高能力。但是,只有仅提供的未删除结构作为输入,很少有GNN模型可以预测带有可接受的误差水平的放松配置的热力学特性。在这项工作中,我们开发了基于Dimenet ++和混合密度网络的多任务(MT)体系结构,以提高此类任务的性能。将基于CU的单原子合金催化剂的共吸附作为例证,我们表明我们的方法可以可靠地估计CO的吸附能,其平均绝对误差为0.087 eV,从初始CO的吸附结构中,而无需昂贵的第一原则计算。此外,与其他最先进的GNN方法相比,我们的模型在预测具有看不见的底物表面或掺杂物种的催化性能时具有提高的概括能力。我们表明,拟议的GNN策略可以促进催化剂发现。
translated by 谷歌翻译