介绍了一种名为VMagent的新型模拟器,以帮助RL研究人员更好地探索新方法,特别是对于虚拟机调度。VMagent由实用虚拟机(VM)调度任务的启发,并提供了一个有效的仿真平台,可以反映云计算的实际情况。从实际云计算结束了三种情况(衰落,恢复和扩展),对应于许多强化学习挑战(高维度和行动空间,高于寿命和终身需求)。VMagent为RL研究人员提供了灵活的配置,以设计考虑不同的问题特征的定制调度环境。从VM调度角度来看,VMagent还有助于探索更好的基于学习的调度解决方案。
translated by 谷歌翻译
过去几年的技术创新的巨大浪潮,标志着AI技术的进展,是深刻的重塑行业和社会。然而,在路上,一个关键的挑战等待着我们,即我们满足快速增长的情景的能力的能力受到收购培训数据的成本的严重限制。由于主流学习范式的局限性,这一困难的局面是基于主流学习范式的局限性:我们需要根据大量注释的数据以及通常从头来训练每个新场景的新模型。在解决这一基本问题时,我们超越并开发一个名为实习生的新学习范式。通过在多个阶段的来自多个来源的监控信号学习,培训的模型将产生强大的相互性。我们在26个众所周知的数据集中评估我们的模型,该数据集涵盖计算机视觉中的四类任务。在大多数情况下,我们的模型仅适用于目标域中的培训数据的10%,始终以完整的数据培训的对应物,通常由显着的边距。这是一个重要前景的重要一步,其中具有一般视觉能力的这种模型可以大大降低对数据的依赖,从而加速通过AI技术的采用。此外,围绕我们的新范式旋转,我们还介绍了一个新的数据系统,新的架构和新的基准,以及一起形成一般愿景生态系统,以开放和包容性的方式支持其未来的发展。
translated by 谷歌翻译
人类通过不同的渠道表达感受或情绪。以语言为例,它在不同的视觉声学上下文下需要不同的情绪。为了精确了解人类意图,并减少歧义和讽刺引起的误解,我们应该考虑多式联路信号,包括文本,视觉和声学信号。至关重要的挑战是融合不同的特征模式以进行情绪分析。为了有效地融合不同的方式携带的信息,更好地预测情绪,我们设计了一种基于新的多主题的融合网络,这是由任何两个对方式之间的相互作用不同的观察来启发,它们是不同的,并且它们不同样有助于最终的情绪预测。通过分配具有合理关注和利用残余结构的声学 - 视觉,声学 - 文本和视觉文本特征,我们参加了重要的特征。我们对四个公共多模式数据集进行了广泛的实验,包括中文和三种英文中的一个。结果表明,我们的方法优于现有的方法,并可以解释双模相互作用在多种模式中的贡献。
translated by 谷歌翻译
已经开发了各种深度学习模型,以从医学图像分段解剖结构,但它们通常在具有不同数据分布的另一个目标域上测试时具有差的性能。最近,已经提出了未经监督的域适应方法来缓解这种所谓的域移位问题,但大多数都是针对具有相对较小域移位的方案设计的,并且在遇到大域间隙时可能会失败。在本文中,我们提出DCDA,一种新的跨模型无监督域适应框架,用于具有大域移位的任务,例如,来自Octa和OCT图像的分段视网膜血管。 DCDA主要包括解开表示样式转移(DRST)模块和协作一致性学习(CCL)模块。 DRST将图像分解成内容组件和样式代码,并执行样式传输和图像重建。 CCL包含两个分段模型,一个用于源域,另一个用于目标域。这两种模型使用标记的数据(与相应的传输图像一起)进行监督学习,并在未标记的数据上执行协作一致性学习。每个模型都侧重于相应的单个域,并旨在产生专用域特定的分段模型。通过对视网膜船分割的广泛实验,我们的框架从Octa到Oct和Oct到Octa的OctA到Octa的骰子分数均达到目标培训的甲骨文,显着优于其他最先进的方法。
translated by 谷歌翻译
由于视频帧之间的庞大本地冗余和复杂的全局依赖性,这是一种具有挑战性的任务。该研究的最近进步主要由3D卷积神经网络和视觉变压器推动。虽然3D卷积可以有效地聚合本地上下文来抑制来自小3D邻域的本地冗余,但由于接收领域有限,它缺乏捕获全局依赖性的能力。或者,视觉变压器可以通过自我关注机制有效地捕获远程依赖性,同时具有在每层中所有令牌之间的盲目相似性比较来降低本地冗余的限制。基于这些观察,我们提出了一种新颖的统一变压器(统一机),其以简洁的变压器格式无缝地整合3D卷积和时空自我关注的优点,并在计算和准确性之间实现了优选的平衡。与传统的变形金刚不同,我们的关系聚合器可以通过在浅层和深层中学习本地和全球令牌亲和力来解决时空冗余和依赖性。我们对流行的视频基准进行了广泛的实验,例如动力学-400,动力学-600,以及某种东西 - 某种东西 - 某种东西 - 某种东西 - 某种东西。只有ImageNet-1K预磨料,我们的统一器在动力学-400 /动力学-600上实现了82.9%/ 84.8%的前1个精度,同时需要比其他最先进的方法更少的gflops。对于某些东西而言,我们的制服分别实现了新的最先进的表演,分别实现了60.9%和71.2%的前1个精度。代码可在https://github.com/sense-x/uniformer获得。
translated by 谷歌翻译
生物医学网络上的自我监督的代表学习(SSL)为药物发现提供了新的机会,这些机会缺乏可用的生物或临床表型。但是,如何有效地结合多个SSL模型是具有挑战性的并且很少探索。因此,我们提出了对药物发现的生物医学网络的自我监督代表学习的多任务联合策略,命名为MSSL2DRUG。我们设计了六种基本的SSL任务,这些任务受到各种方式特征,包括生物医学异构网络中的结构,语义和属性,包括结构,语义和属性。此外,通过两种药物发现场景中的基于图表的对抗的对抗性多任务学习框架评估了多份任务的十五个组合。结果表明了两个重要的发现。 (1)与其他多任务联合策略相比,多模式任务的组合实现了最佳性能。 (2)本地和全球SSL任务的联合培训比随机任务组合产生更高的性能。因此,我们猜想多式联运和本地全球组合策略可以被视为多任务SSL对药物发现的指导。
translated by 谷歌翻译
随着深度学习和智能车辆的兴起,智能助手已成为促进驾驶和提供额外功能的基本内部组件。汽车智能助理应该能够处理一般的和与汽车有关的命令,并执行相应的操作,减轻驾驶和提高安全性。但是,对于低资源语言存在数据稀缺问题,妨碍了研究和应用的发展。在本文中,我们介绍了一个新的DataSet,粤式视听语音识别(CI-AVSR),用于粤语中的车载命令识别,具有视频和音频数据。它由令人宣传的30个粤语发言者记录的200个车载命令的4,984个样本(8.3小时)组成。此外,我们使用常见的内部内部背景噪声增强我们的数据集来模拟真实环境,产生比收集的数据集大10倍。我们提供我们数据集的清洁和增强版本的详细统计信息。此外,我们实施了两个多模式基线以证明CI-AVSR的有效性。实验结果表明,利用视觉信号提高了模型的整体性能。虽然我们的最佳模型可以在清洁测试集上实现相当大的质量,但嘈杂数据的语音识别质量仍然是较差的,并且仍然是真正的车载语音识别系统的极其具有挑战性的任务。数据集和代码将在https://github.com/hltchkust/ci-avsr发布。
translated by 谷歌翻译
本文报告了Chalearn的Autodl挑战系列的结果和后攻击分析,这有助于对自动学习(DL)进行分类,以便在各种环境中引入的深度学习(DL),但缺乏公平的比较。格式化所有输入数据模型(时间序列,图像,视频,文本,表格)作为张量,所有任务都是多标签分类问题。代码提交已在隐藏的任务上执行,具有限制时间和计算资源,推动快速获取结果的解决方案。在此设置中,DL方法占主导地位,但流行的神经结构搜索(NAS)是不切实际的。解决方案依赖于微调预培训的网络,架构匹配数据模块。挑战后测试没有透露超出强加时间限制的改进。虽然没有组件尤其原始或新颖,但是一个高级模块化组织出现了“Meta-Learner”,“数据摄入”,“模型选择器”,“模型/学习者”和“评估员”。这种模块化使得消融研究,揭示了(离坡)元学习,合奏和高效数据管理的重要性。异构模块组合的实验进一步证实了获胜解决方案的(本地)最优性。我们的挑战队遗产包括一个持久的基准(http://utodl.chalearn.org),获胜者的开放源代码,以及免费的“autodl自助服务”。
translated by 谷歌翻译
放射学报告生成旨在产生计算机辅助诊断,以缓解放射科医生的工作量,并最近引起了越来越长的关注。然而,之前的深度学习方法倾向于忽视医学发现之间的相互影响,这可以是限制所生成的报告质量的瓶颈。在这项工作中,我们建议在信息知识图表中提出和代表医学发现的协会,并将此事先知识纳入放射学报告,以帮助提高所生成的报告质量。实验结果证明了我们在IU X射线数据集上的提出方法的优越性,Rouge-L为0.384 $ \ PM $ 0.007和0.340 $ \ PM $ 0.011。与以前的作品相比,我们的模型平均实现了1.6%(苹果酒和Rouge-L的增加2.0%和1.5%)。实验表明,先验知识可以为准确的放射学报告生成表现收益。我们将在https://github.com/bionlplab/report_generation_amia2022中公开公开可用的代码。
translated by 谷歌翻译
近年来,评估视频的行动质量引起了计算机视觉群落和人机互动中的不断关注。大多数现有方法通常通过直接从动作识别任务迁移模型来解决这个问题,这忽略了特征映射内的内在差异,例如前景和背景信息。为了解决这个问题,我们提出了一种用于行动质量评估(AQA)的管自我关注网络(TSA网)。具体地,我们将单个对象跟踪器引入AQA并提出了管自我关注模块(TSA),可以通过采用稀疏特征交互有效地产生丰富的时空上下文信息。 TSA模块嵌入在现有的视频网络中以形成TSA-Net。总体而言,我们的TSA-网具有以下优点:1)高计算效率,2)灵活性高,3)最先进的性能。在包括AQA-7和MTL-AQA的流行动作质量评估数据集上进行了广泛的实验。此外,提出了一个名为Fint识别的数据集(FR-FS),以探索花样滑冰场景中的基本动作评估。
translated by 谷歌翻译