视频字幕的规范方法决定了用于从离线提取的密集视频特征学习的标题生成模型。这些特征提取器通常在以固定帧速率采样的视频帧上操作,并且通常在图像/视频理解任务上培训,而不适用于视频标题数据。在这项工作中,我们展示了Swinbert,一种用于视频字幕的基于端到端的变换器的模型,它将视频帧贴片直接作为输入,并输出自然语言描述。我们的方法代替利用多个2D / 3D特征提取器,该方法采用视频变压器来编码可适应可变长度的视频输入,而无需专用设计,可以针对不同的帧速率进行专用设计。基于该模型架构,我们表明视频标题可以从更密集地采样的视频帧中受益匪浅,而不是以前的成功,用于视频和语言理解任务的稀疏采样视频帧(例如,视频问题应答)。此外,为了避免连续视频帧中固有的冗余,我们建议通过更好的远程视频序列建模来自适应地学习稀疏的注意掩模并优化任务特定性能改进。通过对5个视频字幕数据集的广泛实验,我们展示了Swinbert通过较大的余量来实现对以前的方法的整体性能改进。此外,学习的稀疏注意力掩模将限制推向新的技术,可以在不同的视频长度和不同的数据集之间传输。
translated by 谷歌翻译
在本文中,我们提出了Unicorn,一种vision-language(vl)模型,使文本生成和边界框预测到单个架构中。具体而言,我们将每个框量化为四个离散框令牌,并将其序列化为序列,可以与文本令牌集成。我们将所有VL问题作为一代任务,其中目标序列由集成文本和框令牌组成。然后,我们训练变压器编码器解码器以以自动回归方式预测目标。通过如此统一的框架和输入输出格式,Unicorn在7 VL基准测试中实现了对现有技术的可比性的性能,涵盖了视觉接地,接地字幕,视觉问题应答和图像标题任务。当用多任务FINETUNING培训时,UNICORN可以通过单一的参数方法接近不同的VL任务,从而跨越下游任务边界。我们展示了具有单一模型不仅可以节省参数,而且还可以在某些任务上提高模型性能。最后,Unicorn显示了概括到诸如ImageNet对象本地化的新任务的能力。
translated by 谷歌翻译
当代患者监控系统已经将中央监控流入电子健康记录界面。他们可以通过采用机器学习方法来处理患者数据的纯粹体积。然而,这些系统不适合在许多医院实施,主要是发展中国家,有限的人类,金融和技术资源。通过对密集护理设施进行彻底的研究,我们设计了一种新型中央患者监控系统,并在本文中描述了我们系统的工作原型。所提出的原型包括廉价的外围设备和简单的用户界面。我们的中央患者监测系统实现基于内核的基于线异常检测(KAOD)算法,用于紧急事件信令。通过评估连续患者数据,我们表明系统能够可靠地实时检测关键事件,并且具有低误报率。
translated by 谷歌翻译
高度动态的移动ad-hoc网络(MANET)仍然是开发和部署强大,高效和可扩展的路由协议的最具挑战性环境之一。在本文中,我们提出了DeepCQ +路由协议,以一种新颖的方式将新兴的多代理深度增强学习(Madrl)技术集成到现有的基于Q学习的路由协议及其变体中,并在各种拓扑结构中实现了持续更高的性能和移动配置。在保持基于Q学习的路由协议的整体协议结构的同时,DeepCQ +通过精心设计的Madrl代理替换静态配置的参数化阈值和手写规则,使得不需要这些参数的配置。广泛的模拟表明,与其基于Q学习的对应物相比,DeptCQ +产生的端到端吞吐量显着增加了端到端延迟(跳数)的明显劣化。在定性方面,也许更重要的是,Deepcq +在许多情况下维持了非常相似的性能提升,即在网络尺寸,移动条件和交通动态方面没有接受过培训。据我们所知,这是Madrl框架的第一次成功应用MANET路由问题,即使在训练有素的场景范围之外的环境中,即使在训练范围之外的环境中也能够高度的可扩展性和鲁棒性。这意味着我们的基于Marl的DeepCQ +设计解决方案显着提高了基于Q学习的CQ +基线方法的性能,以进行比较,并提高其实用性和解释性,因为现实世界的MANET环境可能会在训练范围的MANET场景之外变化。讨论了进一步提高性能和可扩展性的增益的额外技术。
translated by 谷歌翻译
预测道路用户的未来行为是自主驾驶中最具挑战性和最重要的问题之一。应用深度学习对此问题需要以丰富的感知信号和地图信息的形式融合异构世界状态,并在可能的期货上推断出高度多模态分布。在本文中,我们呈现MultiPath ++,这是一个未来的预测模型,实现了在流行的基准上实现最先进的性能。 MultiPath ++通过重新访问许多设计选择来改善多径架构。第一关键设计差异是偏离基于图像的基于输入世界状态的偏离,有利于异构场景元素的稀疏编码:多径++消耗紧凑且有效的折线,直接描述道路特征和原始代理状态信息(例如,位置,速度,加速)。我们提出了一种背景感知这些元素的融合,并开发可重用的多上下文选通融合组件。其次,我们重新考虑了预定义,静态锚点的选择,并开发了一种学习模型端到端的潜在锚嵌入的方法。最后,我们在其他ML域中探索合奏和输出聚合技术 - 常见的常见域 - 并为我们的概率多模式输出表示找到有效的变体。我们对这些设计选择进行了广泛的消融,并表明我们所提出的模型在协会运动预测竞争和Waymo开放数据集运动预测挑战上实现了最先进的性能。
translated by 谷歌翻译
在本文中,我们介绍了对非对称确定点处理(NDPP)的在线和流媒体地图推断和学习问题,其中数据点以任意顺序到达,并且算法被约束以使用单次通过数据以及子线性存储器。在线设置有额外要求在任何时间点维护有效的解决方案。为了解决这些新问题,我们提出了具有理论担保的算法,在几个真实的数据集中评估它们,并显示它们对最先进的离线算法提供了可比的性能,该算法将整个数据存储在内存中并采取多次传递超过它。
translated by 谷歌翻译
随着机器学习的出现,在医疗保健和能源等关键基础设施的应用中,隐私是利益相关者的思想中越来越令人担忧。它是衡量的,确保模型和数据都不能用于提取攻击者对个人使用的敏感信息或通过利用关键基础设施来伤害整个社会。由于缺乏关于透明度和隐私约束的信任,机器学习在这些域中的适用性主要是有限的。各种安全关键用例(主要依赖于时间序列数据)目前在隐私相关的考虑因素方面受到了代表性。通过评估有关其在时间序列数据的适用性的若干隐私保留方法,我们验证了加密对深度学习的影响,差异隐私的强大数据集依赖性以及联合方法的广泛适用性。
translated by 谷歌翻译
核毒素和eosin染色组织学图像中的核分段,分类和定量使得能够提取可解释的细胞基特征,该特征可用于计算病理(CPATH)中的下游可解释模型。然而,对不同核的自动识别面临着主要的挑战,因为有几种不同类型的核,其中一些呈现出大的内部变异性。为了帮助推动CPATH中自动核认可的前进研究和创新,我们组织了结肠核识别和计数(圆锥)挑战。挑战鼓励研究人员开发在CPATH中,在CPATH中,在CPATH中进行当前最大已知的公知的核级数据集进行分割,分类和计数,其中包含大约一半的标记的核。因此,锥形挑战利用核数量超过10倍的核,作为核识别的前一大挑战数据集。如果我们希望在临床环境中部署它们,则对输入变体具有强大的算法很重要。因此,作为这一挑战的一部分,我们还将测试每个提交算法对某些输入变化的敏感性。
translated by 谷歌翻译
密集Wi-Fi网络中的设备移动性提供了几个挑战。与设备移动性相关的两个众所周知的问题是切换预测和接入点选择。由于无线电环境的复杂性,分析模型可能不会表征无线信道,这使得这些问题的解决方案非常困难。最近,使用复杂学习技术的认知网络架构越来越多地应用于这些问题。在本文中,我们提出了一种数据驱动的机器学习(ML)方案,以有效地解决WLAN网络中的这些问题。评估所提出的方案,并将结果与​​上述问题的传统方法进行比较。结果通过应用提出的计划报告了网络性能的显着提高。例如,提出的切换预测方案优于传统方法I.。RSS方法和行驶距离方法分别将不必要的切片数减少60%和50%。类似地,在AP选择中,所提出的方案通过分别实现高达9.2%和8%的吞吐量提高,优于SSF和LLF算法。
translated by 谷歌翻译
本文介绍了我们提交给WMT21共享新闻翻译任务的受限轨道。我们专注于三个相对低的资源语言对孟加拉,从印地语,英语往返Hausa,以及来自Zulu的Xhosa。为了克服相对低行数据的限制,我们使用采用并行和单晶体数据的多任务目标训练多语言模型。此外,我们使用后退转换增强数据。我们还培养了一种双语模型,包括后退转换和知识蒸馏,然后使用序列到序列映射来组合两种模型。我们看到迄今为止英语和来自Hausa的Bleu Point的相对收益约为70%,以及与双语基线相比,孟加拉和从Zulu的孟加拉和从Zulu的相对改善约25%。
translated by 谷歌翻译