为了应对目前的大流行情况并恢复伪正常的日常生活,已经部署和维护了几项措施,如面具穿着,社会偏差,手消毒等。由于户外文化活动,音乐会和野餐,逐渐允许,需要密切监测人群活动,以避免不期望的接触和疾病传播。在这种情况下,智能无人驾驶飞行器(无人机)可以偶尔部署以确保应用这些活动的监控,以应用健康限制措施,并在未尊重后者时触发警报。因此,我们提出了一个完整的UAV框架,可追加Covid-19户外活动的智能监控。具体而言,我们提出了三个步骤方法。在第一步中,使用机器学习来分析UAV的捕获图像来检测和定位个体。第二步包括一种新颖的坐标映射方法来评估个人之间的距离,然后聚集它们,而第三步提供能量有效和/或可靠的UAV轨迹,以检查限制违规的限制群体,如面罩磨损。获得的结果提供了以下见解:1)有效检测单个取决于捕获图像的角度,2)坐标映射对个体边界框中的估计误差非常敏感,以及3)UAV轨迹设计算法2-由于其低复杂性和近最优性能,建议选择实际实时部署。
translated by 谷歌翻译
表示解开是表示有利于各种下游任务的代表性学习的重要目标。为了实现这一目标,已经开发了许多无监督的学习表示方法。但是,事实证明,没有使用任何监督信号的培训过程就不足以进行分解表示。因此,我们提出了一种新型的弱监督训练方法,称为SW-VAE,该方法通过使用数据集的生成因子,将成对的输入观测值作为监督信号。此外,我们引入了策略,以逐渐增加训练过程中的学习难度,以使训练过程平滑。如多个数据集所示,我们的模型对表示解散任务的最新方法(SOTA)方法显示出显着改善。
translated by 谷歌翻译
我们提出语言学家,这是一种通过微调Alexatm 5B生成带注释数据的方法,用于生成意图分类和插槽标记(IC+ST),这是一种5亿参数的多语言序列到序列(SEQ2SEQ)模型,在灵活的指令上迅速的。在SNIP数据集的10次新颖意图设置中,语言学家超过了最新的方法(反向翻译和示例外推),可以通过宽阔的边距,显示出IC回忆中+1.9点的目标意图的绝对改善ST F1分数和+2.5分。在MATIS ++数据集的零击跨语言设置中,语言学家表现出强大的机器翻译基线,插槽对齐的基线是+4.14的+4.14点在6个语言上绝对在ST F1分数上,同时在IC上匹配IC的性能。最后,我们在用于对话代理IC+ST的内部大规模多语言数据集上验证了我们的结果,并显示了使用背面翻译,释义和插槽目录重新采样采样的基线的显着改进。据我们所知,我们是第一个展示大规模SEQ2SEQ模型的指导微调的人,以控制多语言意图和插槽标记的数据生成的输出。
translated by 谷歌翻译
散布和不变的表示是代表学习的两个关键目标,并且已经提出了许多方法来实现其中的一个。但是,这两个目标实际上是相互补充的,因此我们提出了一个框架,以同时完成两个目标。我们引入了一个弱监督的信号,以学习解开表示的表示,该表示由三个拆分组成,分别包含预测性,已知滋扰和未知的滋扰信息。此外,我们结合了对比度的实施表示不变性的方法。实验表明,所提出的方法在四个标准基准上优于最先进的方法(SOTA)方法,并表明该方法可以具有更好的对抗性防御能力,而没有对抗训练的其他方法。
translated by 谷歌翻译
由于视觉识别的社会影响一直受到审查,因此出现了几个受保护的平衡数据集,以解决不平衡数据集中的数据集偏差。但是,在面部属性分类中,数据集偏置既源于受保护的属性级别和面部属性级别,这使得构建多属性级别平衡的真实数据集使其具有挑战性。为了弥合差距,我们提出了一条有效的管道,以产生具有所需面部属性的高质量和足够的面部图像,并将原始数据集补充为两个级别的平衡数据集,从理论上讲,这在理论上满足了几个公平标准。我们方法的有效性在性别分类和面部属性分类方面得到了验证,通过将可比的任务性能作为原始数据集,并通过广泛的度量标准进行全面的公平评估,并进一步提高公平性。此外,我们的方法优于重采样和平衡的数据集构建来解决数据集偏差,以及解决任务偏置的模型模型。
translated by 谷歌翻译
由于电容层析成像(ECT)应用在几个工业领域的快速增长,因此从原始电容测量中开发出高质量但快速的图像重建方法的需求。深度学习是一种有效的非线性映射工具,用于复杂功能,在包括电断层扫描在内的许多领域都流行了。在本文中,我们提出了一个条件生成对抗网络(CGAN)模型,用于重建电容测量的ECT图像。 CGAN模型的初始图像是根据电容测量构建的。据我们所知,这是第一次以图像形式表示电容测量。我们创建了一个新的大规模ECT数据集,该数据集的320K合成图像测量对进行训练和测试所提出的模型。使用测试数据集,受污染的数据和流动模式评估所提出的CGAN-ECT模型的可行性和概括能力,这些数据集在训练阶段未暴露于模型。评估结果证明,与传统和其他基于学习的图像重建算法相比,提出的CGAN-ECT模型可以有效地创建更准确的ECT图像。 CGAN-ECT达到的平均图像相关系数超过99.3%,平均相对图像误差约为0.07。
translated by 谷歌翻译
我们引入了一个新的差异隐私(DP)会计师,称为鞍点会计师(SPA)。SPA以准确而快速的方式近似保证DP机制的组成。我们的方法是受鞍点法的启发,这是一种统计中无处不在的数值技术。通过为SPA提供的近似误差,我们通过得出上限和下限来证明性能的严格保证。水疗中心的关键是与中心极限定理的大型探空方法的组合,我们通过指数倾斜与DP机制相对应的隐私损失随机变量来得出。水疗中心的一个关键优点是,它可以在$ n $折叠机制的$ n $折叠组成下持续运行。数值实验表明,水疗中心的准确性与更快的运行时的最新会计方法相当。
translated by 谷歌翻译
在这项工作中,我们证明了多种语的大规模序列到序列(SEQ2SEQ)模型,该模型是通过Denoising和因果语言建模(CLM)任务的混合物进行训练的,比仅解码器模型更有效地进行了效率的学习者在各种任务上。特别是,我们培训了一个名为Alexa教师模型(Alexatm 20b)的200亿个参数多语言SEQ2SEQ模型,并表明它在1-Shot摘要任务上实现了最先进的(SOTA)性能,超过了更大的540B PALM DOPODER模型。 Alexatm 20b还可以在1-Shot Machine翻译中实现SOTA,尤其是对于低资源语言,几乎所有语言对(阿拉伯语,英语,法语,德语,德语,印地语,意大利语,日语,以及flores-101数据集上的泰卢固语)。我们还显示了零拍设置,AlexATM 20B在SuperGlue和SqueadV2数据集上的表现优于GPT3(175B),并在XNLI,XCOPA,PAWS-X和XWINOGRAD等多语言任务上提供SOTA性能。总体而言,我们的结果为SEQ2SEQ模型提供了一个令人信服的案例,作为大型语言模型(LLM)培训的仅解码器模型的强大替代方法。
translated by 谷歌翻译
深度学习表明,针对不同领域(例如图像和语音识别)的传统机器学习方法有了重大改进。他们在基准数据集上的成功通过从业人员通过验证的模型转移到现实世界中。使用监督学习预处理的视觉模型需要大量昂贵的数据注释。为了应对这一限制,已经提出了DeepCluster(一种简单且可扩展的视觉表示预处理)。但是,该模型的基本工作尚不清楚。在本文中,我们分析了DeepCluster内部质量,并详尽地评估了各种超参数在三个不同数据集上的影响。因此,我们提出了一个解释算法在实践中起作用的原因。我们还表明,深簇收敛和性能高度取决于卷积层随机初始化过滤器的质量与所选簇数的相互作用。此外,我们证明连续聚类对于深簇收敛并不重要。因此,聚类阶段的早期停止将减少训练时间,并允许算法扩展到大型数据集。最后,我们在半监督环境中得出了合理的超参数选择标准。
translated by 谷歌翻译
由于早期的机器学习模型,诸如准确性和精确度等指标已成为评估和比较训练模型的事实上的方法。但是,单个度量号并未完全捕获模型之间的相似性和差异,尤其是在计算机视觉域中。在某个数据集上具有很高精度的模型可能会在另一个数据集上提供较低的精度,而无需任何进一步的见解。为了解决这个问题,我们基于一种称为Disect的最新可解释性技术,以引入\ textit {模型可解释性},该技术根据他们所学的视觉概念(例如对象和材料)来确定模型如何相互联系或补充。为了实现这一目标,我们将13个表现最佳的自制模型投射到一个学习的概念(LCE)空间中,该概念从学识渊博的概念的角度揭示了模型之间的邻近。我们将这些模型的性能进一步跨越了四个计算机视觉任务和15个数据集。该实验使我们能够将模型分为三类,并首次揭示了不同任务所需的视觉概念类型。这是设计跨任务学习算法的一步。
translated by 谷歌翻译