近年来,最终用户的多个(边缘)设备中有大量分散数据,而由于法律或法规,分散数据的聚合对机器学习工作仍然困难。联合学习(FL)作为处理分散数据而不分享敏感原始数据的有效方法,同时协作培训全球机器学习模型。 FL中的服务器需要在培训过程中选择(和计划)设备。但是,具有FL的多个作业的设备的调度仍然是一个关键和打开的问题。在本文中,我们提出了一种新的多工作FL框架,以实现多个作业的并行培训过程。该框架包括系统模型和两个调度方法。在系统模型中,我们提出了多个作业的并行培训过程,并根据各种工作培训过程基于培训时间和各种设备的数据公平构建成本模型。我们提出了一种基于钢筋的基于学习的方法和基于贝叶斯优化的方法,以便为多个作业调度设备,同时最小化成本。我们通过多个工作和数据集进行广泛的实验。实验结果表明,我们提出的方法在培训时间(速度越快8.67倍)和准确性(高度高达44.6%)方面显着优于基线。
translated by 谷歌翻译
伪装的对象检测(COD)旨在识别自然场景中隐藏自己的物体。准确的COD遭受了许多与低边界对比度有关的挑战,并且对象出现(例如对象大小和形状)的较大变化。为了应对这些挑战,我们提出了一种新颖的背景感知跨层次融合网络(C2F-net),该网络融合了上下文感知的跨级特征,以准确识别伪装的对象。具体而言,我们通过注意力诱导的跨融合模块(ACFM)来计算来自多级特征的内容丰富的注意系数,该模块(ACFM)进一步在注意系数的指导下进一步集成了特征。然后,我们提出了一个双分支全局上下文模块(DGCM),以通过利用丰富的全球上下文信息来完善内容丰富的功能表示的融合功能。多个ACFM和DGCM以级联的方式集成,以产生高级特征的粗略预测。粗糙的预测充当了注意力图,以完善低级特征,然后再将其传递到我们的伪装推断模块(CIM)以生成最终预测。我们对三个广泛使用的基准数据集进行了广泛的实验,并将C2F-NET与最新模型(SOTA)模型进行比较。结果表明,C2F-NET是一种有效的COD模型,并且表现出明显的SOTA模型。此外,对息肉细分数据集的评估证明了我们在COD下游应用程序中C2F-NET的有希望的潜力。我们的代码可在以下网址公开获取:https://github.com/ben57882/c2fnet-tscvt。
translated by 谷歌翻译
样本分配在现代对象检测方法中起着重要的作用。但是,大多数现有的方法都依靠手动设计来分配正 /负样本,这些样本并未明确建立样本分配和对象检测性能之间的关系。在这项工作中,我们提出了一种基于高参数搜索的新型动态样本分配方案。我们首先将分配给每个地面真理的正样本的数量定义为超参数,并采用替代优化算法来得出最佳选择。然后,我们设计一个动态的样本分配过程,以动态选择每个训练迭代中的最佳阳性数量。实验表明,所得的HPS-DET在不同对象检测基线的基线上带来了改善的性能。此外,我们分析了在不同数据集之间和不同骨架之间转移的高参数可重复使用性,以进行对象检测,这表现出我们方法的优势和多功能性。
translated by 谷歌翻译
最近,大多数手写的数学表达识别(HMER)方法采用编码器 - 编码器网络,该网络直接从具有注意机制的公式图像中直接预测标记序列。但是,此类方法可能无法准确读取具有复杂结构的公式或生成长的标记序列,因为由于写作样式或空间布局的差异很大,注意结果通常是不准确的。为了减轻此问题,我们为HMER提出了一个名为Counting-Aware-Aware网络(CAN)的非常规网络,该网络共同优化了两个任务:HMER和符号计数。具体而言,我们设计了一个弱监督的计数模块,该模块可以预测每个符号类的数量,而无需符号级别的位置注释,然后将其插入HMER的典型基于注意力的编码器模型。在基准数据集上进行的实验验证了关节优化和计数结果既有益于纠正编码器模型的预测误差,又可以始终如一地胜过最先进的方法。特别是,与HMER的编码器模型相比,提议的计数模块引起的额外时间成本是边缘的。源代码可从https://github.com/lbh1024/can获得。
translated by 谷歌翻译
虽然最近出现了类别级的9DOF对象姿势估计,但由于较大的对象形状和颜色等类别内差异,因此,先前基于对应的或直接回归方法的准确性均受到限制。 - 级别的物体姿势和尺寸炼油机Catre,能够迭代地增强点云的姿势估计以产生准确的结果。鉴于初始姿势估计,Catre通过对齐部分观察到的点云和先验的抽象形状来预测初始姿势和地面真理之间的相对转换。具体而言,我们提出了一种新颖的分离体系结构,以了解旋转与翻译/大小估计之间的固有区别。广泛的实验表明,我们的方法在REAL275,Camera25和LM基准测试中的最先进方法高达〜85.32Hz,并在类别级别跟踪上取得了竞争成果。我们进一步证明,Catre可以对看不见的类别进行姿势改进。可以使用代码和训练有素的型号。
translated by 谷歌翻译
及时调整尝试更新预训练模型中的一些特定任务参数。它的性能与在语言理解和发电任务上的完整参数设置的微调相当。在这项工作中,我们研究了迅速调整神经文本检索器的问题。我们引入参数效率的及时调整,以调整跨内域,跨域和跨主题设置的文本检索。通过广泛的分析,我们表明该策略可以通过基于微调的检索方法来减轻两个问题 - 参数 - 信息和弱推广性。值得注意的是,它可以显着改善检索模型的零零弹性概括。通过仅更新模型参数的0.1%,及时调整策略可以帮助检索模型获得比所有参数更新的传统方法更好的概括性能。最后,为了促进回猎犬的跨主题概括性的研究,我们策划并发布了一个学术检索数据集,其中包含18K查询的87个主题,使其成为迄今为止特定于特定于主题的主题。
translated by 谷歌翻译
文档检索使用户能够准确,快速找到所需的文档。为了满足检索效率的要求,普遍的深神经方法采用了基于表示的匹配范式,该范式通过离线预先存储文档表示节省了在线匹配时间。但是,上述范式会消耗庞大的本地存储空间,尤其是将文档存储为单词元素表示时。为了解决这个问题,我们提出了TGTR,这是一种基于主题的文本表示模型,用于文档检索。遵循基于表示的匹配范式,TGTR将文档表示脱机存储以确保检索效率,而通过使用新颖的主题格式表示,而不是传统的单词元素,则大大降低了存储要求。实验结果表明,与单词粒度的基线相比,TGTR在检索准确性方面始终在TREC CAR和MS MARCO上竞争,但其所需的存储空间的少于1/10。此外,TGTR绝大多数在检索准确性方面超过了全球粒度的基线。
translated by 谷歌翻译
对于指定的实体识别(NER),基于序列标签和基于跨度的范例大不相同。先前的研究表明,这两个范式具有明显的互补优势,但是据我们所知,很少有模型试图在单个NER模型中利用这些优势。在我们以前的工作中,我们提出了一种称为捆绑学习(BL)的范式来解决上述问题。 BL范式将两个NER范式捆绑在一起,从而使NER模型通过加权总结每个范式的训练损失来共同调整其参数。但是,三个关键问题仍未解决:BL何时起作用? BL为什么工作? BL可以增强现有的最新(SOTA)NER模型吗?为了解决前两个问题,我们实施了三个NER模型,涉及一个基于序列标签的模型-Seqner,Seqner,一个基于跨度的NER模型 - 机器人,以及将Seqner和Spanner捆绑在一起的BL-NER。我们根据来自五个域的11个NER数据集的实验结果得出两个关于这两个问题的结论。然后,我们将BL应用于现有的五个SOTA NER模型,以研究第三期,包括三个基于序列标签的模型和两个基于SPAN的模型。实验结果表明,BL始终提高其性能,表明可以通过将BL纳入当前的SOTA系统来构建新的SOTA NER系统。此外,我们发现BL降低了实体边界和类型预测错误。此外,我们比较了两种常用的标签标签方法以及三种类型的跨度语义表示。
translated by 谷歌翻译
深度神经网络的成功在很大程度上取决于大量高质量注释的数据的可用性,但是这些数据很难或昂贵。由此产生的标签可能是类别不平衡,嘈杂或人类偏见。从不完美注释的数据集中学习无偏分类模型是一项挑战,我们通常会遭受过度拟合或不足的折磨。在这项工作中,我们彻底研究了流行的软马克斯损失和基于保证金的损失,并提供了一种可行的方法来加强通过最大化最小样本余量来限制的概括误差。我们为此目的进一步得出了最佳条件,该条件指示了类原型应锚定的方式。通过理论分析的激励,我们提出了一种简单但有效的方法,即原型锚定学习(PAL),可以轻松地将其纳入各种基于学习的分类方案中以处理不完美的注释。我们通过对合成和现实世界数据集进行广泛的实验来验证PAL对班级不平衡学习和降低噪声学习的有效性。
translated by 谷歌翻译
基于深度学习的分类中特征表示的主要挑战之一是设计表现出强大歧视力的适当损失功能。经典的SoftMax损失并不能明确鼓励对特征的歧视性学习。研究的一个流行方向是将边缘纳入良好的损失中,以实施额外的课内紧凑性和阶层间的可分离性,但是,这是通过启发式手段而不是严格的数学原则来开发的。在这项工作中,我们试图通过将原则优化目标提出为最大的利润率来解决这一限制。具体而言,我们首先将类别的边缘定义为级别间的可分离性的度量,而样品边缘是级别的紧凑性的度量。因此,为了鼓励特征的歧视性表示,损失函数应促进类和样品的最大可能边缘。此外,我们得出了广义的保证金软损失,以得出现有基于边缘的损失的一般结论。这个原则性的框架不仅提供了新的观点来理解和解释现有的基于保证金的损失,而且还提供了新的见解,可以指导新工具的设计,包括样本保证金正则化和最大的平衡案例的最大保证金损失,和零中心的正则化案例。实验结果证明了我们的策略对各种任务的有效性,包括视觉分类,分类不平衡,重新识别和面部验证。
translated by 谷歌翻译