动机,情感和行动是人类活动中相关的基本因素。尽管长期以来一直认为动机和情感是探索人们如何在人类活动中采取行动的核心,但几乎没有研究支持分析人类精神状态与行动之间的关系。我们介绍了第一项研究,该研究研究了基于语言的人类活动中建模动机,情感和行动的生存能力,即逗号(人类活动的认知框架)。在逗号的指导下,我们定义了三个自然语言处理任务(情感理解,动机理解和有条件的动作生成),并通过自动从故事常识中提取样本来建立一个具有挑战性的数据集冰雹。 NLP应用程序的实验结果证明了建模关系的有效性。此外,与现有方法相比,受逗号启发的模型可以更好地揭示动机,情感和行动之间的基本关系。
translated by 谷歌翻译
多个实例学习(MIL)是对诊断病理学的整个幻灯片图像(WSI)进行分类的强大方法。 MIL对WSI分类的基本挑战是发现触发袋子标签的\ textit {critical Instances}。但是,先前的方法主要是在独立和相同的分布假设(\ textit {i.i.d})下设计的,忽略了肿瘤实例或异质性之间的相关性。在本文中,我们提出了一种新颖的基于多重检测的多重实例学习(MDMIL)来解决上述问题。具体而言,MDMIL是由内部查询产生模块(IQGM)和多重检测模块(MDM)构建的,并在训练过程中基于内存的对比度损失的辅助。首先,IQGM给出了实例的概率,并通过在分布分析后汇总高度可靠的功能来为后续MDM生成内部查询(IQ)。其次,在MDM中,多重检测交叉注意(MDCA)和多头自我注意力(MHSA)合作以生成WSI的最终表示形式。在此过程中,智商和可训练的变异查询(VQ)成功建立了实例之间的联系,并显着提高了模型对异质肿瘤的鲁棒性。最后,为了进一步在特征空间中实施限制并稳定训练过程,我们采用基于内存的对比损失,即使在每次迭代中有一个样本作为输入,也可以实现WSI分类。我们对三个计算病理数据集进行实验,例如CamelyOn16,TCGA-NSCLC和TCGA-RCC数据集。优越的准确性和AUC证明了我们提出的MDMIL比其他最先进方法的优越性。
translated by 谷歌翻译
对异常域特定视频集的有效分析是一个重要的实践问题,在该问题中,最新的通用模型仍面临局限性。因此,希望设计基准数据集,以挑战具有其他约束的特定领域的新型强大模型。重要的是要记住,特定域的数据可能更嘈杂(例如,内窥镜或水下视频),并且通常需要更多经验丰富的用户才能有效搜索。在本文中,我们专注于从水下环境中移动相机拍摄的单次视频,这构成了研究目的的非平凡挑战。提出了新的海洋视频套件数据集的第一个碎片,用于用于视频检索和其他计算机视觉挑战。除了基本的元数据统计数据外,我们还基于低级特征以及所选密钥帧的语义注释提供了几个见解和参考图。该分析还包含实验,显示了检索受人尊敬的通用模型的局限性。
translated by 谷歌翻译
在本文中,创建了具有定制设计的执行器空间弦编码器的增强软机器人原型,以研究动态软机器人轨迹跟踪。软机器人原型嵌入了所提出的自适应被动性控制和有效的动态模型,使具有挑战性的轨迹跟踪任务成为可能。我们通过在不同的操作场景上执行实验验证:各种跟踪速度和外部干扰来探索跟踪准确性以及提出的控制策略的全部潜力。在所有实验场景中,提出的自适应被动控制都优于常规PD反馈线性化控制。实验分析详细介绍了所提出的方法的优势和缺点,并指出了未来软机器人动态控制的下一步。
translated by 谷歌翻译
现有检测方法通常使用参数化边界框(Bbox)进行建模和检测(水平)对象,并将其他旋转角参数用于旋转对象。我们认为,这种机制在建立有效的旋转检测回归损失方面具有根本的局限性,尤其是对于高精度检测而言,高精度检测(例如0.75)。取而代之的是,我们建议将旋转的对象建模为高斯分布。一个直接的优势是,我们关于两个高斯人之间距离的新回归损失,例如kullback-leibler Divergence(KLD)可以很好地对齐实际检测性能度量标准,这在现有方法中无法很好地解决。此外,两个瓶颈,即边界不连续性和正方形的问题也消失了。我们还提出了一种有效的基于高斯度量的标签分配策略,以进一步提高性能。有趣的是,通过在基于高斯的KLD损失下分析Bbox参数的梯度,我们表明这些参数通过可解释的物理意义进行了动态更新,这有助于解释我们方法的有效性,尤其是对于高精度检测。我们使用量身定制的算法设计将方法从2-D扩展到3-D,以处理标题估计,并在十二个公共数据集(2-D/3-D,空中/文本/脸部图像)上进行了各种基本检测器的实验结果。展示其优越性。
translated by 谷歌翻译
本文开发了一个深图运算符网络(DeepGraphonet)框架,该框架学会了近似具有基础子图形结构的复杂系统(例如电网或流量)的动力学。我们通过融合(i)图形神经网络(GNN)来利用空间相关的图形信息和(ii)深操作符网络〜(deeponet)近似动态系统的解决方案操作员的能力来构建深图载体。然后,所得的深图载体可以通过观察图形状态信息的有限历史来预测给定的短/中期时间范围内的动力学。此外,我们将深图载体设计为独立于解决方案。也就是说,我们不需要以精确/相同的分辨率收集有限的历史记录。此外,为了传播训练有素的Deepgraphonet的结果,我们设计了一种零摄像的学习策略,可以在不同的子图上使用它。最后,对(i)瞬态稳定性预测电网和(ii)车辆系统的交通流量预测问题的经验结果说明了拟议的Deepgraphonet的有效性。
translated by 谷歌翻译
我们介绍了第一个基于学习的可重建性预测指标,以改善使用无人机的大规模3D城市场景获取的视图和路径计划。与以前的启发式方法相反,我们的方法学习了一个模型,该模型明确预测了从一组观点重建3D城市场景的能力。为了使这种模型可训练并同时适用于无人机路径计划,我们在培训期间模拟了基于代理的3D场景重建以设置预测。具体而言,我们设计的神经网络经过训练,可以预测场景的重构性,这是代理几何学的函数,一组观点,以及在飞行中获得的一系列场景图像。为了重建一个新的城市场景,我们首先构建了3D场景代理,然后依靠我们网络的预测重建质量和不确定性度量,基于代理几何形状,以指导无人机路径计划。我们证明,与先前的启发式措施相比,我们的数据驱动的可重建性预测与真实的重建质量更加紧密相关。此外,我们学到的预测变量可以轻松地集成到现有的路径计划中,以产生改进。最后,我们根据学习的可重建性设计了一个新的迭代视图计划框架,并在重建合成场景和真实场景时展示新计划者的卓越性能。
translated by 谷歌翻译
联合学习(FL)是一种机器学习范式,允许分散的客户在不共享其私人数据的情况下进行协作学习。但是,过度的计算和沟通要求对当前的FL框架构成挑战,尤其是在训练大型模型时。为了防止这些问题阻碍FL系统的部署,我们提出了一个轻巧的框架,客户共同学习融合由多个固定预训练的模型生成的表示形式,而不是从SCRATCH培训大型模型。这通过考虑如何从预先训练的模型中捕获更多特定于客户的信息,并共同提高每个客户利用这些现成模型的能力,从而导致我们解决了一个更实用的FL问题。在这项工作中,我们设计了一种联合原型对比度学习(FEDPCL)方法,该方法通过其类原型共享客户的知识,并以原型对比度方式构建特定于客户的表示。共享原型而不是可学习的模型参数可以使每个客户以个性化的方式融合表示表示,同时以紧凑的形式保持共享知识以进行有效的通信。我们在轻量级框架中对拟议的FEDPCL进行了彻底的评估,以测量和可视化其在流行的FL数据集上融合各种预训练模型的能力。
translated by 谷歌翻译
尽管将进化计算整合到增强学习中的新进展,但缺乏高性能平台可赋予合成性和大规模的并行性,这对与异步商业游戏相关的研究和应用造成了非平凡的困难。在这里,我们介绍了Lamarckian-一个开源平台,其支持进化增强学习可扩展到分布式计算资源的支持。为了提高训练速度和数据效率,拉马克人采用了优化的通信方法和异步进化增强学习工作流程。为了满足商业游戏和各种方法对异步界面的需求,Lamarckian量身定制了异步的马尔可夫决策过程界面,并设计了带有脱钩模块的面向对象的软件体系结构。与最先进的RLLIB相比,我们从经验上证明了Lamarckian在基准测试中具有多达6000 CPU核心的独特优势:i)i)在Google足球游戏上运行PPO时,采样效率和训练速度都翻了一番; ii)在乒乓球比赛中运行PBT+PPO时,训练速度的速度快13倍。此外,我们还提出了两种用例:i)如何将拉马克安应用于生成行为多样性游戏AI; ii)Lamarckian如何应用于游戏平衡测试的异步商业游戏。
translated by 谷歌翻译
深度学习模型已在大规模视频基准测试上取得了出色的识别结果。但是,当应用于稀有场景或物体的视频时,它们的性能很差,这主要是由于现有视频数据集的偏见。我们从两个不同的角度解决了这个问题:算法和数据集。从算法的角度来看,我们提出了空间感知的多种偏见(SMAD),它既将明确的偏见都与多种相对的对抗性训练和隐含的偏见以及与空间行动重新重量的模块相结合,从行动方面。为了消除内在的数据集偏差,我们建议OmnideBias有选择地利用Web数据进行联合培训,这可以通过更少的Web数据实现更高的性能。为了验证有效性,我们建立评估协议并对现有数据集的重新分配分配和新的评估数据集进行广泛的实验,该数据集的重点是稀有场景。我们还表明,当转移到其他数据集和任务时,辩护形式可以更好地概括。
translated by 谷歌翻译