我们在本文中重新审视语义场景(SSC),是预测3D场景的语义和占用表示的有用任务。此任务的许多方法始终基于用于保存本地场景结构的体蛋白化场景表示。然而,由于存在可见空体素,当网络更深时,这些方法总是遭受重型计算冗余,从而限制完成质量。为了解决这种困境,我们提出了我们为此任务的新型点体素聚集网络。首先,我们通过去除这些可见的空体素来将Voxized场景传输到点云,并采用深点流,以有效地从场景中捕获语义信息。同时,仅包含两个3D卷积层的轻重体素流保留了体蛋白化场景的局部结构。此外,我们设计一个各向异性体素聚合运算符,将结构细节从体素流融合到点流中,并通过语义标签来增强点流中的上采样过程的语义感知传播模块。我们展示了我们的模型在两个基准上超越了最先进的余量,只有深度图像作为输入。
translated by 谷歌翻译
Vision-Language(V + L)预先润廓模型通过了解图像和文本之间的对齐来支持多媒体应用程序取得了巨大成功。虽然现有的视觉预押模型主要专注于了解文本中的图像或实体中的对象,但它们通常会忽略事件级别的对齐及其参数结构。 %在这项工作中,我们提出了一种对比的学习框架来强制执行愿景 - 语言预押模型来理解事件和相关参数(参与者)角色。为此,我们利用文本信息提取技术来获得事件结构知识,并利用多个提示函数来通过操纵事件结构来对比难度的负面描述。我们还基于最佳传输来设计事件图对齐损耗以捕获事件参数结构。此外,我们收集了一个大型活动的数据集(106,875张图片),用于预磨平,这提供了更具挑战性的图像检索基准,以评估对复杂冗长的句子的理解。实验表明,我们的零射剪辑事件优于在多媒体事件提取中的参数提取中的最先进的监督模型,从而实现了事件提取中的5±绝对f得分增益,以及显着改进零拍摄设置下的各种下游任务。
translated by 谷歌翻译
文档级关系提取(DRE)旨在识别两个实体之间的关系。实体可以对应于超越句子边界的多个提升。以前很少有研究已经调查了提及集成,这可能是有问题的,因为库鲁弗提到对特定关系没有同样有贡献。此外,事先努力主要关注实体级的推理,而不是捕获实体对之间的全局相互作用。在本文中,我们提出了两种新颖的技术,上下文指导的集成和交互推理(CGM2IR),以改善DRE。而不是简单地应用平均池,而是利用上下文来指导在加权和方式中的经验提升的集成。另外,对实体对图的相互作用推理在实体对图上执行迭代算法,以模拟关系的相互依赖性。我们在三个广泛使用的基准数据集中评估我们的CGM2IR模型,即Docred,CDR和GDA。实验结果表明,我们的模型优于以前的最先进的模型。
translated by 谷歌翻译
从Chaser Spacecraft发射的系绳网提供了有希望的方法,可以在轨道中捕获和处理大型空间碎片。该系绳网络系统受到影响和致动的几种不确定性来源,影响其净爆发和关闭控制的性能。然而,设计控制动作的早期可靠性的优化方法仍然具有挑战性,并计算到相对于追逐者相对于追逐者的不同发射方案和目标(碎片)状态概括。为了搜索一般和可靠的控制策略,本文介绍了一种加强学习框架,它集成了具有净动力学模拟的近端策略优化(PPO2)方法。后者允许评估基于网络的目标捕获的剧集,并估算捕获质量索引,作为PPO2的奖励反馈。在这里,在任何给定的发射方案下,学习的策略旨在根据移动网和目标的状态来模拟网络结束动作的定时。考虑了随机状态转换模型,以便在国家估算和发射致动中纳入合成不确定性。随着培训期间的显着奖励改进,训练有素的策略表明捕获性能(在广泛的发射/目标场景范围内),接近基于可靠性的优化在各个方案上运行。
translated by 谷歌翻译
移动屏幕的布局是UI设计研究和对屏幕的语义理解的关键数据源。但是,现有数据集中的UI布局通常是嘈杂的,具有与其视觉表示的不匹配,或者由难以分析和模型的通用或应用特定类型组成。在本文中,我们提出了使用深度学习方法的粘土管道,用于去噪UI布局,允许我们在比例下自动改进现有的移动UI布局数据集。我们的管道采用屏幕截图和原始UI布局,通过删除不正确的节点并向每个节点分配语义有意义的类型来注释原始布局。为了实验我们的数据清洁管道,我们根据来自Rico的截图和原始布局,创建59,555个人注释的屏幕布局的粘土数据集,该网站上是一个公共移动UI语料库。我们的深度模型可实现高精度,F1分数为82.7%,用于检测没有有效的视觉表示的布局对象,85.9%用于识别对象类型,这显着优于启发式基线。我们的工作为创建大规模高质量的UI布局数据集提供了用于数据驱动的移动UI研究的基础,并减少了手动标签的需要,这些努力非常昂贵。
translated by 谷歌翻译
股票运动预测(SMP)旨在预测上市公司的股份量股份,由于金融市场的挥发性,这是一个具有挑战性的任务。最近的财务研究表明,动量溢出效应在股票波动中发挥着重要作用。然而,以前的研究通常只学习相关公司之间的简单连接信息,这不可避免地未能模仿真实金融市场中上市公司的复杂关系。为了解决这个问题,我们首先建立一个更全面的市场知识图(MKG),其中包含有限的公司,包括上市公司及其相关的高管,以及包括明确关系和隐性关系的混合关系。之后,我们提出了一种新颖的双重关注网络,以了解基于构造的MKG用于库存预测的势头溢出信号。对九个SOTA基线构建数据集的实证实验表明,所提出的丹林公司能够改善与构造的MKG的库存预测。
translated by 谷歌翻译
多模式情绪分析(MSA)是一种基本复杂的研究问题,因为不同方式与人类情绪表达的模糊性之间的异质性差距。虽然已经成功地建造了MSA的多模式表示,但仍有两个挑战需要解决:1)需要构建更强大的多模式表示来弥合异质性间隙并应对复杂的多模式相互作用和2)必须在整个信息流中有效地建模上下文动态。在这项工作中,我们提出了一种基于相互信息最大化和最小化和身份嵌入(MMMIE)的多模式表示模型。我们将模态对之间的相互信息最大化以及输入数据和相应功能之间的相互信息最小化,以挖掘模态不变和任务相关信息。此外,提出了身份嵌入,以提示下游网络来感知语境信息。两个公共数据集的实验结果证明了所提出的模型的有效性。
translated by 谷歌翻译
跨模型检索(CMR)是多式化计算和信息检索的重要研究主题,它将一种类型的数据作为查询来检索另一种类型的相关数据,并且已广泛用于许多现实世界应用程序。最近,由剪辑代表的视觉语言预训练模型表明了其在各种视觉和语言相关任务方面学习视觉和文本表示的优势及其令人印象深刻的性能。虽然剪辑以及以前的预训练模型表现出令人遗憾的CMR性能改善,但由于缺乏多式联级关联,很少探索这些预测模型对监督CMR的训练模型的性能和影响。在本文中,我们将剪辑作为当前代表性的视觉 - 语言预训练模型,进行全面的实证研究,并提供对其性能和对监督CMR的影响的见解。为此,我们首先提出了一种新颖的模型剪辑4cmr(\ textBF {Clip for}监督\ textbf {c} ross- \ textbf {m} odal \ textbf {r} etrieval),该剪辑作为骨干网络来执行监督CMR。然后,我们在CMR中重新审视现有的损失函数设计,包括最常见的一对损失,类明智的损失和混合动力车,并提供对应用夹子的见解。此外,我们调查了监督CMR中的几个有关问题,并通过CLIP4CMR为该领域提供了新的视角,包括对模态不平衡的鲁棒性和对超参数的敏感性。广泛的实验结果表明,CLIP4CMR实现了SOTA的结果,在基准数据集维基百科,Nus-rive,Pascal句子和XMediaet上有重大改进。我们的数据和代码在https://github.com/zhixiongz/clip4cmr上公开提供。
translated by 谷歌翻译
尽管近期长尾对象检测成功,但几乎所有长尾对象探测器都是基于两级范式开发的。在实践中,一阶段探测器在行业中更为普遍,因为它们具有简单而快速的管道,易于部署。然而,在长尾情景中,到目前为止,这项工作尚未探讨。在本文中,我们调查了在这种情况下是否可以良好的单级探测器表现良好。我们发现预防一步检测器实现优异性能的主要障碍是:在长尾数据分布下,类别遭受不同程度的正负不平衡问题。传统的焦点损失与所有类别的调制因子相同的调节因子平衡,因此未能处理长尾问题。为了解决这个问题,我们提出了根据其不平衡程度独立地重新平衡不同类别的正面和负样本的损失贡献的均等的联络损失(EFL)。具体而言,EFL采用类别相关调制因子,可以通过不同类别的培训状态来动态调整。对挑战性的LVIS V1基准进行的广泛实验表明了我们提出的方法的有效性。通过端到端培训管道,EF​​L在整体AP方面实现了29.2%,并对稀有类别进行了显着的性能改进,超越了所有现有的最先进的方法。代码可在https://github.com/modeltc/eod上获得。
translated by 谷歌翻译
我们提出了一种新的方法来获取来自在线图像集合的对象表示,从具有不同摄像机,照明和背景的照片捕获任意物体的高质量几何形状和材料属性。这使得各种以各种对象渲染应用诸如新颖的综合,致密和协调的背景组合物,从疯狂的内部输入。使用多级方法延伸神经辐射场,首先推断表面几何形状并优化粗估计的初始相机参数,同时利用粗糙的前景对象掩模来提高训练效率和几何质量。我们还介绍了一种强大的正常估计技术,其消除了几何噪声的效果,同时保持了重要细节。最后,我们提取表面材料特性和环境照明,以球形谐波表示,具有处理瞬态元素的延伸部,例如,锋利的阴影。这些组件的结合导致高度模块化和有效的对象采集框架。广泛的评估和比较证明了我们在捕获高质量的几何形状和外观特性方面的方法,可用于渲染应用。
translated by 谷歌翻译