由于信息的紧凑而结构化的信息表示,表被广泛用于文档中。特别是,在科学论文中,表可以概括新颖的发现并总结实验结果,从而使研究可以与学者相提并论。由于表的布局高度可变,因此将其内容解释并将其分类为类别是有用的。这可能有助于直接从科学论文中提取信息,例如,鉴于其论文结果表比较某些模型的性能。在这项工作中,我们使用图神经网络解决了表格的分类,从而利用表格传递算法的表结构。我们在TAB2KKEY数据集的子集上评估了模型。由于它包含几乎没有手动注释的示例,因此我们直接在表图结构上提出了数据增强技术。我们获得了有希望的初步结果,提出了一种适用于基于图表的表表示的数据增强方法。
translated by 谷歌翻译
Machine Learning models capable of handling the large datasets collected in the financial world can often become black boxes expensive to run. The quantum computing paradigm suggests new optimization techniques, that combined with classical algorithms, may deliver competitive, faster and more interpretable models. In this work we propose a quantum-enhanced machine learning solution for the prediction of credit rating downgrades, also known as fallen-angels forecasting in the financial risk management field. We implement this solution on a neutral atom Quantum Processing Unit with up to 60 qubits on a real-life dataset. We report competitive performances against the state-of-the-art Random Forest benchmark whilst our model achieves better interpretability and comparable training times. We examine how to improve performance in the near-term validating our ideas with Tensor Networks-based numerical simulations.
translated by 谷歌翻译
In this paper, we introduced the novel concept of advisor network to address the problem of noisy labels in image classification. Deep neural networks (DNN) are prone to performance reduction and overfitting problems on training data with noisy annotations. Weighting loss methods aim to mitigate the influence of noisy labels during the training, completely removing their contribution. This discarding process prevents DNNs from learning wrong associations between images and their correct labels but reduces the amount of data used, especially when most of the samples have noisy labels. Differently, our method weighs the feature extracted directly from the classifier without altering the loss value of each data. The advisor helps to focus only on some part of the information present in mislabeled examples, allowing the classifier to leverage that data as well. We trained it with a meta-learning strategy so that it can adapt throughout the training of the main model. We tested our method on CIFAR10 and CIFAR100 with synthetic noise, and on Clothing1M which contains real-world noise, reporting state-of-the-art results.
translated by 谷歌翻译
我们提出了一种自动方法,以根据从视频中提取的面部标志来估算自我报告的疼痛。对于每个视频序列,我们将面部分解为四个不同的区域,并通过使用这些区域的地标对面部运动的动态进行建模来衡量疼痛强度。基于革兰氏矩阵的公式用于代表固定等级的对称正极半明确矩阵Riemannian歧管上的地标轨迹。曲线拟合算法用于平滑轨迹,并执行时间对齐以计算歧管上的轨迹之间的相似性。然后对支持矢量回归分类器进行训练,以编码与自我报告的疼痛强度测量一致的疼痛强度水平。最后,进行每个区域的估计后期融合以获得最终的预测疼痛水平。提出的方法将在两个公开可用的数据集上进行评估,即UNBCMCMASTER肩部疼痛档案和Biovid热疼痛数据集。我们使用不同的测试协议将我们的方法与两个数据集的最新方法进行了比较,以显示所提出的方法的竞争力。
translated by 谷歌翻译
随着深度学习的最新发展应用于计算机视觉,体育视频的理解引起了很多关注,为体育消费者和联赛提供了更丰富的信息。本文介绍了DeepSportradar-V1,这是一套计算机视觉任务,数据集和基准,以自动化运动。该框架的主要目的是缩小学术研究和现实世界环境之间的差距。为此,数据集提供了高分辨率的原始图像,相机参数和高质量注释。 DeepSportradar目前支持与篮球有关的四项具有挑战性的任务:Ball 3D定位,摄像头校准,播放器实例细分和播放器重新识别。对于四个任务中的每一个,都提供了数据集,目标,性能指标和提议的基线方法的详细说明。为了鼓励对运动理解的先进方法的进一步研究,竞争是在ACM Multimedia 2022会议上的MMSPorts研讨会的一部分组织的,参与者必须开发最先进的方法来解决上述任务。公开可用的四个数据集,开发套件和基线。
translated by 谷歌翻译
在本文中,我们考虑了使用嘈杂的中间量子量子(NISQ)设备的几种用于量子计算机视觉的算法,并将它们基于对其经典对应物的真正问题进行基准测试。具体而言,我们考虑了两种方法:基于通用门的量子计算机上的量子支持向量机(QSVM),以及Qubost在量子退火器上。量子视觉系统是针对图像不平衡数据集进行基准测试的,其目的是检测制成的汽车件中的缺陷。我们看到,量子算法以几种方式优于其经典对应物,QBoost允许使用当今的量子退火器分析更大的问题。还讨论了数据预处理,包括降低维度和对比度增强,以及Qboost中的超参数调整。据我们所知,这是量子计算机视觉系统的首次实施,用于制造生产线中的工业相关性问题。
translated by 谷歌翻译
时尚推荐通常被拒绝,因为它是找到适合给定用户的查询服装或检索服装的互补物品的任务。在这项工作中,我们通过根据提议的敷料的样式添加附加语义层来解决问题。我们根据两个重要方面的样式建模:颜色组合图案背后隐藏的情绪和情感以及给定类型的社交事件所检索的服装的适当性。为了解决前者,我们依靠Shigenobu Kobayashi的颜色图像量表,这将情感模式和情绪与色彩三元组相关联。相反,通过从社交事件的图像中提取服装来分析后者。总体而言,我们集成了最先进的服装建议框架样式分类器和事件分类器,以便在给定的查询上建议建议。
translated by 谷歌翻译
在这项工作中,我们解决了4D面部表情生成的问题。通常,通过对中性3D面动画来达到表达峰,然后回到中立状态来解决这一问题。但是,在现实世界中,人们表现出更复杂的表情,并从一个表达式转换为另一种表达。因此,我们提出了一个新模型,该模型在不同表达式之间产生过渡,并综合了长长的4D表达式。这涉及三个子问题:(i)建模表达式的时间动力学,(ii)它们之间的学习过渡,以及(iii)变形通用网格。我们建议使用一组3D地标的运动编码表达式的时间演变,我们学会通过训练一个具有歧管值的gan(Motion3dgan)来生成。为了允许生成组成的表达式,该模型接受两个编码起始和结尾表达式的标签。网格的最终顺序是由稀疏的2块网格解码器(S2D-DEC)生成的,该解码器将地标位移映射到已知网格拓扑的密集,每位vertex位移。通过明确处理运动轨迹,该模型完全独立于身份。五个公共数据集的广泛实验表明,我们提出的方法在以前的解决方案方面带来了重大改进,同时保留了良好的概括以看不见数据。
translated by 谷歌翻译
在过去的几年中,在文化遗产领域中使用深度学习和计算机视觉在文化遗产领域变得非常相关,其中包括有关音频智能指南,互动博物馆和增强现实的大量应用。所有这些技术都需要大量数据才能有效工作并对用户有用。在艺术品的背景下,专家在昂贵且耗时的过程中注释了此类数据。特别是,对于每件艺术品,必须收集艺术品和描述表的图像,以执行诸如视觉问题回答之类的常见任务。在本文中,我们提出了一种视觉问题回答的方法,该方法允许在运行时生成一个描述表,该表可用于回答有关艺术品的视觉和上下文问题,从而完全避免了图像和注释过程。为此,我们研究了使用GPT-3来生成描述用于艺术品,以分析通过字幕指标分析生成的描述的质量。最后,我们评估了视觉问答答案和字幕任务的性能。
translated by 谷歌翻译
由于难以匹配相邻零件,因此解决难题是一个组合挑战。取而代之的是,我们从所有碎片中推断出一个心理图像,然后可以将其与避免爆炸的组合相匹配。利用生成对抗方法的进步,我们学习如何重建图像给定一组无序的零件,从而使模型可以学习一个关节嵌入空间,以将每个零件的编码与生成器的裁剪层匹配。因此,我们将问题作为R@1检索任务将其构架,然后使用可区分的匈牙利注意力解决线性分配,从而使过程端到端。这样一来,我们的模型是拼图尺寸不可知论,与先前的深度学习方法相反。我们在两个新的大规模数据集上进行了评估,其中我们的模型与深度学习方法相当,同时将其推广到多个拼图大小。
translated by 谷歌翻译