智能论文笔记

MORTY: Structured Summarization for Targeted Information Extraction from Scholarly Articles

Mohamad Yaser Jaradeh , Markus Stocker , Sören Auer

分类：自然语言处理

2022-12-11

Information extraction from scholarly articles is a challenging task due to the sizable document length and implicit information hidden in text, figures, and citations. Scholarly information extraction has various applications in exploration, archival, and curation services for digital libraries and knowledge management systems. We present MORTY, an information extraction technique that creates structured summaries of text from scholarly articles. Our approach condenses the article's full-text to property-value pairs as a segmented text snippet called structured summary. We also present a sizable scholarly dataset combining structured summaries retrieved from a scholarly knowledge graph and corresponding publicly available scientific articles, which we openly publish as a resource for the research community. Our results show that structured summarization is a suitable approach for targeted information extraction that complements other commonly used methods such as question answering and named entity recognition.

translated by 谷歌翻译

Discovering ordinary differential equations that govern time-series

Sören Becker , Michal Klein , Alexander Neitz , Giambattista Parascandolo , Niki Kilbertus

分类：机器学习

2022-11-05

Natural laws are often described through differential equations yet finding a differential equation that describes the governing law underlying observed data is a challenging and still mostly manual task. In this paper we make a step towards the automation of this process: we propose a transformer-based sequence-to-sequence model that recovers scalar autonomous ordinary differential equations (ODEs) in symbolic form from time-series data of a single observed solution of the ODE. Our method is efficiently scalable: after one-time pretraining on a large set of ODEs, we can infer the governing laws of a new observed solution in a few forward passes of the model. Then we show that our model performs better or on par with existing methods in various test cases in terms of accurate symbolic recovery of the ODE, especially for more complex expressions.

translated by 谷歌翻译

Gesture2Path: Imitation Learning for Gesture-aware Navigation

Catie Cuan , Edward Lee , Emre Fisher , Anthony Francis , Leila Takayama , Tingnan Zhang , Alexander Toshev , Sören Pirk

分类：机器人 | 计算机视觉

2022-09-19

随着机器人越来越多地进入以人为本的环境，他们不仅必须能够在人类周围安全地浏览，还必须遵守复杂的社会规范。人类通常在围绕他人围绕他人（尤其是在密集占据的空间中）时，通常通过手势和面部表情依靠非语言交流。因此，机器人还需要能够将手势解释为解决社会导航任务的一部分。为此，我们提出了一种新型的社会导航方法，将基于图像的模仿学习与模型预测性控制结合在一起。手势是基于在图像流中运行的神经网络来解释的，而我们使用最先进的模型预测控制算法来求解点对点导航任务。我们将方法部署在真实的机器人上，并展示我们的方法对四个手势游动场景的有效性：左/右，跟随我，然后圈出一个圆圈。我们的实验表明，我们的方法能够成功地解释复杂的人类手势，并将其用作信号，以生成具有社会符合性的导航任务的轨迹。我们基于与机器人相互作用的参与者的原位等级验证了我们的方法。

translated by 谷歌翻译

SELTO: Sample-Efficient Learned Topology Optimization

Sören Dittmer , David Erzmann , Henrik Harms , Peter Maass

分类：机器学习 | 计算机视觉

2022-09-12

我们提出了一种拓扑优化的样品深度学习策略。我们的端到端方法受到监督，包括基于物理学的预处理和模棱两可的网络。我们分析了深度学习管道的不同组成部分如何通过大规模比较影响所需的培训样品的数量。结果表明，包括物理概念不仅会极大地提高样本效率，还可以提高预测的身体正确性。最后，我们发布了两个拓扑优化数据集，其中包含问题和相应的地面真相解决方案。我们相信这些数据集将提高该领域的可比性和未来进度。

translated by 谷歌翻译

Classification of datasets with imputed missing values: does imputation quality matter?

Tolou Shadbahr , Michael Roberts , Jan Stanczuk , Julian Gilbey , Philip Teare , Sören Dittmer , Matthew Thorpe , Ramon Vinas Torne , Evis Sala , Pietro Lio

分类：机器学习

2022-06-16

在不完整的数据集中对样本进行分类是机器学习从业人员的普遍目的，但并非平凡。在大多数现实世界数据集中发现缺失的数据，这些缺失值通常是使用已建立的方法估算的，然后进行分类现在完成，估算的样本。然后，机器学习研究人员的重点是优化下游分类性能。在这项研究中，我们强调必须考虑插补的质量。我们展示了如何评估质量的常用措施有缺陷，并提出了一类新的差异评分，这些分数着重于该方法重新创建数据的整体分布的程度。总而言之，我们强调了使用不良数据训练的分类器模型的可解释性损害。

translated by 谷歌翻译

Prioritized Training on Points that are Learnable, Worth Learning, and Not Yet Learnt

Sören Mindermann , Jan Brauner , Muhammed Razzak , Mrinank Sharma , Andreas Kirsch , Winnie Xu , Benedikt Höltgen , Aidan N. Gomez , Adrien Morisot , Sebastian Farquhar

分类：机器学习

2022-06-14

对网络规模数据进行培训可能需要几个月的时间。但是，在已经学习或不可学习的冗余和嘈杂点上浪费了很多计算和时间。为了加速训练，我们引入了可减少的持有损失选择（Rho-loss），这是一种简单但原则上的技术，它大致选择了这些训练点，最大程度地减少了模型的概括损失。结果，Rho-loss减轻了现有数据选择方法的弱点：优化文献中的技术通常选择“硬损失”（例如，高损失），但是这种点通常是嘈杂的（不可学习）或更少的任务与任务相关。相反，课程学习优先考虑“简单”的积分，但是一旦学习，就不必对这些要点进行培训。相比之下，Rho-Loss选择了可以学习的点，值得学习的，尚未学习。与先前的艺术相比，Rho-loss火车的步骤要少得多，可以提高准确性，并加快对广泛的数据集，超参数和体系结构（MLP，CNNS和BERT）的培训。在大型Web绑带图像数据集服装1M上，与统一的数据改组相比，步骤少18倍，最终精度的速度少2％。

translated by 谷歌翻译

Unsupervised Learning of the Total Variation Flow

Tamara G. Grossmann , Sören Dittmer , Yury Korolev , Carola-Bibiane Schönlieb

分类：计算机视觉 | 机器学习

2022-06-09

总变化（TV）流产生了基于电视功能的图像的比例空间表示。该梯度流观察到图像的理想特征，例如锋利的边缘和启用光谱，比例和纹理分析。电视流的标准数值方法需要解决多个非平滑优化问题。即使采用最先进的凸优化技术，这通常也很昂贵，并且强烈激励使用替代，更快的方法。受到物理信息神经网络（PINN）的框架的启发，我们提出了TVFlownet，这是一种神经网络方法，以计算给定初始图像和时间实例的电视流的解决方案。我们大大将计算时间加快了一个以上的数量级，并表明TVFlownet具有高保真度近似电视流解决方案。这是一份初步报告，将有更多详细信息。

translated by 谷歌翻译

Easy Semantification of Bioassays

Marco Anteghini , Jennifer D'Souza , Vitor A. P. Martins dos Santos , Sören Auer

分类：人工智能 | 自然语言处理 | 机器学习

2021-11-30

生物数据和知识库越来越依赖语义Web技术以及使用知识图表进行数据集成，检索和联合查询。我们提出了一种用于自动学习生物测定的解决方案。我们的解决方案使自动化学的问题与分类与聚类并置，其中两种方法在方法复杂度频谱的相对端。在特征上建模我们的问题，我们发现聚类解决方案显着优于最先进的神经网络的最先进的分类方法。这种新颖的贡献基于两个因素：1）在数据优于具有复杂语义建模的替代方法之后密切建模的学习目标;2）自动学习生物测定达到近83％的高性能F1，这对我们的知识是首次报告的任务标准化评估提供了强大的基准模型。

translated by 谷歌翻译

Triple Classification for Scholarly Knowledge Graph Completion

Mohamad Yaser Jaradeh , Kuldeep Singh , Markus Stocker , Sören Auer

分类：自然语言处理

2021-11-23

学术知识图（KGS）提供了代表科学出版物编码的知识的丰富的结构化信息来源。随着出版的科学文学的庞大，包括描述科学概念的过多的非均匀实体和关系，这些公斤本质上是不完整的。我们呈现Exbert，一种利用预先训练的变压器语言模型来执行学术知识图形完成的方法。我们将知识图形的三元组模型为文本并执行三重分类（即，属于KG或不属于KG）。评估表明，在三重分类，链路预测和关系预测的任务中，Exbert在三个学术kg完成数据集中表现出其他基线。此外，我们将两个学术数据集作为研究界的资源，从公共公共公报和在线资源中收集。

translated by 谷歌翻译

Hierarchical Topometric Representation of 3D Robotic Maps

ZhenpengHe , HaoSun , JiaweiHou , YajunHa , Sören Schwertfeger

分类：机器人

2021-11-16

在本文中，我们提出了一种从3D点云生成分层的体积拓扑图的方法。我们的地图中有三个基本的分层级别：$ Storey - Region - 卷$。我们的方法的优点在输入和输出中反映。在输入方面，我们接受多层点云和建筑结构，倾斜的屋顶或天花板。在输出方面，我们可以使用不同维度的度量信息来生成结果，适用于不同的机器人应用。算法通过从3D Voxel占用映射生成$卷$来生成体积表示。然后，我们加入$段落$ s（$卷$之间的连接），将小$卷$组合成一个大多数$地区$，并使用2D分段方法进行更好的拓扑表示。我们在几个可自由的数据集中评估我们的方法。实验突出了我们的方法的优势。

translated by 谷歌翻译