智能论文笔记

A distributed, plug-n-play algorithm for multi-robot applications with a priori non-computable objective functions

Athanasios Ch. Kapoutsis , Savvas A. Chatzichristofis , Elias B. Kosmatopoulos

分类：机器人 | 人工智能

2021-11-14

本文介绍了适用于各种实用多机器人应用的分布式算法。在这种多机器人应用中，使命的用户定义目标可以作为一般优化问题投射，而无需每个不同机器人的子任务的明确指南。由于环境未知，未知的机器人动态，传感器非线性等，优化成本函数的分析形式不可用。因此，标准梯度 - 下降样算法不适用于这些问题。为了解决这个问题，我们介绍了一种新的算法，仔细设计每个机器人的子变速功能，优化可以实现整个团队目标。在该转换时，我们提出了一种基于基于认知的自适应优化（CAO）算法的分布式方法，其能够近似每个机器人成本函数的演变并充分优化其决策变量（机器人动作）。后者可以通过在线学习来实现影响特派团目标的特定特定特征。总体而言，低复杂性算法可以简单地结合任何类型的操作约束，是容错的，并且可以适当地解决时变的成本函数。这种方法的基石是它与块坐标血管下降算法相同的收敛特征。该算法在多种方案下的三个异构模拟设置中评估，针对通用和特定于问题的算法。源代码可在\ url {https://github.com/athakapo/a-distributed-plug-lobot-applications}中获得。

translated by 谷歌翻译

MarsExplorer: Exploration of Unknown Terrains via Deep Reinforcement Learning and Procedurally Generated Environments

Dimitrios I. Koutras , Athanasios Ch. Kapoutsis , Angelos A. Amanatiadis , Elias B. Kosmatopoulos

分类：机器人 | 人工智能 | 机器学习

2021-07-21

本文是弥合强大的深度加强学习方法与未知地形的探索/覆盖问题之间的差距初步努力。在此范围内，展示了探索/覆盖未知区域的Openai-Mym兼容环境。 MarseXplorer将原始机器人问题转化为强化学习设置，即各种现成的算法可以解决。任何学习的政策都可以直接应用于机器人平台，而无需制定机器人动态的模拟模型以应用不同的学习/适应阶段。其中一个核心功能是可控的多维程序生成地形，这是生产具有强大泛化能力的政策的关键。在Marsexplorer环境中培训了四种不同的最先进的RL算法（A3C，PPO，彩虹和囊状），并报告了与平均人级业绩相比其结果的适当评估。在后续实验分析中，分析了多维难度设定对最佳性能算法（PPO）的学习能力的影响。里程碑结果是在没有向环境或直接或间接的曲线曲线的环境中遵循偏离探索政策的生成，而不向环境提供这些信息或奖励。通过基于前沿的探索策略，通过评估PPO学习的政策算法来结束实验分析。对性能曲线的研究表明，基于PPO的政策能够在不留下昂贵的重新审视区域的情况下表现适应性对未知的地形，基于RL的方法的能力，以有效地解决探索任务。源代码可以在：https://github.com/dimikout3/marsexplorer找到。

translated by 谷歌翻译

Sample-Efficient Unsupervised Domain Adaptation of Speech Recognition Systems A case study for Modern Greek

Georgios Paraskevopoulos , Theodoros Kouzelis , Georgios Rouvalis , Athanasios Katsamanis , Vassilis Katsouros , Alexandros Potamianos

分类：自然语言处理

2022-12-31

Modern speech recognition systems exhibits rapid performance degradation under domain shift. This issue is especially prevalent in data-scarce settings, such as low-resource languages, where diversity of training data is limited. In this work we propose M2DS2, a simple and sample-efficient finetuning strategy for large pretrained speech models, based on mixed source and target domain self-supervision. We find that including source domain self-supervision stabilizes training and avoids mode collapse of the latent representations. For evaluation, we collect HParl, a $120$ hour speech corpus for Greek, consisting of plenary sessions in the Greek Parliament. We merge HParl with two popular Greek corpora to create GREC-MD, a test-bed for multi-domain evaluation of Greek ASR systems. In our experiments we find that, while other Unsupervised Domain Adaptation baselines fail in this resource-constrained environment, M2DS2 yields significant improvements for cross-domain adaptation, even when a only a few hours of in-domain audio are available. When we relax the problem in a weakly supervised setting, we find that independent adaptation for audio using M2DS2 and language using simple LM augmentation techniques is particularly effective, yielding word error rates comparable to the fully supervised baselines.

translated by 谷歌翻译

Adnexal Mass Segmentation with Ultrasound Data Synthesis

Clara Lebbos , Jen Barcroft , Jeremy Tan , Johanna P. Muller , Matthew Baugh , Athanasios Vlontzos , Srdjan Saso , Bernhard Kainz

分类：计算机视觉 | 机器学习

2022-09-25

卵巢癌是最致命的妇科恶性肿瘤。该疾病在早期阶段最常是无症状的，其诊断依赖于经阴道超声图像的专家评估。超声是表征附加质量的一线成像方式，它需要大量的专业知识，其分析是主观的和劳动的，因此易于误差。因此，在临床实践中需要进行自动化的过程，以促进和标准化扫描评估。使用监督的学习，我们证明了附加质量的分割是可能的，但是，患病率和标签不平衡限制了代表性不足的类别的性能。为了减轻这种情况，我们应用了一种新颖的病理学数据合成器。我们通过使用Poisson图像编辑将较少常见的质量整合到其他样品中，从而创建及其相应的地面真实分割的合成医学图像。我们的方法在所有班级中都取得了最佳性能，包括与NNU-NET基线方法相比，提高了多达8％。

translated by 谷歌翻译

nnOOD: A Framework for Benchmarking Self-supervised Anomaly Localisation Methods

Matthew Baugh , Jeremy Tan , Athanasios Vlontzos , Johanna P. Müller , Bernhard Kainz

分类：计算机视觉

2022-09-02

医学成像中各种各样的分布和分布数据使通用异常检测成为一项艰巨的任务。最近，已经开发了许多自我监督的方法，这些方法是对健康数据的端到端模型，并具有合成异常的增强。但是，很难比较这些方法，因为尚不清楚绩效的收益是从任务本身还是围绕其培训管道来进行的。也很难评估一项任务是否可以很好地通用通用异常检测，因为它们通常仅在有限的异常范围内进行测试。为了协助这一点，我们开发了NOOD，该框架适应NNU-NET，以比较自我监督的异常定位方法。通过将综合，自我监督的任务隔离在其余培训过程中，我们对任务进行了更忠实的比较，同时还可以快速简便地评估给定数据集的工作流程。使用此功能，我们实施了当前的最新任务，并在具有挑战性的X射线数据集上对其进行了评估。

translated by 谷歌翻译

HTML版本

Cross-Lingual Knowledge Transfer for Clinical Phenotyping

Jens-Michalis Papaioannou , Paul Grundmann , Betty van Aken , Athanasios Samaras , Ilias Kyparissidis , George Giannakoulas , Felix Gers , Alexander Löser

分类：自然语言处理

2022-08-03

临床表型可以从患者记录中自动提取临床状况，这可能对全球医生和诊所有益。但是，当前的最新模型主要适用于用英语编写的临床笔记。因此，我们研究了跨语化知识转移策略，以针对不使用英语并且有少量可用数据的诊所执行此任务。我们评估了希腊和西班牙诊所的这些策略，利用来自心脏病学，肿瘤学和ICU等不同临床领域的临床笔记。我们的结果揭示了两种策略，这些策略优于最先进的方法：基于翻译的方法，结合了域的编码器和跨语性编码器以及适配器。我们发现，这些策略在对稀有表型进行分类方面表现特别好，我们建议在哪种情况下更喜欢哪种方法。我们的结果表明，使用多语言数据总体可以改善临床表型模型，并可以补偿数据稀疏性。

translated by 谷歌翻译

Visual Speech-Aware Perceptual 3D Facial Expression Reconstruction from Videos

Panagiotis P. Filntisis , George Retsinas , Foivos Paraperas-Papantoniou , Athanasios Katsamanis , Anastasios Roussos , Petros Maragos

分类：计算机视觉

2022-07-22

由于深度学习的出现，图像数据的最新技术对单眼3D面对重建的重建取得了令人印象深刻的进步。但是，它主要集中于来自单个RGB图像的输入，忽略以下重要因素：a）如今，感兴趣的绝大多数面部图像数据不是来自单个图像，而是来自包含丰富动态信息的视频。。 b）此外，这些视频通常以某种形式的口头交流捕捉个人（公众对话，电视会议，视听人类计算机的互动，访谈，电影中的独白/对话等）。当在此类视频中应用现有的3D面部重建方法时，重建口腔区域的形状和运动中的伪影通常很严重，因为它们与语音音频不太匹配。为了克服上述局限性，我们提出了3D口表达的视觉语音感知重建的第一种方法。我们通过提出“口语”损失来做到这一点，该损失指导拟合过程，从而使3D重建的说话头的感知与原始录像相似。我们证明，有趣的是，与传统的具有里程碑意义的损失，甚至直接3D监督相比，口头损失更适合3D重建嘴运动。此外，设计的方法不依赖于任何文本转录或相应的音频，因此非常适合在未标记的数据集中培训。我们通过对三个大规模数据集的详尽客观评估以及通过两种基于网络的用户研究进行主观评估来验证方法的效率。

translated by 谷歌翻译

Automatic inspection of cultural monuments using deep and tensor-based learning on hyperspectral imagery

Ioannis N. Tzortzis , Ioannis Rallis , Konstantinos Makantasis , Anastasios Doulamis , Nikolaos Doulamis , Athanasios Voulodimos

分类：计算机视觉 | 机器学习

2022-07-05

在文化遗产中，高光谱图像通常使用，因为它们提供了有关材料光学特性的扩展信息。因此，从要应用的机器学习技术的角度来看，这种高维数据的处理变得具有挑战性。在本文中，我们提出了一种基于排名的基于张量的学习模型，以识别和对文化遗产纪念碑的物质缺陷进行分类。与常规的深度学习方法相反，拟议的高阶基于张量的学习表明，具有更高的准确性和鲁棒性，以防止过度拟合。来自联合国教科文组织保护区的现实世界数据的实验结果表明，与常规深度学习模型相比，该计划的优越性。

translated by 谷歌翻译

Towards trustworthy Energy Disaggregation: A review of challenges, methods and perspectives for Non-Intrusive Load Monitoring

Maria Kaselimi , Eftychios Protopapadakis , Athanasios Voulodimos , Nikolaos Doulamis , Anastasios Doulamis

分类：机器学习 | 人工智能

2022-07-05

非侵入性负载监控（NILM）是将总功率消耗分为单个子组件的任务。多年来，已经合并了信号处理和机器学习算法以实现这一目标。关于最先进的方法，进行了许多出版物和广泛的研究工作，以涉及最先进的方法。科学界最初使用机器学习工具的尼尔姆问题制定和描述的最初兴趣已经转变为更实用的尼尔姆。如今，我们正处于成熟的尼尔姆时期，在现实生活中的应用程序方案中尝试使用尼尔姆。因此，算法的复杂性，可转移性，可靠性，实用性和普遍的信任度是主要的关注问题。这篇评论缩小了早期未成熟的尼尔姆时代与成熟的差距。特别是，本文仅对住宅电器的尼尔姆方法提供了全面的文献综述。本文分析，总结并介绍了大量最近发表的学术文章的结果。此外，本文讨论了这些方法的亮点，并介绍了研究人员应考虑的研究困境，以应用尼尔姆方法。最后，我们表明需要将传统分类模型转移到一个实用且值得信赖的框架中。

translated by 谷歌翻译

Compute Cost Amortized Transformer for Streaming ASR

Yi Xie , Jonathan Macoskey , Martin Radfar , Feng-Ju Chang , Brian King , Ariya Rastrow , Athanasios Mouchtaris , Grant P. Strimel

分类：自然语言处理

2022-07-05

我们提出了基于流的端到端自动语音识别（ASR）体系结构，该体系结构通过计算成本摊销来实现有效的神经推断。我们的体系结构在推理时间动态创建稀疏的计算途径，从而选择性地使用计算资源在整个解码过程中，从而使计算中的大幅降低，对准确性的影响最小。完全可区分的体系结构是端到端训练的，随附的轻巧仲裁器机制在帧级别运行，以在每个输入上做出动态决策，同时使用可调损耗函数来正规化针对预测性能的整体计算水平。我们使用在LiblisPeech数据上进行的计算摊销变压器变形器（T-T）模型报告了实验的经验结果。我们的最佳模型可以实现60％的计算成本降低，而相对单词错误率仅3％（WER）增加。

translated by 谷歌翻译