智能论文笔记

Biomedical image analysis competitions: The state of current participation practice

Matthias Eisenmann , Annika Reinke , Vivienn Weru , Minu Dietlinde Tizabi , Fabian Isensee , Tim J. Adler , Patrick Godau , Veronika Cheplygina , Michal Kozubek , Sharib Ali

分类：计算机视觉 | 机器学习

2022-12-16

The number of international benchmarking competitions is steadily increasing in various fields of machine learning (ML) research and practice. So far, however, little is known about the common practice as well as bottlenecks faced by the community in tackling the research questions posed. To shed light on the status quo of algorithm development in the specific field of biomedical imaging analysis, we designed an international survey that was issued to all participants of challenges conducted in conjunction with the IEEE ISBI 2021 and MICCAI 2021 conferences (80 competitions in total). The survey covered participants' expertise and working environments, their chosen strategies, as well as algorithm characteristics. A median of 72% challenge participants took part in the survey. According to our results, knowledge exchange was the primary incentive (70%) for participation, while the reception of prize money played only a minor role (16%). While a median of 80 working hours was spent on method development, a large portion of participants stated that they did not have enough time for method development (32%). 25% perceived the infrastructure to be a bottleneck. Overall, 94% of all solutions were deep learning-based. Of these, 84% were based on standard architectures. 43% of the respondents reported that the data samples (e.g., images) were too large to be processed at once. This was most commonly addressed by patch-based training (69%), downsampling (37%), and solving 3D analysis tasks as a series of 2D tasks. K-fold cross-validation on the training set was performed by only 37% of the participants and only 50% of the participants performed ensembling based on multiple identical models (61%) or heterogeneous models (39%). 48% of the respondents applied postprocessing steps.

translated by 谷歌翻译

MOB-FL: Mobility-Aware Federated Learning for Intelligent Connected Vehicles

Bowen Xie , Yuxuan Sun , Sheng Zhou , Zhisheng Niu , Yang Xu , Jingran Chen , Deniz Gündüz

分类：机器学习

2022-12-07

Federated learning (FL) is a promising approach to enable the future Internet of vehicles consisting of intelligent connected vehicles (ICVs) with powerful sensing, computing and communication capabilities. We consider a base station (BS) coordinating nearby ICVs to train a neural network in a collaborative yet distributed manner, in order to limit data traffic and privacy leakage. However, due to the mobility of vehicles, the connections between the BS and ICVs are short-lived, which affects the resource utilization of ICVs, and thus, the convergence speed of the training process. In this paper, we propose an accelerated FL-ICV framework, by optimizing the duration of each training round and the number of local iterations, for better convergence performance of FL. We propose a mobility-aware optimization algorithm called MOB-FL, which aims at maximizing the resource utilization of ICVs under short-lived wireless connections, so as to increase the convergence speed. Simulation results based on the beam selection and the trajectory prediction tasks verify the effectiveness of the proposed solution.

translated by 谷歌翻译

Shuffle-QUDIO: accelerate distributed VQE with trainability enhancement and measurement reduction

Yang Qian , Yuxuan Du , Dacheng Tao

分类：机器学习

2022-09-26

变分量子本层（VQE）是一种领先的策略，可利用嘈杂的中间量子量子（NISQ）机器来解决化学问题的表现优于经典方法。为了获得大规模问题的计算优势，可行的解决方案是量子分布式优化（QUDIO）方案，该方案将原始问题分配到$ K $子问题中，并将其分配给$ K $量子机器，然后将其分配给并行优化。尽管有可证明的加速度比率，但Qudio的效率可能会因同步操作而大大降低。为了征服这个问题，我们在这里提议在量子分布式优化期间，将洗牌措施涉及到当地的汉密尔顿人。与Qudio相比，Shuffle-Qudio显着降低了量子处理器之间的通信频率，并同时达到了更好的训练性。特别是，我们证明，Shuffle-Qudio可以比Qudio更快地收敛速率。进行了广泛的数值实验，以验证估计分子的基态能量的任务中，隔离式时间速度允许壁式时间速度和低近似误差。我们从经验上证明，我们的建议可以与其他加速技术（例如操作员分组）无缝集成，以进一步提高VQE的疗效。

translated by 谷歌翻译

A Piecewise Monotonic Gait Phase Estimation Model for Controlling a Powered Transfemoral Prosthesis in Various Locomotion Modes

Xinxing Chen , Chuheng Chen , Yuxuan Wang , Bowen Yang , Teng Ma , Yuquan Leng , Chenglong Fu

分类：机器人

2022-07-25

基于步态阶段的控制是步行AID机器人的热门研究主题，尤其是机器人下限假体。步态阶段估计是基于步态阶段控制的挑战。先前的研究使用了人类大腿角的整合或差异来估计步态阶段，但是累积的测量误差和噪声可能会影响估计结果。在本文中，提出了一种更健壮的步态相估计方法，使用各种运动模式的分段单调步态相位大角模型的统一形式。步态相仅根据大腿角度估算，这是一个稳定的变量，避免了相位漂移。基于卡尔曼滤波器的平滑液旨在进一步抑制估计步态阶段的突变。基于提出的步态相估计方法，基于步态阶段的关节角跟踪控制器是为跨股骨假体设计的。提出的步态估计方法，步态相和控制器通过在各种运动模式下的步行数据进行离线分析来评估。基于步态阶段的控制器的实时性能在经际假体的实验中得到了验证。

translated by 谷歌翻译

Seeking Subjectivity in Visual Emotion Distribution Learning

Jingyuan Yang , Jie Li , Leida Li , Xiumei Wang , Yuxuan Ding , Xinbo Gao

分类：计算机视觉 | 人工智能

2022-07-25

旨在预测人们对不同视觉刺激的情绪的视觉情感分析（VEA）最近已成为一个有吸引力的研究主题。而不是单个标签分类任务，而是通过向不同个人投票将VEA视为标签分布学习（LDL）问题是更合理的。现有方法通常可以预测统一网络中的视觉情绪分布，从而忽略了人群投票过程中的固有主观性。在心理学中，\ textit {object-appraiSal-emotion}模型表明，每个人的情绪都受到主观评估的影响，这是由情感记忆进一步形成的。受此启发，我们提出了一个新颖的\ textit {主观性评估和匹配网络（SAMNET）}，以研究视觉情感分布中的主观性。为了描述人群投票过程中的多样性，我们首先提出了\ textit {主观性评估}，其中每个分支都模拟了特定个人的情感唤起过程。具体而言，我们使用基于注意力的机制来构建情感记忆，以保护每个人的独特情感体验。进一步提出了主观性损失，以确保不同个体之间的差异。此外，我们提出了\ textit {主观性匹配}，旨在将无序的情感标签分配给与匈牙利算法一对一的对应关系中的单个预测。广泛的实验和比较是在公共视觉情绪分布数据集上进行的，结果表明，所提出的SAMNET始终优于最新方法。消融研究验证我们方法的有效性，可视化证明了其可解释性。

translated by 谷歌翻译

Tackling Long-Tailed Category Distribution Under Domain Shifts

Xiao Gu , Yao Guo , Zeju Li , Jianing Qiu , Qi Dou , Yuxuan Liu , Benny Lo , Guang-Zhong Yang

分类：计算机视觉

2022-07-20

当1）培训数据集的类别分布P（Y）时，机器学习模型无法在现实世界应用程序上表现良好。现有方法无法处理存在两个问题的方案，但是对于现实世界应用程序来说，这很常见。在这项研究中，我们向前迈出了一步，研究了域转移下的长尾分类问题。我们设计了三个新颖的核心功能块，包括分布校准的分类损失，视觉语义映射和语义相似性引导性增强。此外，我们采用了一个元学习框架，该框架集成了这三个区块，以改善对看不见的目标域的域概括。为此问题提出了两个新的数据集，称为AWA2-LTS和Imagenet-LTS。我们在两个数据集上评估了我们的方法，并且广泛的实验结果表明，我们提出的方法可以比最新的长尾/域概括方法和组合实现优越的性能。源代码和数据集可以在我们的项目页面https://xiaogu.site/ltds上找到。

translated by 谷歌翻译

Don't Stop Learning: Towards Continual Learning for the CLIP Model

Yuxuan Ding , Lingqiao Liu , Chunna Tian , Jingyuan Yang , Haoxuan Ding

分类：计算机视觉

2022-07-19

对比性语言图像预训练（剪辑）模型是最近提出的大规模训练模型，它吸引了计算机视觉社区越来越多的关注。从其巨大的图像文本训练集中受益，剪辑模型在零拍学习和图像文本匹配方面学习了出色的功能。为了提高剪辑在某些目标视觉概念上的识别性能，通常希望通过在额外的培训数据上微调一些利益来进一步更新剪辑模型。但是，此操作引起了一个重要的关注：更新会损害零镜头学习或剪辑的图像文本匹配能力，即灾难性的遗忘问题吗？如果是，是否可以适应现有的持续学习算法来减轻灾难性遗忘的风险？为了回答这些问题，这项工作对剪辑模型的持续学习问题进行了系统性研究。我们构建评估协议，以衡量微调更新的影响，并探索不同的方法来升级现有的持续学习方法，以减轻剪辑模型的遗忘问题。我们的研究揭示了剪辑持续学习问题的特殊挑战，并为进一步的研究奠定了基础。此外，我们提出了一种新算法，被称为学习，而无需通过重播词汇（VR-LWF）忘记，该算法显示出减轻剪辑模型遗忘问题的确切有效性。

translated by 谷歌翻译

BrainCog: A Spiking Neural Network based Brain-inspired Cognitive Intelligence Engine for Brain-inspired AI and Brain Simulation

Yi Zeng , Dongcheng Zhao , Feifei Zhao , Guobin Shen , Yiting Dong , Enmeng Lu , Qian Zhang , Yinqian Sun , Qian Liang , Yuxuan Zhao

分类：神经与进化计算

2022-07-18

尖峰神经网络（SNN）引起了脑启发的人工智能和计算神经科学的广泛关注。它们可用于在多个尺度上模拟大脑中的生物信息处理。更重要的是，SNN是适当的抽象水平，可以将大脑和认知的灵感带入人工智能。在本文中，我们介绍了脑启发的认知智力引擎（Braincog），用于创建脑启发的AI和脑模拟模型。 Braincog将不同类型的尖峰神经元模型，学习规则，大脑区域等作为平台提供的重要模块。基于这些易于使用的模块，BrainCog支持各种受脑启发的认知功能，包括感知和学习，决策，知识表示和推理，运动控制和社会认知。这些受脑启发的AI模型已在各种受监督，无监督和强化学习任务上有效验证，并且可以用来使AI模型具有多种受脑启发的认知功能。为了进行大脑模拟，Braincog实现了决策，工作记忆，神经回路的结构模拟以及小鼠大脑，猕猴大脑和人脑的整个大脑结构模拟的功能模拟。一个名为BORN的AI引擎是基于Braincog开发的，它演示了如何将Braincog的组件集成并用于构建AI模型和应用。为了使科学追求解码生物智能的性质并创建AI，Braincog旨在提供必要且易于使用的构件，并提供基础设施支持，以开发基于脑部的尖峰神经网络AI，并模拟认知大脑在多个尺度上。可以在https://github.com/braincog-x上找到Braincog的在线存储库。

translated by 谷歌翻译

Multi-Behavior Hypergraph-Enhanced Transformer for Sequential Recommendation

Yuhao Yang , Chao Huang , Lianghao Xia , Yuxuan Liang , Yanwei Yu , Chenliang Li

分类：人工智能

2022-07-12

对于许多在线平台（例如，视频共享网站，电子商务系统），学习动态用户的偏好已成为越来越重要的组成部分，以提出顺序建议。先前的工作已经做出了许多努力，以基于各种体系结构（例如，经常性的神经网络和自我注意机制）对用户交互序列进行建模项目项目过渡。最近出现的图形神经网络还用作有用的骨干模型，可在顺序推荐方案中捕获项目依赖性。尽管它们有效，但现有的方法却远远集中在具有单一相互作用类型的项目序列表示上，因此仅限于捕获用户和项目之间的动态异质关系结构（例如，页面视图，添加最佳选择，购买，购买）。为了应对这一挑战，我们设计了多行为超毛力增强的变压器框架（MBHT），以捕获短期和长期跨型行为依赖性。具体而言，多尺度变压器配备了低级别的自我注意力，可从细粒度和粗粒水平的共同编码行为感知的顺序模式。此外，我们将全局多行为依赖性纳入HyperGraph神经体系结构中，以自定义的方式捕获层次长期项目相关性。实验结果证明了我们MBHT在不同环境中的各种最新推荐解决方案的优势。进一步的消融研究证明了我们的模型设计和新MBHT框架的好处的有效性。我们的实施代码在以下网址发布：https：//github.com/yuh-yang/mbht-kdd22。

translated by 谷歌翻译

VECtor: A Versatile Event-Centric Benchmark for Multi-Sensor SLAM

Ling Gao , Yuxuan Liang , Jiaqi Yang , Shaoxun Wu , Chenyu Wang , Jiaben Chen , Laurent Kneip

分类：机器人 | 计算机视觉

2022-07-04

事件摄像机最近在高动力或具有挑战性的照明情况下具有强大的常规摄像头的潜力，因此摄影机最近变得越来越受欢迎。通过同时定位和映射（SLAM）给出了可能受益于事件摄像机的重要问题。但是，为了确保在包含事件的多传感器大满贯上进展，需要新颖的基准序列。我们的贡献是使用包含基于事件的立体声摄像机，常规立体声摄像机，多个深度传感器和惯性测量单元的多传感器设置捕获的第一组基准数据集。该设置是完全硬件同步的，并且经过了准确的外部校准。所有序列都均均均均由高度准确的外部参考设备（例如运动捕获系统）捕获的地面真相数据。各个序列都包括小型和大型环境，并涵盖动态视觉传感器针对的特定挑战。

translated by 谷歌翻译