智能论文笔记

Data-Driven Market Segmentation in Hospitality Using Unsupervised Machine Learning

Rik van Leeuwen , Ger Koole

分类：机器学习

2021-11-04

在热情好客中，营销部门使用分段创建量身定制的策略，以确保个性化营销。本研究通过分层群集基于广泛的功能，通过分段群集来提供数据驱动方法。该行业需要可理解的结果，为营销部门提供了适应性，使数据驱动的决策和最终驾驶利润。营销部门指定了一个引导无监督机器学习算法的业务问题。客人的特色随着时间的推移而变化;因此，客人将从一个段转换为另一个段的概率。该研究的目的是提供从原始数据到可操作见解的过程中的步骤，该洞察力是热情好客公司如何采用算法方法的指导。

translated by 谷歌翻译

Clustering -- Basic concepts and methods

Jan-Oliver Felix Kapp-Joswig , Bettina G. Keller

分类：机器学习

2022-12-01

We review clustering as an analysis tool and the underlying concepts from an introductory perspective. What is clustering and how can clusterings be realised programmatically? How can data be represented and prepared for a clustering task? And how can clustering results be validated? Connectivity-based versus prototype-based approaches are reflected in the context of several popular methods: single-linkage, spectral embedding, k-means, and Gaussian mixtures are discussed as well as the density-based protocols (H)DBSCAN, Jarvis-Patrick, CommonNN, and density-peaks.

translated by 谷歌翻译

Enabling scalable clinical interpretation of ML-based phenotypes using real world data

Owen Parsons , Nathan E Barlow , Janie Baxter , Karen Paraschin , Andrea Derix , Peter Hein , Robert Dürichen

分类：机器学习

2022-08-02

大型和深度电子医疗保健记录（EHR）数据集的可用性有可能更好地了解现实世界中的患者旅行，并鉴定出新的患者亚组。基于ML的EHR数据集合主要是工具驱动的，即基于可用或新开发的方法的构建。但是，这些方法，它们的输入要求以及最重要的是，通常难以解释产量，尤其是没有深入的数据科学或统计培训。这危害了需要进行可行且具有临床意义的解释的最后一步。这项研究研究了使用大型EHR数据集和多种聚类方法进行临床研究的方法进行大规模进行患者分层分析的方法。我们已经开发了几种工具来促进无监督的患者分层结果的临床评估和解释，即模式筛查，元聚类，替代建模和策展。这些工具可以在分析中的不同阶段使用。与标准分析方法相比，我们证明了凝结结果并优化分析时间的能力。在元聚类的情况下，我们证明了患者簇的数量可以从72减少到3。在另一个分层的结果中，通过使用替代模型，我们可以迅速确定如果有血液钠测量值可用，则可以对心力衰竭患者进行分层。由于这是对所有心力衰竭患者进行的常规测量，因此表明数据偏差。通过使用进一步的队列和特征策展，可以去除这些患者和其他无关的特征以提高临床意义。这些示例显示了拟议方法的有效性，我们希望鼓励在该领域的进一步研究。

translated by 谷歌翻译

Towards Explainable Artificial Intelligence in Banking and Financial Services

Ambreen Hanif

分类：机器学习 | 人工智能

2021-12-14

人工智能（AI）使机器能够从人类经验中学习，适应新的输入，并执行人类的人类任务。 AI正在迅速发展，从过程自动化到认知增强任务和智能流程/数据分析的方式转换业务方式。然而，人类用户的主要挑战是理解和适当地信任AI算法和方法的结果。在本文中，为了解决这一挑战，我们研究并分析了最近在解释的人工智能（XAI）方法和工具中所做的最新工作。我们介绍了一种新颖的XAI进程，便于生产可解释的模型，同时保持高水平的学习性能。我们提出了一种基于互动的证据方法，以帮助人类用户理解和信任启用AI的算法创建的结果和输出。我们在银行域中采用典型方案进行分析客户交易。我们开发数字仪表板以促进与算法的互动结果，并讨论如何提出的XAI方法如何显着提高数据科学家对理解启用AI的算法结果的置信度。

translated by 谷歌翻译

Regulating Gatekeeper AI and Data: Transparency, Access, and Fairness under the DMA, the GDPR, and beyond

Philipp Hacker , Johann Cordes , Janina Rochon

分类：人工智能

2022-12-09

Artificial intelligence is not only increasingly used in business and administration contexts, but a race for its regulation is also underway, with the EU spearheading the efforts. Contrary to existing literature, this article suggests, however, that the most far-reaching and effective EU rules for AI applications in the digital economy will not be contained in the proposed AI Act - but have just been enacted in the Digital Markets Act. We analyze the impact of the DMA and related EU acts on AI models and their underlying data across four key areas: disclosure requirements; the regulation of AI training data; access rules; and the regime for fair rankings. The paper demonstrates that fairness, in the sense of the DMA, goes beyond traditionally protected categories of non-discrimination law on which scholarship at the intersection of AI and law has so far largely focused on. Rather, we draw on competition law and the FRAND criteria known from intellectual property law to interpret and refine the DMA provisions on fair rankings. Moreover, we show how, based on CJEU jurisprudence, a coherent interpretation of the concept of non-discrimination in both traditional non-discrimination and competition law may be found. The final part sketches specific proposals for a comprehensive framework of transparency, access, and fairness under the DMA and beyond.

translated by 谷歌翻译

Algorithmic Fairness in Business Analytics: Directions for Research and Practice

Maria De-Arteaga , Stefan Feuerriegel , Maytal Saar-Tsechansky

分类：人工智能

2022-07-22

业务分析（BA）的广泛采用带来了财务收益和提高效率。但是，当BA以公正的影响为决定时，这些进步同时引起了人们对法律和道德挑战的不断增加。作为对这些关注的回应，对算法公平性的新兴研究涉及算法输出，这些算法可能会导致不同的结果或其他形式的对人群亚组的不公正现象，尤其是那些在历史上被边缘化的人。公平性是根据法律合规，社会责任和效用是相关的；如果不充分和系统地解决，不公平的BA系统可能会导致社会危害，也可能威胁到组织自己的生存，其竞争力和整体绩效。本文提供了有关算法公平的前瞻性，注重BA的评论。我们首先回顾有关偏见来源和措施的最新研究以及偏见缓解算法。然后，我们对公用事业关系的详细讨论进行了详细的讨论，强调经常假设这两种构造之间经常是错误的或短视的。最后，我们通过确定企业学者解决有效和负责任的BA的关键的有影响力的公开挑战的机会来绘制前进的道路。

translated by 谷歌翻译

On the Design of Graph Embeddings for the Sensorless Estimation of Road Traffic Profiles

Eric L. Manibardo , Ibai Laña , Esther Villar , Javier Del Ser

分类：机器学习 | 人工智能

2022-01-11

交通预测模型依赖需要感测，处理和存储的数据。这需要部署和维护交通传感基础设施，往往导致不适合的货币成本。缺乏感测的位置可以与合成数据模拟相辅相成，进一步降低交通监测所需的经济投资。根据类似道路的数据分布，其中最常见的数据生成方法之一包括产生实际的流量模式。检测具有相似流量的道路的过程是这些系统的关键点。但是，在不收集目标位置收集数据，没有用于该相似性的搜索可以使用流量度量。我们提出了一种通过检查道路段的拓扑特征来发现具有可用流量数据的方法的方法。相关的拓扑功能被提取为数值表示（嵌入式）以比较不同的位置，并最终根据其嵌入之间的相似性找到最相似的道路。检查该新颖选择系统的性能，并与更简单的流量估计方法进行比较。找到类似的数据源后，使用生成方法来合成流量配置文件。根据感知道路的交通行为的相似性，可以使用一条路的数据来馈送生成方法。在合成样品的精度方面分析了几种代理方法。最重要的是，这项工作打算促进进一步的研究努力提高综合交通样本的质量，从而降低对传感基础设施的需求。

translated by 谷歌翻译

How causal machine learning can leverage marketing strategies: Assessing and improving the performance of a coupon campaign

Henrika Langen , Martin Huber

分类： (统计)机器学习

2022-04-22

我们应用因果机学习算法来评估营销干预措施的因果影响，即优惠券活动，对零售商的销售。除了评估不同类型的优惠券的平均影响外，我们还调查了不同客户群的因果关系效应的异质性，例如，在相对较高的客户与先前购买相对较高的客户之间。最后，我们使用最佳政策学习来确定（以数据驱动方式）哪些客户群应针对优惠券活动，以最大程度地提高营销干预措施在销售方面的有效性。我们发现，在检查的五个优惠券类别中，只有两个，即适用于药店产品和其他食品产品类别的优惠券，对零售商销售具有统计学上的显着积极影响。对小组平均治疗效果的评估表明，在商店的先前购买中定义的客户群中，优惠券提供的影响有很大的差异，药品店优惠券在先前购买较高的客户和其他食品优惠券中特别有效先前购买较低的客户。我们的研究提供了一种用例，用于在业务分析中应用因果机学习，以评估特定公司政策（例如营销活动）对决策支持的因果影响。

translated by 谷歌翻译

A Survey on Concept Drift in Process Mining

Denise Maria Vecino Sato , Sheila Cristiana de Freitas , Jean Paul Barddal , Edson Emilio Scalabrin

分类：机器学习

2021-12-03

概念漂移过程挖掘（PM）是一种挑战，因为古典方法假设进程处于稳态，即事件共享相同的进程版本。我们对这些领域的交叉点进行了系统的文献综述，从而审查了过程采矿中的概念漂移，并提出了用于漂移检测和在线流程挖掘的现有技术的分类，以实现不断发展的环境。现有的作品描绘了（i）PM仍然主要关注离线分析，并且（ii）由于缺乏公共评估协议，数据集和指标，过程中的概念漂移技术的评估是麻烦的。

translated by 谷歌翻译

Priority to unemployed immigrants? A causal machine learning evaluation of training in Belgium

Bart Cockx , Michael Lechner , Joost Bollens

分类： (统计)机器学习

2019-12-30

Based on administrative data of unemployed in Belgium, we estimate the labour market effects of three training programmes at various aggregation levels using Modified Causal Forests, a causal machine learning estimator. While all programmes have positive effects after the lock-in period, we find substantial heterogeneity across programmes and unemployed. Simulations show that 'black-box' rules that reassign unemployed to programmes that maximise estimated individual gains can considerably improve effectiveness: up to 20 percent more (less) time spent in (un)employment within a 30 months window. A shallow policy tree delivers a simple rule that realizes about 70 percent of this gain.

translated by 谷歌翻译

Personality Detection of Applicants And Employees Using K-mode Algorithm And Ocean Model

Binisha Mohan , Dinju Vattavayalil Joseph , Bharat Plavelil Subhash

分类：人工智能

2022-12-27

The combination of conduct, emotion, motivation, and thinking is referred to as personality. To shortlist candidates more effectively, many organizations rely on personality predictions. The firm can hire or pick the best candidate for the desired job description by grouping applicants based on the necessary personality preferences. A model is created to identify applicants' personality types so that employers may find qualified candidates by examining a person's facial expression, speech intonation, and resume. Additionally, the paper emphasises detecting the changes in employee behaviour. Employee attitudes and behaviour towards each set of questions are being examined and analysed. Here, the K-Modes clustering method is used to predict employee well-being, including job pressure, the working environment, and relationships with peers, utilizing the OCEAN Model and the CNN algorithm in the AVI-AI administrative system. Findings imply that AVIs can be used for efficient candidate screening with an AI decision agent. The study of the specific field is beyond the current explorations and needed to be expanded with deeper models and new configurations that can patch extremely complex operations.

translated by 谷歌翻译

Personalized multi-faceted trust modeling to determine trust links in social media and its potential for misinformation management

Alexandre Parmentier , Robin Cohen , Xueguang Ma , Gaurav Sahu , Queenie Chen

分类：人工智能

2021-11-11

在本文中，我们提出了一种方法，用于预测社交媒体对等体之间的信任链接，其中一个是在多识别信任建模的人工智能面积。特别是，我们提出了一种数据驱动的多面信任信任建模，该信任建模包括许多不同的特征以进行全面分析。我们专注于展示类似用户的聚类如何实现关键新功能：支持更个性化的，从而为用户提供更准确的预测。在信任感知项目推荐任务中说明，我们在大yelp数据集的上下文中评估所提出的框架。然后，我们讨论如何提高社交媒体的可信关系的检测可以帮助在最近爆发的社交网络环境中支持在线用户的违法行为和谣言的传播。我们的结论是关于一个特别易受资助的用户基础，老年人的反思，以说明关于用户组的推理价值，期望通过通过数据分析获得的洞察力集成已知偏好的一些未来方向。

translated by 谷歌翻译

Fairness in Recommender Systems: Research Landscape and Future Directions

Yashar Deldjoo , Dietmar Jannach , Alejandro Bellogin , Alessandro Difonzo , Dario Zanzonelli

分类：人工智能

2022-05-23

Recommender systems can strongly influence which information we see online, e.g., on social media, and thus impact our beliefs, decisions, and actions. At the same time, these systems can create substantial business value for different stakeholders. Given the growing potential impact of such AI-based systems on individuals, organizations, and society, questions of fairness have gained increased attention in recent years. However, research on fairness in recommender systems is still a developing area. In this survey, we first review the fundamental concepts and notions of fairness that were put forward in the area in the recent past. Afterward, through a review of more than 150 scholarly publications, we present an overview of how research in this field is currently operationalized, e.g., in terms of general research methodology, fairness measures, and algorithmic approaches. Overall, our analysis of recent works points to specific research gaps. In particular, we find that in many research works in computer science, very abstract problem operationalizations are prevalent, and questions of the underlying normative claims and what represents a fair recommendation in the context of a given application are often not discussed in depth. These observations call for more interdisciplinary research to address fairness in recommendation in a more comprehensive and impactful manner.

translated by 谷歌翻译

Reviving Purpose Limitation and Data Minimisation in Data-Driven Systems

Asia J. Biega , Michèle Finck

分类：机器学习

2021-01-15

本文确定了数据驱动系统中的数据最小化和目的限制的两个核心数据保护原理。虽然当代数据处理实践似乎与这些原则的赔率达到差异，但我们证明系统可以在技术上使用的数据远远少于目前的数据。此观察是我们详细的技术法律分析的起点，揭示了妨碍了妨碍了实现的障碍，并举例说明了在实践中应用数据保护法的意外权衡。我们的分析旨在向辩论提供关于数据保护对欧盟人工智能发展的影响，为数据控制员，监管机构和研究人员提供实际行动点。

translated by 谷歌翻译

Clustering of longitudinal data: A tutorial on a variety of approaches

Niek Den Teuling , Steffen Pauws , Edwin van den Heuvel

分类：机器学习 | (统计)机器学习

2021-11-10

在过去二十年中，识别具有不同纵向数据趋势的群体的方法已经成为跨越许多研究领域的兴趣。为了支持研究人员，我们总结了文献关于纵向聚类的指导。此外，我们提供了一种纵向聚类方法，包括基于基团的轨迹建模（GBTM），生长混合模拟（GMM）和纵向K平均值（KML）。该方法在基本级别引入，并列出了强度，限制和模型扩展。在最近数据收集的发展之后，将注意这些方法的适用性赋予密集的纵向数据（ILD）。我们展示了使用R.中可用的包在合成数据集上的应用程序的应用。

translated by 谷歌翻译

Profiling Television Watching Behaviour Using Bayesian Hierarchical Joint Models for Time-to-Event and Count Data

Rafael A. Moral , Zhi Chen , Shuai Zhang , Sally McClean , Gabriel R. Palma , Brahim Allan , Ian Kegel

分类： (统计)机器学习

2022-09-06

在许多行业中，客户流失预测是一项宝贵的任务。在电信中，鉴于数据的高维度以及确定潜在的挫败感签名是多么困难，这可能代表了关于未来流失行为的重要驱动因素。在这里，我们提出了一个新颖的贝叶斯分层联合模型，该模型能够根据不同电视观看旅程中发生的事件以及事件之间需要多长时间来表征客户资料。该模型大幅度地将数据的维度从每个客户的数千个观察值降低到11个客户级参数估计和随机效果。我们使用来自40个BT客户（有20名活跃和20名最终取消订阅的20人）的数据测试我们的方法，他们的电视观看行为是从2019年10月到2019年12月的，总计约为半百万。使用贝叶斯分层模型的参数估计和随机效应采用不同的机器学习技术，作为在验证中与100 \％真实的正率和14 \％的假正率相关的最高92 \％精度可预测流失的精度放。我们提出的方法是降低数据维度的有效方法，同时保持了高描述性和预测能力。我们提供代码以在https://github.com/rafamoral/profiling_tv_watching_behaviour上实现贝叶斯模型。

translated by 谷歌翻译

The language and social behavior of innovators

A. Fronzetti Colladon , L. Toschi , E. Ughetto , F. Greco

分类：自然语言处理

2022-09-20

创新者是有创造力的人，他们可以唤起代表创新组织主要引擎的开创性思想。过去的研究已广泛调查了谁是创新者以及他们在与工作有关的活动中的行为。在本文中，我们建议有必要分析创新者在其他情况下的行为，例如在非正式沟通空间中，在没有正式结构，规则和工作义务的情况下共享知识。利用通信和网络理论，我们分析了大型跨国公司的Intranet论坛上可用的38,000个帖子。由此，我们解释了创新者在社交网络行为和语言特征方面与其他员工的不同。通过文本挖掘，我们发现创新者编写更多，使用更复杂的语言，介绍新的概念/想法，并使用积极但基于事实的语言。了解创新者的行为和沟通如何支持想要促进创新的经理的决策过程。

translated by 谷歌翻译

HAWKS: Evolving Challenging Benchmark Sets for Cluster Analysis

Cameron Shand , Richard Allmendinger , Julia Handl , Andrew Webb , John Keane

分类：神经与进化计算 | 机器学习

2021-02-13

聚类算法的全面基准是困难的两个关键因素：（i）〜这种无监督的学习方法的独特数学定义和（ii）〜某些聚类算法采用的生成模型或群集标准之间的依赖性的依赖性内部集群验证。因此，对严格基准测试的最佳做法没有达成共识，以及是否有可能在给定申请的背景之外。在这里，我们认为合成数据集必须继续在群集算法的评估中发挥重要作用，但这需要构建适当地涵盖影响聚类算法性能的各种属性集的基准。通过我们的框架，我们展示了重要的角色进化算法，以支持灵活的这种基准，允许简单的修改和扩展。我们说明了我们框架的两种可能用途：（i）〜基准数据的演变与一组手派生属性和（ii）〜生成梳理给定对算法之间的性能差异的数据集。我们的作品对设计集群基准的设计具有足够挑战广泛算法的集群基准，并进一步了解特定方法的优势和弱点。

translated by 谷歌翻译

Unsupervised embedding and similarity detection of microregions using public transport schedules

Piotr Gramacki

分类：机器学习

2021-11-03

空间数据在应对与城市相关的任务中的作用近年来一直在增长。要在机器学习模型中使用它们，通常需要将它们转换为向量表示，这导致了空间数据表示学习领域的开发。还有一种越来越多的各种空间数据类型，提出了一种表示学习方法。迄今为止，公共交通时间表迄今未被用于一个城市地区的学习陈述的任务。在这项工作中，开发了一种方法来将公共交通可用性信息嵌入到矢量空间中。要对其申请进行实验，从48个城市收集公共交通时间表。使用H3空间索引方法，它们被分成微区域。还提出了一种方法来识别具有类似公共交通报价特征的地区。在其基础上，定义了该地区的公共交通报价的多层次类型。本文表明，所提出的表示方法可以识别城市之间具有相似公共交通特性的微区域，并且可用于评估城市中可用的公共交通的质量。

translated by 谷歌翻译

Artificial Intelligence and Design of Experiments for Assessing Security of Electricity Supply: A Review and Strategic Outlook

Jan Priesmann , Justin Münch , Elias Ridha , Thomas Spiegel , Marius Reich , Mario Adam , Lars Nolting , Aaron Praktiknjo

分类：人工智能

2021-12-07

评估能源转型和能源市场自由化对资源充足性的影响是一种越来越重要和苛刻的任务。能量系统的上升复杂性需要足够的能量系统建模方法，从而提高计算要求。此外，随着复杂性，同样调用概率评估和场景分析同样增加不确定性。为了充分和高效地解决这些各种要求，需要来自数据科学领域的新方法来加速当前方法。通过我们的系统文献综述，我们希望缩小三个学科之间的差距（1）电力供应安全性评估，（2）人工智能和（3）实验设计。为此，我们对所选应用领域进行大规模的定量审查，并制作彼此不同学科的合成。在其他发现之外，我们使用基于AI的方法和应用程序的AI方法和应用来确定电力供应模型的复杂安全性的元素，并作为未充分涵盖的应用领域的储存调度和（非）可用性。我们结束了推出了一种新的方法管道，以便在评估电力供应安全评估时充分有效地解决当前和即将到来的挑战。

translated by 谷歌翻译