手机数据可以改善计划的目标吗?通过将来自阿富汗的“大推动”反贫困计划与计划受益人的详细手机日志结合在一起,我们研究了机器学习方法可以在多大程度上准确地区分有资格从不合格家庭中获得计划收益的超贫困家庭。我们表明,利用手机数据的机器学习方法可以识别超贫困家庭的准确性,几乎与基于调查的消费和财富量度一样准确。而将基于调查的措施与手机数据结合起来比基于单个数据源的措施更准确。
translated by 谷歌翻译
这项研究研究了在美国国税局(IRS)为税收审计选择的系统中,算法公平性问题。尽管算法公平的领域主要围绕着像个人一样对待的概念发展,但我们却探索了垂直平等的概念 - 适当地考虑到个人之间的相关差异 - 这在许多公共政策环境中都是公平性的核心组成部分。应用于美国个人所得税体系的设计,垂直权益与不同收入水平的纳税人之间的税收和执法负担的公平分配有关。通过与财政部和国税局的独特合作,我们使用匿名个人纳税人微型数据,风险选择的审计以及2010 - 14年度的随机审计来研究税务管理的垂直平等。特别是,我们评估了现代机器学习方法选择审核的使用如何影响垂直权益。首先,我们展示了更灵活的机器学习(分类)方法(而不是简单的模型)如何将审计负担从高收入纳税人转移到中等收入纳税人。其次,我们表明,尽管现有的算法公平技术可以减轻跨收入的某些差异,但它们可能会造成巨大的绩效成本。第三,我们表明,是否将低报告的风险视为分类或回归问题的选择是高度的。从分类转变为回归模型,以预测不足的审计转变会大大向高收入个人转移,同时增加收入。最后,我们探讨了差异审计成本在塑造审计分配中的作用。我们表明,对回报的狭窄关注会破坏垂直权益。我们的结果对整个公共部门的算法工具的设计具有影响。
translated by 谷歌翻译
目的:我们研究使用机器学习(ML)模型的可解释的累入预测,并在预测能力,稀疏性和公平性方面分析性能。与以前的作品不同,本研究列举了输出概率而不是二进制预测的可解释模型,并使用定量公平定义来评估模型。本研究还研究了模型是否可以横跨地理位置概括。方法:我们在佛罗里达州和肯塔基州的两个不同的刑事核查数据集上生成了黑盒和可解释的ML模型。我们将这些模型的预测性能和公平与目前用于司法系统中使用的两种方法进行了比较,以预测审前常规率:Arnold PSA和Compas。我们评估了所有模型的预测性能,可以在两次跨越两次预测六种不同类型犯罪的模型。结果:几种可解释的ML模型可以预测常规和黑盒ML模型,比Compas或Arnold PSA更准确。这些模型在实践中可能有用。类似于Arnold PSA,这些可解释模型中的一些可以作为一个简单的表格写入。其他可以使用一组可视化显示。我们的地理分析表明ML模型应分开培训,以便单独的位置并随时间更新。我们还为可​​解释模型提供了公平分析。结论:可解释的机器学习模型可以在预测准确性和公平性方面表现,也可以表现,也可以表现,也可以执行不可解释的方法和目前使用的风险评估尺度。机器学习模型对于单独培训,可以更准确地进行不同的位置,并保持最新。
translated by 谷歌翻译
对联合国可持续发展目标的进展(SDGS)因关键环境和社会经济指标缺乏数据而受到阻碍,其中历史上有稀疏时间和空间覆盖率的地面调查。机器学习的最新进展使得可以利用丰富,频繁更新和全球可用的数据,例如卫星或社交媒体,以向SDGS提供洞察力。尽管有希望的早期结果,但到目前为止使用此类SDG测量数据的方法在很大程度上在不同的数据集或使用不一致的评估指标上进行了评估,使得难以理解的性能是改善,并且额外研究将是最丰富的。此外,处理卫星和地面调查数据需要域知识,其中许多机器学习群落缺乏。在本文中,我们介绍了3个SDG的3个基准任务的集合,包括与经济发展,农业,健康,教育,水和卫生,气候行动和陆地生命相关的任务。 15个任务中的11个数据集首次公开发布。我们为Acceptandbench的目标是(1)降低机器学习界的进入的障碍,以促进衡量和实现SDGS; (2)提供标准基准,用于评估各种SDG的任务的机器学习模型; (3)鼓励开发新颖的机器学习方法,改进的模型性能促进了对SDG的进展。
translated by 谷歌翻译
我们在数字世界中采取的每一步都会落后于我们行为的记录;数字足迹。研究表明,算法可以将这些数字足迹转化为精确的心理特征估计,包括人格特质,心理健康或情报。然而,AI产生这些见解的机制通常保持不透明。在本文中,我们展示了如何解释AI(XAI)可以帮助域专家和数据主体验证,问题和改进分类数字足迹的心理特征的模型。我们在来自金融交易数据的大五个人格预测(特征和方面)的范围内,详细说明了两个流行的XAI方法(规则提取和反事实解释)(n = 6,408)。首先,我们展示了全球规则提取在模型中标识的消费模式中如何阐明了最重要的人格,并讨论这些规则如何用于解释,验证和改进模型。其次,我们实施当地规则提取,以表明,由于其独特的财务行为,个人分配给个性课程,并且模型的预测信心与促进预测的特征数量之间存在积极的联系。我们的实验突出了全球和本地XAI方法的重要性。通过更好地了解预测模型如何工作,以及他们如何获得特定人的结果,Xai促进了一个世界的问责制,其中AI影响了世界各地数十亿人的生命。
translated by 谷歌翻译
Recent work has reported that AI classifiers trained on audio recordings can accurately predict severe acute respiratory syndrome coronavirus 2 (SARSCoV2) infection status. Here, we undertake a large scale study of audio-based deep learning classifiers, as part of the UK governments pandemic response. We collect and analyse a dataset of audio recordings from 67,842 individuals with linked metadata, including reverse transcription polymerase chain reaction (PCR) test outcomes, of whom 23,514 tested positive for SARS CoV 2. Subjects were recruited via the UK governments National Health Service Test-and-Trace programme and the REal-time Assessment of Community Transmission (REACT) randomised surveillance survey. In an unadjusted analysis of our dataset AI classifiers predict SARS-CoV-2 infection status with high accuracy (Receiver Operating Characteristic Area Under the Curve (ROCAUC) 0.846 [0.838, 0.854]) consistent with the findings of previous studies. However, after matching on measured confounders, such as age, gender, and self reported symptoms, our classifiers performance is much weaker (ROC-AUC 0.619 [0.594, 0.644]). Upon quantifying the utility of audio based classifiers in practical settings, we find them to be outperformed by simple predictive scores based on user reported symptoms.
translated by 谷歌翻译
Covid-19是由新型冠状病毒(SARS-COV-2)引起的疾病,于2019年12月下旬首次在中国武汉出现。不久之后,该病毒在全球范围内传播,并于3月被世界卫生组织宣布为大流行病。 2020年。这造成了世界各地和美国的许多变化,包括向在线学习的教育转变。在本文中,我们试图了解Covid-19-19的大流行和在线学习的增加如何影响大学生的情感福祉。我们使用几种机器学习和统计模型来分析卢布尔雅那大学公共行政学院,斯洛文尼亚大学,与国际大学,其他高等教育机构和学生协会一起收集的数据。我们的结果表明,与学生的学术生活有关的特征对他们的情感健康产生了最大的影响。其他重要因素包括学生对大学和政府对大流行的处理以及学生的财务安全的满意。
translated by 谷歌翻译
人类服务系统做出关键决策,影响社会中的个人。美国儿童福利系统做出了这样的决定,从筛查热线报告的报告报告,涉嫌虐待或忽视儿童保护性调查,使儿童接受寄养,再到将儿童返回永久家庭环境。这些对儿童生活的复杂而有影响力的决定取决于儿童福利决策者的判断。儿童福利机构一直在探索使用包括机器学习(ML)的经验,数据信息的方法来支持这些决策的方法。本文描述了ML支持儿童福利决策的概念框架。 ML框架指导儿童福利机构如何概念化ML可以解决的目标问题;兽医可用的管理数据用于构建ML;制定和开发ML规格,以反映机构正在进行的相关人群和干预措施;随着时间的流逝,部署,评估和监视ML作为儿童福利环境,政策和实践变化。道德考虑,利益相关者的参与以及避免框架的影响和成功的共同陷阱。从摘要到具体,我们描述了该框架的一种应用,以支持儿童福利决策。该ML框架虽然以儿童福利为中心,但可以推广用于解决其他公共政策问题。
translated by 谷歌翻译
We introduce a new setting, optimize-and-estimate structured bandits. Here, a policy must select a batch of arms, each characterized by its own context, that would allow it to both maximize reward and maintain an accurate (ideally unbiased) population estimate of the reward. This setting is inherent to many public and private sector applications and often requires handling delayed feedback, small data, and distribution shifts. We demonstrate its importance on real data from the United States Internal Revenue Service (IRS). The IRS performs yearly audits of the tax base. Two of its most important objectives are to identify suspected misreporting and to estimate the "tax gap" -- the global difference between the amount paid and true amount owed. Based on a unique collaboration with the IRS, we cast these two processes as a unified optimize-and-estimate structured bandit. We analyze optimize-and-estimate approaches to the IRS problem and propose a novel mechanism for unbiased population estimation that achieves rewards comparable to baseline approaches. This approach has the potential to improve audit efficacy, while maintaining policy-relevant estimates of the tax gap. This has important social consequences given that the current tax gap is estimated at nearly half a trillion dollars. We suggest that this problem setting is fertile ground for further research and we highlight its interesting challenges. The results of this and related research are currently being incorporated into the continual improvement of the IRS audit selection methods.
translated by 谷歌翻译
机器学习(ML)越来越多地用于支持高风险的决策,这是由于其相对于人类评估的优势预测能力的承诺而欠的趋势。但是,决策目标与观察到的作为训练ML模型的标签的结果中捕获的内容之间经常存在差距。结果,机器学习模型可能无法捕获决策标准的重要维度,从而阻碍了他们的决策支持。在这项工作中,我们探讨了历史专家决策作为组织信息系统中通常可用的丰富(但不完美)的信息来源,并表明它可以利用它来弥合决策目标与算法目标之间的差距。当数据中的每个案例都由单个专家评估并提出基于影响函数的方法作为解决此问题的解决方案时,我们会间接考虑估计专家一致性的问题。然后,我们将估计的专家一致性通过培训时间标签合并方法纳入预测模型。这种方法使ML模型可以在有推断的专家一致性和观察标签的情况下向专家学习。我们还提出了通过混合和延期模型来利用推断一致性的替代方法。在我们的经验评估中,专注于儿童虐待热线筛查的背景下,我们表明(1)有一些高风险案例,其风险是专家考虑的,但在目标标签中没有完全捕获用于培训已部署模型和培训的目标标签(2)提出的方法可显着提高这些情况的精度。
translated by 谷歌翻译
Since early in the coronavirus disease 2019 (COVID-19) pandemic, there has been interest in using artificial intelligence methods to predict COVID-19 infection status based on vocal audio signals, for example cough recordings. However, existing studies have limitations in terms of data collection and of the assessment of the performances of the proposed predictive models. This paper rigorously assesses state-of-the-art machine learning techniques used to predict COVID-19 infection status based on vocal audio signals, using a dataset collected by the UK Health Security Agency. This dataset includes acoustic recordings and extensive study participant meta-data. We provide guidelines on testing the performance of methods to classify COVID-19 infection status based on acoustic features and we discuss how these can be extended more generally to the development and assessment of predictive methods based on public health datasets.
translated by 谷歌翻译
Using a comprehensive sample of 2,585 bankruptcies from 1990 to 2019, we benchmark the performance of various machine learning models in predicting financial distress of publicly traded U.S. firms. We find that gradient boosted trees outperform other models in one-year-ahead forecasts. Variable permutation tests show that excess stock returns, idiosyncratic risk, and relative size are the more important variables for predictions. Textual features derived from corporate filings do not improve performance materially. In a credit competition model that accounts for the asymmetric cost of default misclassification, the survival random forest is able to capture large dollar profits.
translated by 谷歌翻译
机器学习渗透到许多行业,这为公司带来了新的利益来源。然而,在人寿保险行业中,机器学习在实践中并未被广泛使用,因为在过去几年中,统计模型表明了它们的风险评估效率。因此,保险公司可能面临评估人工智能价值的困难。随着时间的流逝,专注于人寿保险行业的修改突出了将机器学习用于保险公司的利益以及通过释放数据价值带来的利益。本文回顾了传统的生存建模方法论,并通过机器学习技术扩展了它们。它指出了与常规机器学习模型的差异,并强调了特定实现在与机器学习模型家族中面对审查数据的重要性。在本文的补充中,已经开发了Python库。已经调整了不同的开源机器学习算法,以适应人寿保险数据的特殊性,即检查和截断。此类模型可以轻松地从该SCOR库中应用,以准确地模拟人寿保险风险。
translated by 谷歌翻译
Recent research has demonstrated the capability of behavior signals captured by smartphones and wearables for longitudinal behavior modeling. However, there is a lack of a comprehensive public dataset that serves as an open testbed for fair comparison among algorithms. Moreover, prior studies mainly evaluate algorithms using data from a single population within a short period, without measuring the cross-dataset generalizability of these algorithms. We present the first multi-year passive sensing datasets, containing over 700 user-years and 497 unique users' data collected from mobile and wearable sensors, together with a wide range of well-being metrics. Our datasets can support multiple cross-dataset evaluations of behavior modeling algorithms' generalizability across different users and years. As a starting point, we provide the benchmark results of 18 algorithms on the task of depression detection. Our results indicate that both prior depression detection algorithms and domain generalization techniques show potential but need further research to achieve adequate cross-dataset generalizability. We envision our multi-year datasets can support the ML community in developing generalizable longitudinal behavior modeling algorithms.
translated by 谷歌翻译
从操作的角度来看,对调查响应率的准确预测至关重要。美国人口普查局的著名漫游应用程序使用了在美国人口普查计划数据库数据中培训的原则统计模型来识别难以调查的领域。较早的众包竞赛表明,一组回归树木在预测调查率方面取得了最佳性能。但是,由于有限的解释性,无法针对预期应用程序采用相应的模型。在本文中,我们提出了新的可解释的统计方法,以高精度地预测调查中的响应率。我们研究通过$ \ ell_0 $ regularization以及提供层次结构化的变体的稀疏非参数添加剂模型,可提供增强的解释性。尽管有强大的方法论基础,这种模型在计算上可能具有挑战性 - 我们提出了学习这些模型的新可扩展算法。我们还为所提出的估计量建立了新的非反应误差界。基于美国人口普查计划数据库的实验表明,我们的方法导致高质量的预测模型,可为不同人群的不同部分可行。有趣的是,我们的方法在基于梯度增强和前馈神经网络的最先进的黑盒机器学习方法中提供了可解释性的显着提高,而不会失去预测性能。我们在Python中实现的代码实现可在https://github.com/shibalibrahim/addived-models-with-sonstructred-interactions上获得。
translated by 谷歌翻译
COVID-19的大流行提出了对多个领域决策者的流行预测的重要性,从公共卫生到整个经济。虽然预测流行进展经常被概念化为类似于天气预测,但是它具有一些关键的差异,并且仍然是一项非平凡的任务。疾病的传播受到人类行为,病原体动态,天气和环境条件的多种混杂因素的影响。由于政府公共卫生和资助机构的倡议,捕获以前无法观察到的方面的丰富数据来源的可用性增加了研究的兴趣。这尤其是在“以数据为中心”的解决方案上进行的一系列工作,这些解决方案通过利用非传统数据源以及AI和机器学习的最新创新来增强我们的预测能力的潜力。这项调查研究了各种数据驱动的方法论和实践进步,并介绍了一个概念框架来导航它们。首先,我们列举了与流行病预测相关的大量流行病学数据集和新的数据流,捕获了各种因素,例如有症状的在线调查,零售和商业,流动性,基因组学数据等。接下来,我们将讨论关注最近基于数据驱动的统计和深度学习方法的方法和建模范式,以及将机械模型知识域知识与统计方法的有效性和灵活性相结合的新型混合模型类别。我们还讨论了这些预测系统的现实部署中出现的经验和挑战,包括预测信息。最后,我们重点介绍了整个预测管道中发现的一些挑战和开放问题。
translated by 谷歌翻译
Based on administrative data of unemployed in Belgium, we estimate the labour market effects of three training programmes at various aggregation levels using Modified Causal Forests, a causal machine learning estimator. While all programmes have positive effects after the lock-in period, we find substantial heterogeneity across programmes and unemployed. Simulations show that 'black-box' rules that reassign unemployed to programmes that maximise estimated individual gains can considerably improve effectiveness: up to 20 percent more (less) time spent in (un)employment within a 30 months window. A shallow policy tree delivers a simple rule that realizes about 70 percent of this gain.
translated by 谷歌翻译
小型太阳能光伏(PV)阵列中电网的有效集成计划需要访问高质量的数据:单个太阳能PV阵列的位置和功率容量。不幸的是,不存在小型太阳能光伏的国家数据库。那些确实有限的空间分辨率,通常汇总到州或国家一级。尽管已经发布了几种有希望的太阳能光伏检测方法,但根据研究,研究这些模型的性能通常是高度异质的。这些方法对能源评估的实际应用的比较变得具有挑战性,可能意味着报告的绩效评估过于乐观。异质性有多种形式,我们在这项工作中探讨了每种形式:空间聚集的水平,地面真理的验证,培训和验证数据集的不一致以及培训的位置和传感器的多样性程度和验证数据始发。对于每个人,我们都会讨论文献中的新兴实践,以解决它们或暗示未来研究的方向。作为调查的一部分,我们评估了两个大区域的太阳PV识别性能。我们的发现表明,由于验证过程中的共同局限性,从卫星图像对太阳PV自动识别的传统绩效评估可能是乐观的。这项工作的收获旨在为能源研究人员和专业人员提供自动太阳能光伏评估技术的大规模实用应用。
translated by 谷歌翻译
It does not matter whether it is a job interview with Tech Giants, Wall Street firms, or a small startup; all candidates want to demonstrate their best selves or even present themselves better than they really are. Meanwhile, recruiters want to know the candidates' authentic selves and detect soft skills that prove an expert candidate would be a great fit in any company. Recruiters worldwide usually struggle to find employees with the highest level of these skills. Digital footprints can assist recruiters in this process by providing candidates' unique set of online activities, while social media delivers one of the largest digital footprints to track people. In this study, for the first time, we show that a wide range of behavioral competencies consisting of 16 in-demand soft skills can be automatically predicted from Instagram profiles based on the following lists and other quantitative features using machine learning algorithms. We also provide predictions on Big Five personality traits. Models were built based on a sample of 400 Iranian volunteer users who answered an online questionnaire and provided their Instagram usernames which allowed us to crawl the public profiles. We applied several machine learning algorithms to the uniformed data. Deep learning models mostly outperformed by demonstrating 70% and 69% average Accuracy in two-level and three-level classifications respectively. Creating a large pool of people with the highest level of soft skills, and making more accurate evaluations of job candidates is possible with the application of AI on social media user-generated data.
translated by 谷歌翻译
算法决策的兴起催生了许多关于公平机器学习(ML)的研究。金融机构使用ML来建立支持一系列与信贷有关的决定的风险记分卡。然而,关于信用评分的公平ML的文献很少。该论文做出了三项贡献。首先,我们重新审视统计公平标准,并检查其对信用评分的适当性。其次,我们对将公平目标纳入ML模型开发管道中的算法选项进行了分类。最后,我们从经验上比较了使用现实世界数据以利润为导向的信用评分上下文中的不同公平处理器。经验结果证实了对公平措施的评估,确定了实施公平信用评分的合适选择,并阐明了贷款决策中的利润权衡。我们发现,可以立即达到多个公平标准,并建议分离作为衡量记分卡的公平性的适当标准。我们还发现公平的过程中,可以在利润和公平之间实现良好的平衡,并表明算法歧视可以以相对较低的成本降低到合理的水平。与该论文相对应的代码可在GitHub上获得。
translated by 谷歌翻译