全球越来越多的大学将各种形式的在线学习和混合学习作为其学术课程的一部分。此外,由于199年大流行而造成的最新变化导致在线教育的重要性和无处不在。电子学习的主要优点之一不仅是改善学生的学习经验并扩大教育前景,而且还可以通过学习分析来洞悉学生的学习过程。这项研究有助于通过以下方式改善和理解电子学习过程的主题。首先,我们证明可以根据从学生的行为数据中得出的顺序模式来构建准确的预测模型,这些模式能够在课程的早期识别出表现不佳的学生。其次,我们通过研究是否应根据特定于课程的顺序模式或基于更一般的行为模式的几个课程来构建每个课程的预测模型,从而调查了建立此类预测模型的特异性征用性权衡。最后,我们提出了一种捕获行为数据中时间方面的方法,并分析了其对模型预测性能的影响。我们改进的序列分类技术的结果能够以高度准确性来预测学生的表现,而对于课程特异性模型的结果达到了90%。
translated by 谷歌翻译
Student success models might be prone to develop weak spots, i.e., examples hard to accurately classify due to insufficient representation during model creation. This weakness is one of the main factors undermining users' trust, since model predictions could for instance lead an instructor to not intervene on a student in need. In this paper, we unveil the need of detecting and characterizing unknown unknowns in student success prediction in order to better understand when models may fail. Unknown unknowns include the students for which the model is highly confident in its predictions, but is actually wrong. Therefore, we cannot solely rely on the model's confidence when evaluating the predictions quality. We first introduce a framework for the identification and characterization of unknown unknowns. We then assess its informativeness on log data collected from flipped courses and online courses using quantitative analyses and interviews with instructors. Our results show that unknown unknowns are a critical issue in this domain and that our framework can be applied to support their detection. The source code is available at https://github.com/epfl-ml4ed/unknown-unknowns.
translated by 谷歌翻译
在学习分析领域的最新研究重点是利用机器学习方法来预测高危学生,以便及时启动干预措施,从而提高保留率和完成率。这些研究大多数的总体特征仅在预测科学方面。与解释模型内部的预测分析的组成部分,并在很大程度上忽略了其对利益相关者的个人案例的预测。此外,尝试使用数据驱动的规范分析来自动为高危学习者生成基于证据的补救建议的工作仍处于起步阶段。可解释的AI是一个最近出现的领域,它提供了尖端工具,该工具支持透明的预测分析和技术,以为高危学生生成量身定制的建议。这项研究提出了一个新的框架,该框架既可以统一透明的机器学习,又可以实现规定性分析的技术。这项工作实际上使用了使用预测模型来识别计划不完整的高危学习者的预测模型。然后,该研究进一步证明了如何通过两项案例研究的规定性分析来增强预测性建模,以便为有危险的人产生可读的规定反馈。
translated by 谷歌翻译
拖延是任务的非理性延迟,是在线学习中的普遍情况。潜在的负面后果包括更高的辍学风险,增加压力和情绪减少。由于学习管理系统和学习分析的增加,可以检测到这种行为的指标,从而预测未来的拖延和其他扩张行为。但是,关注此类预测的研究很少。此外,几乎不存在涉及不同类型的预测指标和预测性能之间的比较的研究。在这项研究中,我们旨在通过分析多个机器学习算法的性能来填补这些研究空白,以预测具有两类预测指标的高等教育环境中在线作业的延迟或及时提交:基于主观的,基于问卷的变量和目标,客观,客观,客观,目标,客观,客观,客观,客观,从学习管理系统中提取的基于日志数据的指标。结果表明,具有客观预测变量的模型始终优于主观预测指标的模型,并且两种变量类型的组合表现稍好一些。对于这三个选项中的每一个,一种不同的方法盛行(主观,贝叶斯多层次模型的梯度增强机器,共同预测指标的随机森林)。我们得出的结论是,在学习管理系统中实施此类模型之前,应仔细注意预测变量和算法。
translated by 谷歌翻译
使用数据挖掘工具使用大数据正在迅速成为教育行业的趋势。当前收集,存储,管理和处理数据的能力及时的结合以及在线教育平台的数据是教育机构,学习者,教育工作者和研究人员的前所未有的机会。在该立场论文中,我们考虑了一些有关教育数据挖掘和学习分析的基本概念以及大多数流行的工具,方法和技术,并特别讨论语言学习中的大数据应用。
translated by 谷歌翻译
近年来,虚拟学习已成为传统课堂教学的替代方法。学生参与虚拟学习可能会对满足学习目标和计划辍学风险产生重大影响。在虚拟学习环境中,有许多专门针对学生参与度(SE)的测量工具。在这项关键综述中,我们分析了这些作品,并从不同的参与定义和测量量表上突出了不一致之处。现有研究人员之间的这种多样性在比较不同的注释和构建可推广的预测模型时可能会出现问题。我们进一步讨论了有关参与注释和设计缺陷的问题。我们根据我们定义的七个参与注释的七个维度分析现有的SE注释量表,包括来源,用于注释的数据模式,注释发生的时间,注释发生的时间段,抽象,组合和组合水平的时间段,定量。令人惊讶的发现之一是,在SE测量中,很少有审查的数据集使用了现有的精神法法学验证量表中的注释中。最后,我们讨论了除虚拟学习以外的其他一些范围,这些量表具有用于测量虚拟学习中SE的潜力。
translated by 谷歌翻译
在这项工作中,我们审查并评估了一个具有公开可用和广泛使用的数据集的深度学习知识追踪(DLKT)模型,以及学习编程的新型学生数据集。评估的DLKT模型已重新实现,用于评估先前报告的结果的可重复性和可复制性。我们测试在与模型的主要架构上独立于模型的比较模型中找到的不同输入和输出层变化,以及在某些研究中隐含地和明确地使用的不同最大尝试计数选项。几个指标用于反映评估知识追踪模型的质量。评估的知识追踪模型包括Vanilla-DKT,两个长短期内存深度知识跟踪(LSTM-DKT)变体,两个动态键值存储器网络(DKVMN)变体,以及自我细致的知识跟踪(SAKT)。我们评估Logistic回归,贝叶斯知识跟踪(BKT)和简单的非学习模型作为基准。我们的结果表明,DLKT模型一般优于非DLKT模型,DLKT模型之间的相对差异是微妙的,并且在数据集之间经常变化。我们的研究结果还表明,通常的纯模型,例如平均预测,比更复杂的知识追踪模型更好地表现出更好的性能,尤其是在准确性方面。此外,我们的公制和封路数据分析显示,用于选择最佳模型的度量标准对模型的性能有明显的影响,并且该度量选择可以影响模型排名。我们还研究了输入和输出层变化的影响,过滤出长期尝试序列,以及随机性和硬件等非模型属性。最后,我们讨论模型性能可重量和相关问题。我们的模型实现,评估代码和数据作为本工作的一部分发布。
translated by 谷歌翻译
Covid-19是由新型冠状病毒(SARS-COV-2)引起的疾病,于2019年12月下旬首次在中国武汉出现。不久之后,该病毒在全球范围内传播,并于3月被世界卫生组织宣布为大流行病。 2020年。这造成了世界各地和美国的许多变化,包括向在线学习的教育转变。在本文中,我们试图了解Covid-19-19的大流行和在线学习的增加如何影响大学生的情感福祉。我们使用几种机器学习和统计模型来分析卢布尔雅那大学公共行政学院,斯洛文尼亚大学,与国际大学,其他高等教育机构和学生协会一起收集的数据。我们的结果表明,与学生的学术生活有关的特征对他们的情感健康产生了最大的影响。其他重要因素包括学生对大学和政府对大流行的处理以及学生的财务安全的满意。
translated by 谷歌翻译
Time series is the most prevalent form of input data for educational prediction tasks. The vast majority of research using time series data focuses on hand-crafted features, designed by experts for predictive performance and interpretability. However, extracting these features is labor-intensive for humans and computers. In this paper, we propose an approach that utilizes irregular multivariate time series modeling with graph neural networks to achieve comparable or better accuracy with raw time series clickstreams in comparison to hand-crafted features. Furthermore, we extend concept activation vectors for interpretability in raw time series models. We analyze these advances in the education domain, addressing the task of early student performance prediction for downstream targeted interventions and instructional support. Our experimental analysis on 23 MOOCs with millions of combined interactions over six behavioral dimensions show that models designed with our approach can (i) beat state-of-the-art educational time series baselines with no feature extraction and (ii) provide interpretable insights for personalized interventions. Source code: https://github.com/epfl-ml4ed/ripple/.
translated by 谷歌翻译
Deep learning models for learning analytics have become increasingly popular over the last few years; however, these approaches are still not widely adopted in real-world settings, likely due to a lack of trust and transparency. In this paper, we tackle this issue by implementing explainable AI methods for black-box neural networks. This work focuses on the context of online and blended learning and the use case of student success prediction models. We use a pairwise study design, enabling us to investigate controlled differences between pairs of courses. Our analyses cover five course pairs that differ in one educationally relevant aspect and two popular instance-based explainable AI methods (LIME and SHAP). We quantitatively compare the distances between the explanations across courses and methods. We then validate the explanations of LIME and SHAP with 26 semi-structured interviews of university-level educators regarding which features they believe contribute most to student success, which explanations they trust most, and how they could transform these insights into actionable course design decisions. Our results show that quantitatively, explainers significantly disagree with each other about what is important, and qualitatively, experts themselves do not agree on which explanations are most trustworthy. All code, extended results, and the interview protocol are provided at https://github.com/epfl-ml4ed/trusting-explainers.
translated by 谷歌翻译
预测过程分析已成为组织的基本援助,从而为其流程提供在线运营支持。但是,需要向流程利益相关者提供解释为什么预测给定流程执行以某种方式行事的原因。否则,他们将不太可能相信预测性监测技术,从而采用它。本文提出了一个预测分析框架,该框架还具有基于Shapley值的游戏理论的解释功能。该框架已在IBM Process采矿套件中实施,并为业务用户商业化。该框架已在现实生活事件数据上进行了测试,以评估预测的质量和相应的评估。特别是,已经执行了用户评估,以了解系统提供的解释是否可以使流程利益相关者可理解。
translated by 谷歌翻译
互动模拟使学生可以通过自己的探索来发现科学现象的基本原理。不幸的是,学生经常在这些环境中有效地学习。根据他们的预期表现对学生的互动数据进行分类,有可能实现自适应指导并因此改善学生的学习。该领域的先前研究主要集中于A-tosteriori分析或研究限于一个特定的预测模型和仿真。在本文中,我们研究了模型的质量和普遍性,以根据跨交互式仿真的学生的点击数据进行概念性理解的早期预测。我们首先通过他们的任务表现来衡量学生的概念理解。然后,我们建议一种新型的功能,该功能从ClickStream数据开始,既编码仿真的状态和学生执行的动作。我们最终建议将这些功能馈送到基于GRU的模型中,有或没有注意力进行预测。在两个不同的模拟上进行的实验和两个不同的人群表明,我们提出的模型的表现优于浅层学习基准,并更好地推广到不同的学习环境和人群。将注意力包括在模型中可以提高有效的查询。源代码可在GitHub(https://github.com/epfl-ml4ed/beerslaw-lab.git)上获得。
translated by 谷歌翻译
Course load analytics (CLA) inferred from LMS and enrollment features can offer a more accurate representation of course workload to students than credit hours and potentially aid in their course selection decisions. In this study, we produce and evaluate the first machine-learned predictions of student course load ratings and generalize our model to the full 10,000 course catalog of a large public university. We then retrospectively analyze longitudinal differences in the semester load of student course selections throughout their degree. CLA by semester shows that a student's first semester at the university is among their highest load semesters, as opposed to a credit hour-based analysis, which would indicate it is among their lowest. Investigating what role predicted course load may play in program retention, we find that students who maintain a semester load that is low as measured by credit hours but high as measured by CLA are more likely to leave their program of study. This discrepancy in course load is particularly pertinent in STEM and associated with high prerequisite courses. Our findings have implications for academic advising, institutional handling of the freshman experience, and student-facing analytics to help students better plan, anticipate, and prepare for their selected courses.
translated by 谷歌翻译
机器学习(ML)技术在教育方面越来越普遍,从预测学生辍学,到协助大学入学以及促进MOOC的兴起。考虑到这些新颖用途的快速增长,迫切需要调查ML技术如何支持长期以来的教育原则和目标。在这项工作中,我们阐明了这一复杂的景观绘制,以对教育专家的访谈进行定性见解。这些访谈包括对过去十年中著名应用ML会议上发表的ML教育(ML4ED)论文的深入评估。我们的中心研究目标是批判性地研究这些论文的陈述或暗示教育和社会目标如何与他们解决的ML问题保持一致。也就是说,技术问题的提出,目标,方法和解释结果与手头的教育问题保持一致。我们发现,在ML生命周期的两个部分中存在跨学科的差距,并且尤其突出:从教育目标和将预测转换为干预措施的ML问题的提出。我们使用这些见解来提出扩展的ML生命周期,这也可能适用于在其他领域中使用ML。我们的工作加入了越来越多的跨教育和ML研究的荟萃分析研究,以及对ML社会影响的批判性分析。具体而言,它填补了对机器学习的主要技术理解与与学生合作和政策合作的教育研究人员的观点之间的差距。
translated by 谷歌翻译
我们在数字世界中采取的每一步都会落后于我们行为的记录;数字足迹。研究表明,算法可以将这些数字足迹转化为精确的心理特征估计,包括人格特质,心理健康或情报。然而,AI产生这些见解的机制通常保持不透明。在本文中,我们展示了如何解释AI(XAI)可以帮助域专家和数据主体验证,问题和改进分类数字足迹的心理特征的模型。我们在来自金融交易数据的大五个人格预测(特征和方面)的范围内,详细说明了两个流行的XAI方法(规则提取和反事实解释)(n = 6,408)。首先,我们展示了全球规则提取在模型中标识的消费模式中如何阐明了最重要的人格,并讨论这些规则如何用于解释,验证和改进模型。其次,我们实施当地规则提取,以表明,由于其独特的财务行为,个人分配给个性课程,并且模型的预测信心与促进预测的特征数量之间存在积极的联系。我们的实验突出了全球和本地XAI方法的重要性。通过更好地了解预测模型如何工作,以及他们如何获得特定人的结果,Xai促进了一个世界的问责制,其中AI影响了世界各地数十亿人的生命。
translated by 谷歌翻译
尽管机器学习方法已在金融领域广泛使用,但在非常成功的学位上,这些方法仍然可以根据解释性,可比性和可重复性来定制特定研究和不透明。这项研究的主要目的是通过提供一种通用方法来阐明这一领域,该方法是调查 - 不合Snostic且可解释给金融市场从业人员,从而提高了其效率,降低了进入的障碍,并提高了实验的可重复性。提出的方法在两个自动交易平台组件上展示。也就是说,价格水平,众所周知的交易模式和一种新颖的2步特征提取方法。该方法依赖于假设检验,该假设检验在其他社会和科学学科中广泛应用,以有效地评估除简单分类准确性之外的具体结果。提出的主要假设是为了评估所选的交易模式是否适合在机器学习设置中使用。在整个实验中,我们发现在机器学习设置中使用所考虑的交易模式仅由统计数据得到部分支持,从而导致效果尺寸微不足道(反弹7- $ 0.64 \ pm 1.02 $,反弹11 $ 0.38 \ pm 0.98 $,并且篮板15- $ 1.05 \ pm 1.16 $),但允许拒绝零假设。我们展示了美国期货市场工具上的通用方法,并提供了证据表明,通过这种方法,我们可以轻松获得除传统绩效和盈利度指标之外的信息指标。这项工作是最早将这种严格的统计支持方法应用于金融市场领域的工作之一,我们希望这可能是更多研究的跳板。
translated by 谷歌翻译
目的:我们研究使用机器学习(ML)模型的可解释的累入预测,并在预测能力,稀疏性和公平性方面分析性能。与以前的作品不同,本研究列举了输出概率而不是二进制预测的可解释模型,并使用定量公平定义来评估模型。本研究还研究了模型是否可以横跨地理位置概括。方法:我们在佛罗里达州和肯塔基州的两个不同的刑事核查数据集上生成了黑盒和可解释的ML模型。我们将这些模型的预测性能和公平与目前用于司法系统中使用的两种方法进行了比较,以预测审前常规率:Arnold PSA和Compas。我们评估了所有模型的预测性能,可以在两次跨越两次预测六种不同类型犯罪的模型。结果:几种可解释的ML模型可以预测常规和黑盒ML模型,比Compas或Arnold PSA更准确。这些模型在实践中可能有用。类似于Arnold PSA,这些可解释模型中的一些可以作为一个简单的表格写入。其他可以使用一组可视化显示。我们的地理分析表明ML模型应分开培训,以便单独的位置并随时间更新。我们还为可​​解释模型提供了公平分析。结论:可解释的机器学习模型可以在预测准确性和公平性方面表现,也可以表现,也可以表现,也可以执行不可解释的方法和目前使用的风险评估尺度。机器学习模型对于单独培训,可以更准确地进行不同的位置,并保持最新。
translated by 谷歌翻译
It does not matter whether it is a job interview with Tech Giants, Wall Street firms, or a small startup; all candidates want to demonstrate their best selves or even present themselves better than they really are. Meanwhile, recruiters want to know the candidates' authentic selves and detect soft skills that prove an expert candidate would be a great fit in any company. Recruiters worldwide usually struggle to find employees with the highest level of these skills. Digital footprints can assist recruiters in this process by providing candidates' unique set of online activities, while social media delivers one of the largest digital footprints to track people. In this study, for the first time, we show that a wide range of behavioral competencies consisting of 16 in-demand soft skills can be automatically predicted from Instagram profiles based on the following lists and other quantitative features using machine learning algorithms. We also provide predictions on Big Five personality traits. Models were built based on a sample of 400 Iranian volunteer users who answered an online questionnaire and provided their Instagram usernames which allowed us to crawl the public profiles. We applied several machine learning algorithms to the uniformed data. Deep learning models mostly outperformed by demonstrating 70% and 69% average Accuracy in two-level and three-level classifications respectively. Creating a large pool of people with the highest level of soft skills, and making more accurate evaluations of job candidates is possible with the application of AI on social media user-generated data.
translated by 谷歌翻译
本文介绍了一种使用旨在解决现实世界应用中CDSS的低适用性和可扩展性问题的数据驱动的预测模型来构建一致和适用的临床决策支持系统(CDSS)的方法。该方法基于域特定和数据驱动的支持程序的三种特定于域和数据驱动的支持程序,该程序将被纳入临床业务流程,具有更高的信任和预测结果和建议的解释性。在考虑的三个阶段,监管策略,数据驱动模式和解释程序被集成,以实现与决策者的自然域特定的互动,具有智能决策支持焦点的连续缩小。该提出的方法能够实现更高水平的自动化,可扩展性和CDSS的语义解释性。该方法是在软件解决方案中实现的,并在T2DM预测中进行了测试,使我们能够改善已知的临床尺度(例如FindRisk),同时保持与现有应用程序类似的特定问题的推理界面。这种继承与三分阶段的方法一起提供了更高的解决方案兼容性,并导致数据驱动的解决方案在现实案件中的信任,有效和解释应用。
translated by 谷歌翻译
本文使用机器学习方法对建模用户行为进行建模的开放精算数学问题,以预测非寿命保险产品的购买意图。一家公司了解用户与其网站的互动是有价值的,因为它为消费者行为提供了丰富和个性化的洞察力。用户行为建模的大多数现有研究旨在解释或预测搜索引擎结果页面或在赞助搜索中估计点击率。这些模型基于关于网页的用户检测模式的概念和网页的项目表示。调查建模用户行为以预测商业网站的购买意图的问题,我们观察到用户的意图会产生高依赖,对用户如何在用户访问的不同网页的方式导航网站,什么样的网页用户互动,用户在每个网页上花了多少时间。灵感来自这些发现,我们提出了两种不同的方式代表用户会话的特征,导致了基于用户点击的购买预测的两个模型:一个基于馈送前向神经网络,另一个基于经常性神经网络。我们通过使用用户的人口统计特征将上述两种模型与模型进行比较,检查用户点击用户点击的歧视以预测购买意图。我们的实验结果表明,根据标准分类评估指标,我们的点击基础模型显着优于人口统计模型,并且基于用户点击的顺序表示的模型比基于点击特征工程的模型产生略大的性能。
translated by 谷歌翻译