过度拟合和概括是机器学习中的一个重要概念,因为只有对通用应用程序进行概括的模型才是有趣的。然而,一些学生难以通过讲座和练习来学习这个重要的概念。在本文中,我们描述了学生误解过度拟合的常见例子,并为可能的解决方案提供了建议。我们涵盖了学生对过度拟合,过度拟合解决方案的误解以及通常与过度拟合问题相混淆的实施错误。我们希望我们的论文可以有助于提高学生对这个重要主题的理解和讲座。
translated by 谷歌翻译
Student success models might be prone to develop weak spots, i.e., examples hard to accurately classify due to insufficient representation during model creation. This weakness is one of the main factors undermining users' trust, since model predictions could for instance lead an instructor to not intervene on a student in need. In this paper, we unveil the need of detecting and characterizing unknown unknowns in student success prediction in order to better understand when models may fail. Unknown unknowns include the students for which the model is highly confident in its predictions, but is actually wrong. Therefore, we cannot solely rely on the model's confidence when evaluating the predictions quality. We first introduce a framework for the identification and characterization of unknown unknowns. We then assess its informativeness on log data collected from flipped courses and online courses using quantitative analyses and interviews with instructors. Our results show that unknown unknowns are a critical issue in this domain and that our framework can be applied to support their detection. The source code is available at https://github.com/epfl-ml4ed/unknown-unknowns.
translated by 谷歌翻译
Covid-19是由新型冠状病毒(SARS-COV-2)引起的疾病,于2019年12月下旬首次在中国武汉出现。不久之后,该病毒在全球范围内传播,并于3月被世界卫生组织宣布为大流行病。 2020年。这造成了世界各地和美国的许多变化,包括向在线学习的教育转变。在本文中,我们试图了解Covid-19-19的大流行和在线学习的增加如何影响大学生的情感福祉。我们使用几种机器学习和统计模型来分析卢布尔雅那大学公共行政学院,斯洛文尼亚大学,与国际大学,其他高等教育机构和学生协会一起收集的数据。我们的结果表明,与学生的学术生活有关的特征对他们的情感健康产生了最大的影响。其他重要因素包括学生对大学和政府对大流行的处理以及学生的财务安全的满意。
translated by 谷歌翻译
知识追踪(KT)模型是一种流行的方法,可以通过以前的尝试来预测学生在实践问题上的未来表现。尽管在KT中进行了许多创新,但大多数模型在内,包括最先进的Deep KT(DKT)主要利用每个学生的响应是正确或不正确的,忽略了其内容。在这项工作中,我们提出了基于代码的深知识跟踪(Code-DKT),该模型使用注意机制自动提取并选择特定领域的代码功能来扩展DKT。我们比较了Code-DKT对贝叶斯和深度知识跟踪(BKT和DKT)的有效性,该数据集中有50名学生试图解决5个介绍性编程作业的学生。我们的结果表明,Code-DKT在5个任务中始终优于DKT的AUC 3.07-4.00%AUC,与DKT相对于其他最先进的域中总KT模型的改进是可比的。最后,我们通过一组案例研究来分析特定问题的性能,以证明何时以及如何改善代码DKT的预测。
translated by 谷歌翻译
海洋生态系统及其鱼类栖息地越来越重要,因为它们在提供有价值的食物来源和保护效果方面的重要作用。由于它们的偏僻且难以接近自然,因此通常使用水下摄像头对海洋环境和鱼类栖息地进行监测。这些相机产生了大量数字数据,这些数据无法通过当前的手动处理方法有效地分析,这些方法涉及人类观察者。 DL是一种尖端的AI技术,在分析视觉数据时表现出了前所未有的性能。尽管它应用于无数领域,但仍在探索其在水下鱼类栖息地监测中的使用。在本文中,我们提供了一个涵盖DL的关键概念的教程,该教程可帮助读者了解对DL的工作原理的高级理解。该教程还解释了一个逐步的程序,讲述了如何为诸如水下鱼类监测等挑战性应用开发DL算法。此外,我们还提供了针对鱼类栖息地监测的关键深度学习技术的全面调查,包括分类,计数,定位和细分。此外,我们对水下鱼类数据集进行了公开调查,并比较水下鱼类监测域中的各种DL技术。我们还讨论了鱼类栖息地加工深度学习的新兴领域的一些挑战和机遇。本文是为了作为希望掌握对DL的高级了解,通过遵循我们的分步教程而为其应用开发的海洋科学家的教程,并了解如何发展其研究,以促进他们的研究。努力。同时,它适用于希望调查基于DL的最先进方法的计算机科学家,以进行鱼类栖息地监测。
translated by 谷歌翻译
这是一门专门针对STEM学生开发的介绍性机器学习课程。我们的目标是为有兴趣的读者提供基础知识,以在自己的项目中使用机器学习,并将自己熟悉术语作为进一步阅读相关文献的基础。在这些讲义中,我们讨论受监督,无监督和强化学习。注释从没有神经网络的机器学习方法的说明开始,例如原理分析,T-SNE,聚类以及线性回归和线性分类器。我们继续介绍基本和先进的神经网络结构,例如密集的进料和常规神经网络,经常性的神经网络,受限的玻尔兹曼机器,(变性)自动编码器,生成的对抗性网络。讨论了潜在空间表示的解释性问题,并使用梦和对抗性攻击的例子。最后一部分致力于加强学习,我们在其中介绍了价值功能和政策学习的基本概念。
translated by 谷歌翻译
Deep learning has triggered the current rise of artificial intelligence and is the workhorse of today's machine intelligence. Numerous success stories have rapidly spread all over science, industry and society, but its limitations have only recently come into focus. In this perspective we seek to distil how many of deep learning's problem can be seen as different symptoms of the same underlying problem: shortcut learning. Shortcuts are decision rules that perform well on standard benchmarks but fail to transfer to more challenging testing conditions, such as real-world scenarios. Related issues are known in Comparative Psychology, Education and Linguistics, suggesting that shortcut learning may be a common characteristic of learning systems, biological and artificial alike. Based on these observations, we develop a set of recommendations for model interpretation and benchmarking, highlighting recent advances in machine learning to improve robustness and transferability from the lab to real-world applications. This is the preprint version of an article that has been published by Nature Machine Intelligence
translated by 谷歌翻译
背景信息:在过去几年中,机器学习(ML)一直是许多创新的核心。然而,包括在所谓的“安全关键”系统中,例如汽车或航空的系统已经被证明是非常具有挑战性的,因为ML的范式转变为ML带来完全改变传统认证方法。目的:本文旨在阐明与ML为基础的安全关键系统认证有关的挑战,以及文献中提出的解决方案,以解决它们,回答问题的问题如何证明基于机器学习的安全关键系统?'方法:我们开展2015年至2020年至2020年之间发布的研究论文的系统文献综述(SLR),涵盖了与ML系统认证有关的主题。总共确定了217篇论文涵盖了主题,被认为是ML认证的主要支柱:鲁棒性,不确定性,解释性,验证,安全强化学习和直接认证。我们分析了每个子场的主要趋势和问题,并提取了提取的论文的总结。结果:单反结果突出了社区对该主题的热情,以及在数据集和模型类型方面缺乏多样性。它还强调需要进一步发展学术界和行业之间的联系,以加深域名研究。最后,它还说明了必须在上面提到的主要支柱之间建立连接的必要性,这些主要柱主要主要研究。结论:我们强调了目前部署的努力,以实现ML基于ML的软件系统,并讨论了一些未来的研究方向。
translated by 谷歌翻译
本文探讨了大语言模型的自然语言生成能力,并应用于编程课程中常见的两种学习资源类型。使用OpenAI Codex作为大语言模型,我们创建编程练习(包括示例解决方案和测试用例)和代码说明,从定性和定量上评估这些练习。我们的结果表明,大多数自动生成的内容既新颖又明智,在某些情况下可以按原样使用。在创建练习时,我们发现仅通过提供关键字作为模型输入来影响编程概念和它们所包含的上下文主题非常容易。我们的分析表明,大规模生成机器学习模型是指导者的工具,尽管仍然需要进行一些监督以确保生成的内容的质量在传递给学生之前。我们进一步讨论了OpenAI Codex和类似工具对入门编程教育的含义,并强调了未来的研究流,这些研究流有可能提高教师和学生的教育体验质量。
translated by 谷歌翻译
We build new test sets for the CIFAR-10 and ImageNet datasets. Both benchmarks have been the focus of intense research for almost a decade, raising the danger of overfitting to excessively re-used test sets. By closely following the original dataset creation processes, we test to what extent current classification models generalize to new data. We evaluate a broad range of models and find accuracy drops of 3% -15% on CIFAR-10 and 11% -14% on ImageNet. However, accuracy gains on the original test sets translate to larger gains on the new test sets. Our results suggest that the accuracy drops are not caused by adaptivity, but by the models' inability to generalize to slightly "harder" images than those found in the original test sets.
translated by 谷歌翻译
2048 is a single-player stochastic puzzle game. This intriguing and addictive game has been popular worldwide and has attracted researchers to develop game-playing programs. Due to its simplicity and complexity, 2048 has become an interesting and challenging platform for evaluating the effectiveness of machine learning methods. This dissertation conducts comprehensive research on reinforcement learning and computer game algorithms for 2048. First, this dissertation proposes optimistic temporal difference learning, which significantly improves the quality of learning by employing optimistic initialization to encourage exploration for 2048. Furthermore, based on this approach, a state-of-the-art program for 2048 is developed, which achieves the highest performance among all learning-based programs, namely an average score of 625377 points and a rate of 72% for reaching 32768-tiles. Second, this dissertation investigates several techniques related to 2048, including the n-tuple network ensemble learning, Monte Carlo tree search, and deep reinforcement learning. These techniques are promising for further improving the performance of the current state-of-the-art program. Finally, this dissertation discusses pedagogical applications related to 2048 by proposing course designs and summarizing the teaching experience. The proposed course designs use 2048-like games as materials for beginners to learn reinforcement learning and computer game algorithms. The courses have been successfully applied to graduate-level students and received well by student feedback.
translated by 谷歌翻译
当代编码教育往往为学生提供开发具有用户交互和复杂动态系统的计划的任务,例如基于鼠标的游戏。在教学上引人注目的同时,没有现代的自主方法来提供反馈。值得注意的是,通过传统的单元测试,互动计划不可能等级。在本文中,我们正规化为互动计划提供反馈作为分类马尔可夫决策过程(MDP)的任务的挑战。每个学生的程序都完全指定了一个MDP,其中代理需要在合理的概括下运行和决定,如果输入MDP的动态和奖励模型应该被分类为正确或损坏。我们证明,通过在代理和自回归模型之间设计合作目标,我们可以使用代理从输入MDP采样差分轨迹,允许分类器确定成员资格:播放到等级。我们的方法使自动反馈系统能够进行交互式代码分配。我们将711,274个匿名学生提交的数据集发布到单个分配的单个分配,以支持未来的研究。
translated by 谷歌翻译
机器学习(ML)技术在教育方面越来越普遍,从预测学生辍学,到协助大学入学以及促进MOOC的兴起。考虑到这些新颖用途的快速增长,迫切需要调查ML技术如何支持长期以来的教育原则和目标。在这项工作中,我们阐明了这一复杂的景观绘制,以对教育专家的访谈进行定性见解。这些访谈包括对过去十年中著名应用ML会议上发表的ML教育(ML4ED)论文的深入评估。我们的中心研究目标是批判性地研究这些论文的陈述或暗示教育和社会目标如何与他们解决的ML问题保持一致。也就是说,技术问题的提出,目标,方法和解释结果与手头的教育问题保持一致。我们发现,在ML生命周期的两个部分中存在跨学科的差距,并且尤其突出:从教育目标和将预测转换为干预措施的ML问题的提出。我们使用这些见解来提出扩展的ML生命周期,这也可能适用于在其他领域中使用ML。我们的工作加入了越来越多的跨教育和ML研究的荟萃分析研究,以及对ML社会影响的批判性分析。具体而言,它填补了对机器学习的主要技术理解与与学生合作和政策合作的教育研究人员的观点之间的差距。
translated by 谷歌翻译
This study evaluated the ability of ChatGPT, a recently developed artificial intelligence (AI) agent, to perform high-level cognitive tasks and produce text that is indistinguishable from human-generated text. This capacity raises concerns about the potential use of ChatGPT as a tool for academic misconduct in online exams. The study found that ChatGPT is capable of exhibiting critical thinking skills and generating highly realistic text with minimal input, making it a potential threat to the integrity of online exams, particularly in tertiary education settings where such exams are becoming more prevalent. Returning to invigilated and oral exams could form part of the solution, while using advanced proctoring techniques and AI-text output detectors may be effective in addressing this issue, they are not likely to be foolproof solutions. Further research is needed to fully understand the implications of large language models like ChatGPT and to devise strategies for combating the risk of cheating using these tools. It is crucial for educators and institutions to be aware of the possibility of ChatGPT being used for cheating and to investigate measures to address it in order to maintain the fairness and validity of online exams for all students.
translated by 谷歌翻译
专家决策者开始依靠数据驱动的自动化代理来帮助他们提供各种任务。对于此合作执行正确,人类决策者必须具有何时以及不依赖代理人的何时和何时具有智力模式。在这项工作中,我们的目标是确保人工决策者学习代理商的优势和劣势的有效心理模型。为了实现这一目标,我们提出了一个基于示例的教学策略,人类在代理人的帮助下解决任务并尝试制定一组何时和不推迟的指导方针。我们提出了一种新颖的AI的心理模型的参数化,其在教学示例周围的当地地区应用最近的邻居规则。使用此模型,我们推出了选择代表教学集的近最优策略。我们验证了我们在使用人群工人的多跳问题回答任务中对教学战略的好处,并发现当工人从教学阶段绘制正确的教训时,他们的任务性能提高了,我们还在一组合成实验上验证了我们的方法。
translated by 谷歌翻译
Alphazero,Leela Chess Zero和Stockfish Nnue革新了计算机国际象棋。本书对此类引擎的技术内部工作进行了完整的介绍。该书分为四个主要章节 - 不包括第1章(简介)和第6章(结论):第2章引入神经网络,涵盖了所有用于构建深层网络的基本构建块,例如Alphazero使用的网络。内容包括感知器,后传播和梯度下降,分类,回归,多层感知器,矢量化技术,卷积网络,挤压网络,挤压和激发网络,完全连接的网络,批处理归一化和横向归一化和跨性线性单位,残留层,剩余层,过度效果和底漆。第3章介绍了用于国际象棋发动机以及Alphazero使用的经典搜索技术。内容包括minimax,alpha-beta搜索和蒙特卡洛树搜索。第4章展示了现代国际象棋发动机的设计。除了开创性的Alphago,Alphago Zero和Alphazero我们涵盖Leela Chess Zero,Fat Fritz,Fat Fritz 2以及有效更新的神经网络(NNUE)以及MAIA。第5章是关于实施微型α。 Shexapawn是国际象棋的简约版本,被用作为此的示例。 Minimax搜索可以解决六ap峰,并产生了监督学习的培训位置。然后,作为比较,实施了类似Alphazero的训练回路,其中通过自我游戏进行训练与强化学习结合在一起。最后,比较了类似α的培训和监督培训。
translated by 谷歌翻译
由于算法预测对人类的影响增加,模型解释性已成为机器学习(ML)的重要问题。解释不仅可以帮助用户了解为什么ML模型做出某些预测,还可以帮助用户了解这些预测如何更改。在本论文中,我们研究了从三个有利位置的ML模型的解释性:算法,用户和教学法,并为解释性问题贡献了一些新颖的解决方案。
translated by 谷歌翻译
现在,整个研究社区都可以广泛使用机器学习(ML),它促进了这些新兴的数学技术在广泛学科中的新型和引人注目的应用的扩散。在本文中,我们将重点介绍一个特定的案例研究:古人类学领域,该领域旨在根据生物学和文化证据理解人类的演变。正如我们将表明的那样,ML算法的易用性以及在人类学研究界的适当使用方面缺乏专业知识,导致了整个文献中出现的基本错误应用。结果不可靠的结果不仅破坏了将ML合法纳入人类学研究的努力,而且还会对我们的人类进化和行为过去产生潜在的理解。本文的目的是简要介绍古人类学中ML的某些方式;我们还为那些与该领域完全熟悉的人提供了一些基本ML算法的调查,而该领域仍在积极发展。我们讨论了一系列的错误,错误和违反正确的ML方法方案的行为,这些方法经常在人类学文献的积累体内出现令人不安。这些错误包括使用过时的算法和实践;不适当的火车/测试拆分,样本组成和文本解释;以及由于缺乏数据/代码共享以及随后对独立复制的限制而缺乏透明度。我们断言,扩大样本,共享数据和代码,重新评估同行评审的方法,以及最重要的是,开发包括ML专家在内的跨学科团队对于将ML在人类学中纳入ML的未来研究的进步都是必要的。
translated by 谷歌翻译
The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 3rd International Workshop on Reading Music Systems, held in Alicante on the 23rd of July 2021.
translated by 谷歌翻译
除了使用硬标签的标准监督学习外,通常在许多监督学习设置中使用辅助损失来改善模型的概括。例如,知识蒸馏增加了第二个教师模仿模型训练的损失,在该培训中,教师可能是一个验证的模型,可以输出比标签更丰富的分布。同样,在标记数据有限的设置中,弱标记信息以标签函数的形式使用。此处引入辅助损失来对抗标签函数,这些功能可能是基于嘈杂的规则的真实标签近似值。我们解决了学习以原则性方式结合这些损失的问题。我们介绍AMAL,该AMAL使用元学习在验证度量上学习实例特定的权重,以实现损失的最佳混合。在许多知识蒸馏和规则降解域中进行的实验表明,Amal在这些领域中对竞争基准的增长可显着。我们通过经验分析我们的方法,并分享有关其提供性能提升的机制的见解。
translated by 谷歌翻译