我们提出了一种自适应学习智能辅导系统,该系统使用基于模型的强化学习形式,将学习活动分配给学生。该模型经过数千名学生的轨迹培训,以最大程度地提高其运动完成率并继续在线学习,并自动调整自己的新活动。与学生进行的随机对照试验表明,与其他方法相比,我们的模型可提高较高的完成率,并显着改善学生的参与度。我们的方法是完全自动解锁学习经验个性化的新机会。
translated by 谷歌翻译
我们利用离线增强学习(RL)模型在现实世界中有预算限制的情况下进行连续的目标促销。在我们的应用程序中,移动应用程序旨在通过向客户发送现金奖金并在每个时间段内控制此类现金奖金的成本来促进客户保留。为了实现多任务目标,我们提出了预算限制的加强学习,以进行顺序促销(BCRLSP)框架,以确定要发送给用户的现金奖金的价值。我们首先找出目标策略和相关的Q值,这些Q值是使用RL模型最大化用户保留率的。然后添加线性编程(LP)模型以满足促销成本的限制。我们通过最大化从RL模型中汲取的动作的Q值来解决LP问题。在部署期间,我们将离线RL模型与LP模型相结合,以在预算约束下生成强大的策略。使用在线和离线实验,我们通过证明BCRLSP达到的长期客户保留率和比各种基线更低的成本来证明我们方法的功效。利用近乎实时的成本控制方法,提出的框架可以轻松地使用嘈杂的行为政策和/或满足灵活的预算约束。
translated by 谷歌翻译
作为一个重要的心理和社会实验,迭代的囚犯困境(IPD)将合作或缺陷作为原子行动视为选择。我们建议研究迭代的囚犯困境(IPD)游戏中在线学习算法的行为,在那里我们研究了整个强化学习剂:多臂匪徒,上下文的强盗和钢筋学习。我们根据迭代囚犯的困境的比赛进行评估,其中多个特工可以以顺序竞争。这使我们能够分析由多个自私的独立奖励驱动的代理所学到的政策的动态,还使我们研究了这些算法适合人类行为的能力。结果表明,考虑当前的情况做出决定是这种社会困境游戏中最糟糕的情况。陈述了有关在线学习行为和临床验证的倍数,以此作为将人工智能算法与人类行为及其在神经精神病疾病中的异常状态联系起来的努力。
translated by 谷歌翻译
在教育环境中进行随机实验提出了一个问题,即我们如何使用机器学习技术来改善教育干预措施。使用自适应实验中的汤普森采样(TS)(TS)等多臂匪徒(MAB)算法,即使在干预完成之前,也可以通过增加对最佳状态(ARM)的分配可能性来获得更好的结果的机会。这是比传统的A/B测试的优势,该测试可能会分配相等数量的学生为最佳和非最佳条件。问题是勘探探索权衡取舍。尽管自适应政策旨在收集足够的信息来分配更多的学生以可靠地提供更好的武器,但过去的工作表明,这可能还不够探索,无法就武器是否有所不同,得出可靠的结论。因此,在整个实验中提供额外的均匀随机(UR)探索是很有趣的。本文展示了一个真实的自适应实验,该实验是关于学生如何与教师每周的电子邮件提醒互动以建立时间管理习惯的。我们感兴趣的指标是打开电子邮件率,它跟踪由不同主题行的武器。这些是按照不同的分配算法传递的:ur,ts和我们确定为ts {\ dag} - 结合了TS和UR奖励以更新其先验者。我们强调了这些自适应算法的问题 - 在没有显着差异时可能会剥削手臂 - 并解决它们的原因和后果。未来的方向包括研究最佳臂的早期选择不是理想的情况以及自适应算法如何解决它们的情况。
translated by 谷歌翻译
到目前为止,大多数关于推荐系统的研究专注于通过促进相关和个性化内容维持长期用户参与和满足感。但是,评估这种内容的质量和可靠性仍然非常具有挑战性。在本文中,我们提出了FEBR(基于专家的建议框架),是评估在线平台上建议内容的质量的学徒学习框架。该框架在推荐评估环境中挖掘专家(假设可靠)的演示轨迹,以恢复未知的实用程序功能。此功能用于学习描述专家行为的最佳策略,然后在框架中使用,以提供高质量和个性化的建议。我们通过用户兴趣模拟环境(使用RECSIM)评估我们的解决方案的性能。我们模拟了上述专家政策下的互动,以进行视频推荐,并将其效率与标准推荐方法进行比较。结果表明,我们的方法在内容质量方面提供了显着的收益,由专家评估并由用户观察,同时保持与基线方法几乎相同的表格。
translated by 谷歌翻译
虚拟支持代理商已经普及,作为企业提供更好,更可访问的客户服务的一种方式。此域中的一些挑战包括模糊的用户查询以及更改支持主题和用户行为(非实用性)。但是,我们这样做可以访问用户提供的部分反馈(点击,调查和其他事件),这些反馈可以利用来改善用户体验。适应的学习技术,如上下文匪徒,是对这个问题设置的自然拟合。在本文中,我们讨论了Microsoft Virtual代理的上下文匪徒(CB)的实际实现。它包括基于神经线性匪徒(NLB)和基于多武装匪徒(MAB)集合的内容建议的意图消歧。我们的解决方案已部署到生产并改进了Microsoft虚拟代理的关键业务指标,由A / B实验确认。结果包括问题分辨率的相对增加12%,并且对人类运营商的升级相对减少超过4%。虽然我们目前的用例侧重于Intent消费歧义和支持机器人的上下文建议,但我们认为我们的方法可以扩展到其他域。
translated by 谷歌翻译
In an era of countless content offerings, recommender systems alleviate information overload by providing users with personalized content suggestions. Due to the scarcity of explicit user feedback, modern recommender systems typically optimize for the same fixed combination of implicit feedback signals across all users. However, this approach disregards a growing body of work highlighting that (i) implicit signals can be used by users in diverse ways, signaling anything from satisfaction to active dislike, and (ii) different users communicate preferences in different ways. We propose applying the recent Interaction Grounded Learning (IGL) paradigm to address the challenge of learning representations of diverse user communication modalities. Rather than taking a fixed, human-designed reward function, IGL is able to learn personalized reward functions for different users and then optimize directly for the latent user satisfaction. We demonstrate the success of IGL with experiments using simulations as well as with real-world production traces.
translated by 谷歌翻译
根据学生的知识水平提供适当的问题是个性化学习的必要条件。但是,它需要大量的手动努力来了解学生的知识状态并相应地提供最佳问题。为了解决这个问题,我们介绍了一个问题调度模型,可以使用强化学习(RL)有效地提高学生知识水平。我们所提出的方法首先使用知识跟踪(KT)模型来评估学生的概念级知识。鉴于预测的学生知识,基于RL的推荐人预测了每个问题的好处。通过课程范围限制和重复惩罚,推荐人在顺序选择问题之前,直到达到预定义的问题。在使用学生模拟器的实验环境中,这是每天20个问题的两周,所提出的方法建议的问题增加了21.3%的学生知识水平,优于专家设计的时间表基线,学生知识增加10%水平。
translated by 谷歌翻译
在线强化学习(RL)算法通常难以在复杂的人体面对应用中部署,因为它们可能会缓慢学习并且早期性能差。为了解决这个问题,我们介绍了一种结合人类洞察速度学习的实用算法。我们的算法,约束采样增强学习(CSRL)将现有域知识包含为RL策略的约束/限制。它需要多种潜在的政策限制,以保持稳健性,以便在利用有用的时击败个体限制,以便快速学习。鉴于基础RL学习算法(例如UCRL,DQN,Rainbow),我们提出了对消除方案的上下置信度,该方案利用了限制与其观察性能之间的关系,以便自适应地切换它们。我们将我们的算法用DQN型算法和UCRL作为基础算法,并在四种环境中评估我们的算法,包括基于实际数据的三个模拟器:建议,教育活动排序和HIV处理测序。在所有情况下,CSRL比基线更快地学习良好的政策。
translated by 谷歌翻译
深度加固学习在各种类型的游戏中使人类水平甚至超级人类性能。然而,学习所需的探测量通常很大。深度加强学习也具有超级性能,因为没有人类能够实现这种探索。为了解决这个问题,我们专注于\ Textit {Saspicing}策略,这是一种与现有优化算法的定性不同的方法。因此,我们提出了线性RS(LINR),其是一种令人满意的算法和风险敏感的满足(RS)的线性扩展,用于应用于更广泛的任务。 RS的概括提供了一种算法,可以通过采用现有优化算法的不同方法来减少探索性操作的体积。 Linrs利用线性回归和多字符分类来线性地近似于RS计算所需的动作选择的动作值和比例。我们的实验结果表明,与上下文强盗问题中的现有算法相比,Linrs减少了探索和运行时间的数量。这些结果表明,满足算法的进一步概括对于复杂的环境可能是有用的,包括要用深增强学习处理的环境。
translated by 谷歌翻译
建立可以探索开放式环境的自主机器,发现可能的互动,自主构建技能的曲目是人工智能的一般目标。发展方法争辩说,这只能通过可以生成,选择和学习解决自己问题的自主和本质上动机的学习代理人来实现。近年来,我们已经看到了发育方法的融合,特别是发展机器人,具有深度加强学习(RL)方法,形成了发展机器学习的新领域。在这个新域中,我们在这里审查了一组方法,其中深入RL算法训练,以解决自主获取的开放式曲目的发展机器人问题。本质上动机的目标条件RL算法训练代理商学习代表,产生和追求自己的目标。自我生成目标需要学习紧凑的目标编码以及它们的相关目标 - 成就函数,这导致与传统的RL算法相比,这导致了新的挑战,该算法设计用于使用外部奖励信号解决预定义的目标集。本文提出了在深度RL和发育方法的交叉口中进行了这些方法的类型,调查了最近的方法并讨论了未来的途径。
translated by 谷歌翻译
本文介绍了寻求信息(是)任务,概念和算法的信息重新分类。拟议的分类系统提供了新的维度,以研究寻求任务和方法的信息。新尺寸包括搜索迭代,搜索目标类型和程序的数量,以实现这些目标。寻求任务的信息沿着这些尺寸呼叫合适的计算解决方案的差异。然后,该文章评论了符合每个新类别的机器学习解决方案。该论文结束了对系统的评估活动进行了审查。
translated by 谷歌翻译
This paper surveys the eld of reinforcement learning from a computer-science perspective. It is written to be accessible to researchers familiar with machine learning. Both the historical basis of the eld and a broad selection of current work are summarized. Reinforcement learning is the problem faced by an agent that learns behavior through trial-and-error interactions with a dynamic environment. The work described here has a resemblance to work in psychology, but di ers considerably in the details and in the use of the word \reinforcement." The paper discusses central issues of reinforcement learning, including trading o exploration and exploitation, establishing the foundations of the eld via Markov decision theory, learning from delayed reinforcement, constructing empirical models to accelerate learning, making use of generalization and hierarchy, and coping with hidden state. It concludes with a survey of some implemented systems and an assessment of the practical utility of current methods for reinforcement learning.
translated by 谷歌翻译
2048 is a single-player stochastic puzzle game. This intriguing and addictive game has been popular worldwide and has attracted researchers to develop game-playing programs. Due to its simplicity and complexity, 2048 has become an interesting and challenging platform for evaluating the effectiveness of machine learning methods. This dissertation conducts comprehensive research on reinforcement learning and computer game algorithms for 2048. First, this dissertation proposes optimistic temporal difference learning, which significantly improves the quality of learning by employing optimistic initialization to encourage exploration for 2048. Furthermore, based on this approach, a state-of-the-art program for 2048 is developed, which achieves the highest performance among all learning-based programs, namely an average score of 625377 points and a rate of 72% for reaching 32768-tiles. Second, this dissertation investigates several techniques related to 2048, including the n-tuple network ensemble learning, Monte Carlo tree search, and deep reinforcement learning. These techniques are promising for further improving the performance of the current state-of-the-art program. Finally, this dissertation discusses pedagogical applications related to 2048 by proposing course designs and summarizing the teaching experience. The proposed course designs use 2048-like games as materials for beginners to learn reinforcement learning and computer game algorithms. The courses have been successfully applied to graduate-level students and received well by student feedback.
translated by 谷歌翻译
Deep reinforcement learning algorithms have succeeded in several challenging domains. Classic Online RL job schedulers can learn efficient scheduling strategies but often takes thousands of timesteps to explore the environment and adapt from a randomly initialized DNN policy. Existing RL schedulers overlook the importance of learning from historical data and improving upon custom heuristic policies. Offline reinforcement learning presents the prospect of policy optimization from pre-recorded datasets without online environment interaction. Following the recent success of data-driven learning, we explore two RL methods: 1) Behaviour Cloning and 2) Offline RL, which aim to learn policies from logged data without interacting with the environment. These methods address the challenges concerning the cost of data collection and safety, particularly pertinent to real-world applications of RL. Although the data-driven RL methods generate good results, we show that the performance is highly dependent on the quality of the historical datasets. Finally, we demonstrate that by effectively incorporating prior expert demonstrations to pre-train the agent, we short-circuit the random exploration phase to learn a reasonable policy with online training. We utilize Offline RL as a \textbf{launchpad} to learn effective scheduling policies from prior experience collected using Oracle or heuristic policies. Such a framework is effective for pre-training from historical datasets and well suited to continuous improvement with online data collection.
translated by 谷歌翻译
智能辅导系统的研究一直在探索以数据驱动的方式提供有效的适应性帮助。尽管在学生寻求帮助时已经做了很多工作来提供自适应帮助,但他们可能不会最佳地寻求帮助。这导致人们对积极的适应性援助的兴趣日益加剧,在这种援助的情况下,导师在预测斗争或非生产力的情况下提供了未经请求的援助。确定何时以及是否提供个性化支持是一个众所周知的挑战,称为援助困境。在开放式领域中解决这一难题特别具有挑战性,在开放式领域,可以有几种解决问题的方法。研究人员已经探索了确定何时主动帮助学生的方法,但是这些方法中很少有人考虑使用提示。在本文中,我们提出了一种新颖的数据驱动方法,以结合学生在预测他们的帮助需求时的提示。我们探索了它在智能导师中的影响,该导师涉及逻辑证明的开放式且结构良好的领域。我们提出了一项对照研究,以根据纳入学生提示的帮助的预测来调查自适应提示政策的影响。我们展示了经验证据,以支持这样的政策可以为学生节省大量的培训时间,并与没有主动干预的对照相比,可以改善后测试结果。我们还表明,纳入学生的提示可以显着提高适应性提示政策在预测学生的帮助方面的功效,从而降低培训的非生产力,减少可能的帮助避免,并增加可能的帮助适应性(在可能会在可能会获得可能会得到的情况下获得更高的机会,需要)。我们以有关该方法受益的领域的建议以及采用要求。
translated by 谷歌翻译
Thompson sampling is one of oldest heuristic to address the exploration / exploitation trade-off, but it is surprisingly unpopular in the literature. We present here some empirical results using Thompson sampling on simulated and real data, and show that it is highly competitive. And since this heuristic is very easy to implement, we argue that it should be part of the standard baselines to compare against.
translated by 谷歌翻译
移动通知系统在各种应用程序中起着重要作用,以通信,向用户发送警报和提醒,以告知他们有关新闻,事件或消息的信息。在本文中,我们将近实时的通知决策问题制定为马尔可夫决策过程,在该过程中,我们对奖励中的多个目标进行了优化。我们提出了一个端到端的离线增强学习框架,以优化顺序通知决策。我们使用基于保守的Q学习的双重Q网络方法来应对离线学习的挑战,从而减轻了分配转移问题和Q值高估。我们说明了完全部署的系统,并通过离线和在线实验证明了拟议方法的性能和好处。
translated by 谷歌翻译
在这项工作中,我们提出了一种初步调查一种名为DYNA-T的新算法。在钢筋学习(RL)中,规划代理有自己的环境表示作为模型。要发现与环境互动的最佳政策,代理商会收集试验和错误时尚的经验。经验可用于学习更好的模型或直接改进价值函数和政策。通常是分离的,Dyna-Q是一种混合方法,在每次迭代,利用真实体验更新模型以及值函数,同时使用模拟数据从其模型中的应用程序进行行动。然而,规划过程是计算昂贵的并且强烈取决于国家行动空间的维度。我们建议在模拟体验上构建一个上置信树(UCT),并在在线学习过程中搜索要选择的最佳动作。我们证明了我们提出的方法对来自Open AI的三个测试平台环境的一系列初步测试的有效性。与Dyna-Q相比,Dyna-T通过选择更强大的动作选择策略来优于随机环境中的最先进的RL代理。
translated by 谷歌翻译
多臂匪徒(MAB)提供了一种原则性的在线学习方法,以达到探索和剥削之间的平衡。由于表现出色和反馈学习低,没有学习在多种情况下采取行动,因此多臂匪徒在诸如推荐系统等应用程序中引起了广泛的关注。同样,在推荐系统中,协作过滤(CF)可以说是推荐系统中最早,最具影响力的方法。至关重要的是,新用户和不断变化的推荐项目池是推荐系统需要解决的挑战。对于协作过滤,经典方法是训练模型离线,然后执行在线测试,但是这种方法无法再处理用户偏好的动态变化,即所谓的冷启动。那么,如何在没有有效信息的情况下有效地向用户推荐项目?为了解决上述问题,已经提出了一个基于多臂强盗的协作过滤推荐系统,名为BanditMF。 BANDITMF旨在解决多军强盗算法和协作过滤中的两个挑战:(1)如何在有效信息稀缺的条件下解决冷启动问题以进行协作过滤,(2)强大社会关系域中的强盗算法问题是由独立估计与每个用户相关的未知参数并忽略用户之间的相关性引起的。
translated by 谷歌翻译