本文与社交网络上的在线有针对性广告有关。我们解决的主要技术任务是估计用户对的激活概率,这可以量化一个用户对购买决策的影响的影响。这是一项具有挑战性的任务,因为一个营销事件通常涉及多种产品的多种营销活动/策略。在本文中,我们提出了我们认为是第一个基于张量的在线广告上的基于张量的上下文强盗框架。该拟议的框架旨在以多模式张量的形式适应任何数量的特征向量,从而使以统一的方式捕获与用户偏好,产品和广告系列策略可能存在的异质性。为了处理张量模式的相互依赖性,我们引入了具有平均场近似值的在线变分算法。我们从经验上确认,提出的Tensorucb算法在影响基准比基准的影响最大化任务方面取得了重大改进,这归因于其捕获用户产品异质性的能力。
translated by 谷歌翻译
In this work, we compare different neural topic modeling methods in learning the topical propensities of different psychiatric conditions from the psychotherapy session transcripts parsed from speech recordings. We also incorporate temporal modeling to put this additional interpretability to action by parsing out topic similarities as a time series in a turn-level resolution. We believe this topic modeling framework can offer interpretable insights for the therapist to optimally decide his or her strategy and improve psychotherapy effectiveness.
translated by 谷歌翻译
与传统的时间序列不同,人类决策的动作序列通常涉及许多认知过程,如信仰,欲望,意图和心理理论,即其他人在思考。这使得预测人类决策使得妥善治疗依据潜在的心理机制。我们建议基于长期短期内存网络(LSTM)使用经常性神经网络架构,以预测人类受试者在其决策中的每一步中采取的行动的时间序列,这是在本研究中的第一次应用这些方法领域。在这项研究中,我们将迭代囚犯困境的8个发表文献中的人类数据整理,包括168,386个个别决定,并将它们的后处理到8,257个行为轨迹,每个球员都有9个动作。同样,我们从10种不同公开的IOWA赌博任务实验与健康人类受试者进行了617个行动的轨迹。我们培训我们的预测网络,从这些出版的人类决策心理实验的行为数据上,并展示了在最先进的方法中展示了预测人类决策在诸如爱荷华州的单一代理场景中的人工决策轨迹赌博任务和多代理场景,如迭代囚犯的困境。在预测中,我们观察到,顶部表演者的权重倾向于具有更广泛的分布,并且LSTM网络中的更大偏差,这表明可能对每个组采用的策略分配的可能解释。
translated by 谷歌翻译
对抗性扰动对于证明深度学习模型的鲁棒性至关重要。通用的对抗扰动(UAP)可以同时攻击多个图像,因此提供了更统一的威胁模型,从而避免了图像攻击算法。但是,当从不同的图像源绘制图像时(例如,具有不同的图像分辨率)时,现有的UAP生成器不发达。在图像来源的真实普遍性方面,我们将UAP生成的新颖看法是一个定制的几个实例,它利用双杆优化和学习优化的(L2O)技术(L2O)技术,以提高攻击成功率(ASR)(ASR) )。我们首先考虑流行模型不可知的元学习(MAML)框架,以将UAP生成器元素进行。但是,我们看到MAML框架并未直接提供跨图像源的通用攻击,从而要求我们将其与L2O的另一个元学习框架集成在一起。元学习UAP发电机(i)的最终方案的性能(ASR高50%)比预计梯度下降等基线的方案(II)比香草L2O和MAML框架的性能更好(37%)(当适用),(iii)能够同时处理不同受害者模型和图像数据源的UAP生成。
translated by 谷歌翻译
作为一个重要的心理和社会实验,迭代的囚犯困境(IPD)将合作或缺陷作为原子行动视为选择。我们建议研究迭代的囚犯困境(IPD)游戏中在线学习算法的行为,在那里我们研究了整个强化学习剂:多臂匪徒,上下文的强盗和钢筋学习。我们根据迭代囚犯的困境的比赛进行评估,其中多个特工可以以顺序竞争。这使我们能够分析由多个自私的独立奖励驱动的代理所学到的政策的动态,还使我们研究了这些算法适合人类行为的能力。结果表明,考虑当前的情况做出决定是这种社会困境游戏中最糟糕的情况。陈述了有关在线学习行为和临床验证的倍数,以此作为将人工智能算法与人类行为及其在神经精神病疾病中的异常状态联系起来的努力。
translated by 谷歌翻译
通常基于其一致行为和性能来评估人工行为代理,以便在环境中采取连续行动,以最大限度地提高累计奖励的一些概念。然而,现实生活中的人为决策通常涉及不同的策略和行为轨迹,这导致了同样的经验结果。通过各种神经系统和精神病疾病的临床文献激励,我们在此提出了一种更通用和灵活的参数框架,用于连续决策,涉及双流奖励处理机制。我们证明,该框架是灵活性的并且统一足以融合跨越多武装匪徒(MAB),上下文匪徒(CB)和加强学习(RL)的问题,该问题分解了不同级别的顺序决策过程。灵感来自于已知的奖励处理许多精神障碍的异常,我们的临床启发代理商在特定奖励分配的模拟任务中表现出有趣的行为轨迹和比较性能,这是一个捕获赌博任务中的人为决策的现实世界数据集,以及Pacman游戏在终身学习环境中跨越不同的奖励保单。
translated by 谷歌翻译