语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译
强大的深度学习技术的发展为社会和个人带来了一些负面影响。一个这样的问题是假媒体的出现。为了解决这个问题,我们组织了可信赖的媒体挑战(TMC)来探讨人工智能(AI)如何利用如何打击假媒体。我们与挑战一起发布了一个挑战数据集,由4,380张假和2,563个真实视频组成。所有这些视频都伴随着Audios,采用不同的视频和/或音频操作方法来生产不同类型的假媒体。数据集中的视频具有各种持续时间,背景,照明,最小分辨率为360p,并且可能包含模拟传输误差和不良压缩的扰动。我们还开展了用户学习,以展示所作数据集的质量。结果表明,我们的数据集具有有希望的质量,可以在许多情况下欺骗人类参与者。
translated by 谷歌翻译
超声诊断甲状腺结节的机器学习(ML)是一个活跃的研究领域。但是,ML工具需要大型,标签良好的数据集,其策划是耗时的和劳动密集型的。我们研究的目的是开发和测试一种基于学习的工具,以促进和自动化甲状腺结节的数据注释过程;我们命名了我们的工具Multistep自动数据标记过程(MADLAP)。 Madlap旨在获取多个输入,包括病理学报告,超声图像和放射学报告。使用多个阶梯模块,包括基于规则的自然语言处理,基于深度学习的成像分割和光学特征识别,MADLAP自动识别了特定甲状腺结节的图像,并正确分配了病理标签。该模型是使用我们卫生系统中的378名患者组成的训练组开发的,并在另一组93例患者中进行了测试。两组的地面真相是由经验丰富的放射科医生选择的。使用测试集测量的性能指标,包括产量(模型产生的标记图像数量)和精度(正确的百分比)。 Madlap的产量为63%,精度为83%。随着输入数据穿过每个模块的移动,产量逐渐增加,同时精确度达到了峰值。错误分析表明,来自某些检查地点的输入的精度(40%)低于其他站点(90%,100%)。 Madlap成功地创建了甲状腺结节标记的超声图像的策划数据集。虽然准确,但在试图自动从异质来源标记放射学图像时,Madlap的相对次优率暴露了一些挑战。图像策划和注释的复杂任务可以自动化,从而使较大的数据集丰富用于机器学习开发。
translated by 谷歌翻译
数值验证是机器学习研究的核心,因为它允许评估新方法的实际影响,并确认理论和实践之间的一致性。然而,该领域的快速发展构成了一些挑战:研究人员面临着大量的方法来比较,有限的透明度和最佳实践的共识以及乏味的重新实施工作。结果,验证通常是非常部分的,这可能会导致错误的结论,从而减慢研究的进展。我们提出了Benchopt,这是一个协作框架,旨在在跨编程语言和硬件体系结构的机器学习中自动化,复制和发布优化基准。 Benchopt通过提供用于运行,共享和扩展实验的现成工具来简化社区的基准测试。为了展示其广泛的可用性,我们在三个标准学习任务上展示基准:$ \ ell_2 $ regulaine的逻辑回归,套索和RESNET18用于图像分类的培训。这些基准强调了关键的实际发现,这些发现对这些问题的最新问题更加细微,这表明在实际评估中,魔鬼在细节上。我们希望Benchopt能在社区中促进合作工作,从而改善研究结果的可重复性。
translated by 谷歌翻译
全球抗菌耐药性(AMR)的增加是对人类健康的严重威胁。为了避免AMR的传播,快速可靠的诊断工具可以促进最佳的抗生素管理。在这方面,拉曼光谱学有望在一步中快速标记和无培养物鉴定以及抗菌敏感性测试(AST)。但是,尽管许多基于拉曼的细菌识别和AST研究表现出了令人印象深刻的结果,但仍必须解决一些缺点。为了弥合概念验证研究和临床应用之间的差距,我们与新的数据增强算法相结合开发了机器学习技术,以快速鉴定最小制备的细菌表型和甲氧西林抗甲氧西林(MR)的区别(MR)的区别甲氧西林敏感(MS)细菌。为此,我们为细菌的超光谱拉曼图像实施了光谱变压器模型。我们表明,我们的模型在精度和训练时间方面都超过了许多分类问题的标准卷积神经网络模型。对于六种MR-MS细菌物种,我们在数据集中达到了超过96美元的分类精度,该数据集由15个不同类别和95.6 $ \%$分类精度。更重要的是,我们的结果仅使用快速,易于生产的培训和测试数据获得
translated by 谷歌翻译
我们提出了世界价值函数(WVFS),这是一种面向目标的一般价值函数,它代表了如何不仅要解决给定任务,还代表代理环境中的任何其他目标任务。这是通过将代理装备内部目标空间定义为经历终端过渡的所有世界状态来实现的。然后,代理可以修改标准任务奖励以定义其自己的奖励功能,事实证明,它可以驱动其学习如何实现所有可触及的内部目标,以及在当前任务中的价值。我们在学习和计划的背景下展示了WVF的两个关键好处。特别是,给定有学习的WVF,代理可以通过简单地估计任务的奖励功能来计算新任务中的最佳策略。此外,我们表明WVF还隐式编码环境的过渡动力学,因此可以用于执行计划。实验结果表明,WVF可以比常规价值功能更快地学习,而它们的推断环境动态的能力可用于整合学习和计划方法以进一步提高样本效率。
translated by 谷歌翻译
瀑布推荐系统(RS)是移动应用程序中RS的流行形式,是推荐的项目流,这些项目由连续页面组成,可以通过滚动浏览。在Waterfall RS中,当用户完成浏览页面时,Edge(例如,手机)将向Cloud Server发送请求,以获取新的建议页面,称为分页请求机制。 RSS通常将大量项目放入一页中,以减少众多分页请求中的过度资源消耗,但是,这将降低RSS根据用户的实时兴趣及时续订建议的能力,并导致贫穷的用户。经验。直观地,在页面内插入其他请求以更新频率的建议可以减轻问题。但是,以前的尝试,包括非自适应策略(例如,统一插入请求)最终会导致资源过度消费。为此,我们设想了一项名为智能请求策略设计(IRSD)的Edge Intelligence的新学习任务。它旨在通过根据用户的实时意图确定请求插入的适当情况来提高瀑布RSS的有效性。此外,我们提出了一种新的自适应请求插入策略的范式,名为基于Uplift的On-Ending Smart请求框架(AdareQuest)。 AdareQuest 1)通过将实时行为与基于基于注意力的神经网络相匹配的历史兴趣来捕获用户意图的动态变化。 2)估计根据因果推理插入的请求带来的用户购买的反事实提升。 3)通过在在线资源约束下最大化效用功能来确定最终请求插入策略。我们在离线数据集和在线A/B测试上进行了广泛的实验,以验证AdareQuest的有效性。
translated by 谷歌翻译
我们提出了单变量分布算法(EDA)的一般表述。它自然结合了三个经典的单变量EDA \ emph {紧凑型遗传算法},\ emph {Univariate边际分布算法}和\ emph {supph {supper intermag emph resteration-min Ant System} with Max-min Ant System}最好的更新。我们对现有算法的统一描述允许对这些算法进行统一分析;我们通过提供对遗传漂移的分析来证明这一点,该分析立即为上述四种算法提供了现有结果。我们的一般模型还包括比现有模型更有效的EDA,并且在我们为Onemax和Leadings基准测试时可能不难找到这些EDA。
translated by 谷歌翻译
最小化能量的动力系统在几何和物理学中无处不在。我们为GNN提出了一个梯度流框架,其中方程遵循可学习能量的最陡峭下降的方向。这种方法允许从多粒子的角度来解释GNN的演变,以通过对称“通道混合”矩阵的正和负特征值在特征空间中学习吸引力和排斥力。我们对溶液进行光谱分析,并得出结论,梯度流量图卷积模型可以诱导以图高频为主导的动力学,这对于异性数据集是理想的。我们还描述了对常见GNN体系结构的结构约束,从而将其解释为梯度流。我们进行了彻底的消融研究,以证实我们的理论分析,并在现实世界同质和异性数据集上显示了简单和轻量级模型的竞争性能。
translated by 谷歌翻译
图像取证中的一项常见任务是检测剪接图像,其中多个源图像组成一个输出图像。大多数当前最佳性能的剪接探测器都利用高频伪像。但是,在图像受到强大的压缩后,大多数高频伪像不再可用。在这项工作中,我们探索了一种剪接检测的替代方法,该方法可能更适合于野外图像,但要受到强烈的压缩和下采样的影响。我们的建议是建模图像的颜色形成。颜色的形成很大程度上取决于场景对象的规模的变化,因此依赖于高频伪像。我们学到了一个深度度量空间,一方面对照明颜色和摄像机的白点估计敏感,但另一方面对物体颜色的变化不敏感。嵌入空间中的大距离表明两个图像区域源于不同的场景或不同的相机。在我们的评估中,我们表明,所提出的嵌入空间的表现优于受到强烈压缩和下采样的图像的最新状态。我们在另外两个实验中确认了度量空间的双重性质,即既表征采集摄像头和场景发光颜色。因此,这项工作属于基于物理和统计取证的交集,双方都受益。
translated by 谷歌翻译