输入管道,其摄取和转换输入数据,是培训机器学习(ML)模型的重要组成部分。然而,实现有效的输入管道有挑战性,因为它需要推理有关并行性,异步的推理和细粒度分析信息的可变性。我们对谷歌数据中心超过200万毫升工作的分析表明,大量模型培训工作可以从更快的输入数据管道中受益。与此同时,我们的分析表明,大多数工作都不饱和主机硬件,指向基于软件的瓶颈的方向。这些发现的动机,我们提出了水管工,一种用于在ML输入管道中找到瓶颈的工具。管道工使用可扩展和可解释的操作分析分析模型来自动调整Host资源约束下的并行性,预取和缓存。在五个代表性ML管道上,水管工可获得最多46倍的误配置管道的加速。通过自动化缓存,与最先进的调谐器相比,水管工获得超过40%的端到端加速。
translated by 谷歌翻译
制定了具有机器学习模拟(骆驼)项目的宇宙学和天体物理学,通过数千名宇宙的流体动力模拟和机器学习将宇宙学与天体物理学结合起来。骆驼包含4,233个宇宙学仿真,2,049个n-body和2,184个最先进的流体动力模拟,在参数空间中采样巨大的体积。在本文中,我们介绍了骆驼公共数据发布,描述了骆驼模拟的特性和由它们产生的各种数据产品,包括光环,次麦,银河系和空隙目录,功率谱,Bispectra,Lyman - $ \ Alpha $光谱,概率分布函数,光环径向轮廓和X射线光子列表。我们还释放了超过骆驼 - 山姆的数十亿个星系的目录:与Santa Cruz半分析模型相结合的大量N身体模拟。我们释放包含350多个Terabytes的所有数据,并包含143,922个快照,数百万光环,星系和摘要统计数据。我们提供有关如何访问,下载,读取和处理数据AT \ URL {https://camels.readthedocs.io}的进一步技术详细信息。
translated by 谷歌翻译
2019年,英国的移民和庇护室的上部法庭驳回了基于其他差异的生物识别系统产出的决定。在生物识别数据库中发现了庇护所寻求者的指纹,这与上诉人的账户相矛盾。法庭发现这一证据明确透明,否认庇护索赔。如今,生物识别系统的扩散正在围绕其政治,社会和道德意义塑造公众辩论。然而,虽然对移动控制的种族式使用这种技术的担忧一直在上升,但对生物识别行业的投资和创新正在增加大幅增加。此外,生物识别技术最近也已经采用了公平,以减轻生物识别学的偏见和歧视。然而,算法公平不能在破损或预期目的的情况下分配正义,这是为了区分,例如在边境部署的生物识别。在本文中,我们提供了最近关于生物识别公平性辩论的批判性阅读,并展示了其在机器学习和关键边界研究的公平研究中的局限性。在以前的公平演示中,我们证明了生物识别公平标准是数学上的互斥。然后,纸张继续验证说明公平的生物识别系统,通过从先前的作品中再现实验。最后,我们通过在边境的辩论中讨论生物识别性的公平性的政治。我们声称偏见和错误率对公民和寻求庇护者产生了不同的影响。公平已经在生物识别学室内黯然失色,专注于算法的人口偏见和伦理话语,而不是检查这些系统如何重现历史和政治不公正。
translated by 谷歌翻译
本文介绍了预测媒体难忘性的Mediaeval 2021,这是今年第4版的任务,因为短期和长期视频难忘性的预测仍然是一个具有挑战性的任务。在2021年,使用两个视频数据集:第一,TRECVID 2019视频到文本数据集的子集;其次,Memento10K数据集是为了提供探索交叉数据集泛化的机会。另外,介绍了基于脑电图(EEG)的预测导频子任务。在本文中,我们概述了任务的主要方面,并描述了参与者提交的数据集,评估指标和要求。
translated by 谷歌翻译
理解神经动力学的空间和时间特征之间的相互作用可以有助于我们对人脑中信息处理的理解。图形神经网络(GNN)提供了一种新的可能性,可以解释图形结构化信号,如在复杂的大脑网络中观察到的那些。在我们的研究中,我们比较不同的时空GNN架构,并研究他们复制在功能MRI(FMRI)研究中获得的神经活动分布的能力。我们评估GNN模型在MRI研究中各种场景的性能,并将其与VAR模型进行比较,目前主要用于定向功能连接分析。我们表明,即使当可用数据稀缺时,基于基于解剖学基板的局部功能相互作用,基于GNN的方法也能够鲁棒地规模到大型网络研究。通过包括作为信息衬底的解剖连接以进行信息传播,这种GNN还提供了关于指向连接性分析的多模阶视角,提供了研究脑网络中的时空动态的新颖可能性。
translated by 谷歌翻译
我们提出了一种基于学习的路径跟踪算法的光路构造方法,其迭代地优化和样本从我们称为时空高斯混合模型(SDMMS)。特别是,我们将事件发光近似为6美元的5美元的5美元,由$ k $ d-tree加速。使用相同的框架,我们将BSDFS近似为预先培训的$ N $ D混件,其中$ N $是BSDF参数的数量。这样的方法解决了路径指导模型中的两个主要挑战。首先,$ 5 $ D辐射表示自然捕获空间和方向尺寸之间的相关性。例如,这种相关性存在于视差和焦化中。其次,通过使用高斯的切线参数化,我们的时空混合物可以执行具有任意定向的BSDF的近似产品采样。现有模型仅能够通过上述混合组件的各向异性或者代表局部(正常对准)坐标的光阳场来执行此操作,这使得辐射场更难以学习。切线参数化的额外益处是,每个单独的高斯映射到固体靠近其质心的低失真的固体球体。我们的方法在具有小型局部灯具的场景中表现尤其好,该灯具在入射光辐射中引起高时空相关性。
translated by 谷歌翻译
演示攻击是对生物识别系统的经常性威胁,其中冒名顶替者试图绕过这些系统。人类经常使用背景信息作为视觉系统的上下文提示。然而,关于基于面部的系统,背景经常被丢弃,因为面部呈现攻击检测(PAD)模型主要用面部作物培训。这项工作介绍了两种设置中面板模型(包括多任务学习,对抗训练和动态帧选择)的比较研究:有和没有作物。结果表明,当图像中存在时,性能始终如一。所提出的多任务方法通过大型余量击败了玫瑰Youtu数据集的最先进的结果,其错误率为0.2%。此外,我们分析了Grad-Cam ++的模型预测,目的是调查模型对已知对人类检查有用的背景元素的程度。从这个分析来看,我们可以得出结论,背景线索在所有攻击中都不相关。因此,显示模型的能力仅在必要时利用背景信息。
translated by 谷歌翻译
来自Exoplanet转运的原始光线数据太复杂,无法胆量应用传统的异常检测方法。我们提出了一种架构,其估计与一对变形自身额外的主要传输和剩余偏差的潜在表示。我们使用两个制造的数据集显示,我们的异常传输残差的潜在表示比原始数据或传统变分性AutoEncoder的潜在代表更具可均衡的差异。然后,我们将方法应用于真实的Exoplanet Transit数据。我们的研究是第一个自动识别异常外延传输光线曲线。我们还释放了三个首次的数据集以实现进一步的研究。
translated by 谷歌翻译
预测任务标签和为其预测生成自由文本阐述的自律化模型可以实现与NLP系统更直观的交互。然而,这些模型目前正在接受大量人为的自由文本解释,每个任务都会阻碍更广泛的使用。我们建议使用少数培训例子研究更现实的自律化建立。我们出示2月 - 一个标准化的四个现有英语数据集和相关指标。我们通过2月份广泛探索自然语言提示来确定正确的提示方法。然后,通过使用此提示并缩放模型大小,我们证明了几次拍摄自合合理化的进展。我们展示了这项任务的完善房间仍然有充足的改进空间:人类注册人评估的生成解释的平均合理性最多为51%,而人类解释的合理性是76%。我们希望2月份与我们的拟议方法一起促使社区承担几次拍摄的自我合理化挑战。
translated by 谷歌翻译
人工智能将人工智能融入临床工作流程需要可靠且强大的模型。鲁棒性的主要特征是可重复性。在不评估模型重复性的情况下,给予分类性能很多,导致在实践中不可用的模型开发。在这项工作中,我们评估了在同一访问期间获得的同一患者的四种模型类型的可重复性。我们研究了三个医学图像分析任务的二进制,多级,序数和回归模型的性能:宫颈癌筛查,乳房密度估计和早产分类视网膜病变。此外,我们评估采样蒙特卡罗辍学预测在分类性能和可重复性上的测试时间的影响。利用Monte Carlo预测,为二元,多级和序数模型的所有任务的重复性显着提高,导致平均减少95%协议限额17%的分数。
translated by 谷歌翻译