By transferring knowledge from large, diverse, task-agnostic datasets, modern machine learning models can solve specific downstream tasks either zero-shot or with small task-specific datasets to a high level of performance. While this capability has been demonstrated in other fields such as computer vision, natural language processing or speech recognition, it remains to be shown in robotics, where the generalization capabilities of the models are particularly critical due to the difficulty of collecting real-world robotic data. We argue that one of the keys to the success of such general robotic models lies with open-ended task-agnostic training, combined with high-capacity architectures that can absorb all of the diverse, robotic data. In this paper, we present a model class, dubbed Robotics Transformer, that exhibits promising scalable model properties. We verify our conclusions in a study of different model classes and their ability to generalize as a function of the data size, model size, and data diversity based on a large-scale data collection on real robots performing real-world tasks. The project's website and videos can be found at robotics-transformer.github.io
translated by 谷歌翻译
Energy consumption in buildings, both residential and commercial, accounts for approximately 40% of all energy usage in the U.S., and similar numbers are being reported from countries around the world. This significant amount of energy is used to maintain a comfortable, secure, and productive environment for the occupants. So, it is crucial that the energy consumption in buildings must be optimized, all the while maintaining satisfactory levels of occupant comfort, health, and safety. Recently, Machine Learning has been proven to be an invaluable tool in deriving important insights from data and optimizing various systems. In this work, we review the ways in which machine learning has been leveraged to make buildings smart and energy-efficient. For the convenience of readers, we provide a brief introduction of several machine learning paradigms and the components and functioning of each smart building system we cover. Finally, we discuss challenges faced while implementing machine learning algorithms in smart buildings and provide future avenues for research at the intersection of smart buildings and machine learning.
translated by 谷歌翻译
Finetuning language models on a collection of datasets phrased as instructions has been shown to improve model performance and generalization to unseen tasks. In this paper we explore instruction finetuning with a particular focus on (1) scaling the number of tasks, (2) scaling the model size, and (3) finetuning on chain-of-thought data. We find that instruction finetuning with the above aspects dramatically improves performance on a variety of model classes (PaLM, T5, U-PaLM), prompting setups (zero-shot, few-shot, CoT), and evaluation benchmarks (MMLU, BBH, TyDiQA, MGSM, open-ended generation). For instance, Flan-PaLM 540B instruction-finetuned on 1.8K tasks outperforms PALM 540B by a large margin (+9.4% on average). Flan-PaLM 540B achieves state-of-the-art performance on several benchmarks, such as 75.2% on five-shot MMLU. We also publicly release Flan-T5 checkpoints, which achieve strong few-shot performance even compared to much larger models, such as PaLM 62B. Overall, instruction finetuning is a general method for improving the performance and usability of pretrained language models.
translated by 谷歌翻译
恢复面部和文档图像的检测是一项重要的法医任务。经过深入的学习,面部抗散热器(FAS)和重新接收的文件检测的表现得到了显着改善。但是,对于法医提示较弱的样品,表演尚不令人满意。可以量化法医提示的数量,以允许可靠的法医结果。在这项工作中,我们提出了一个放大性评估网络,以量化质疑样品的允许性。在实际重新接收检测过程之前,将拒绝低固定性样品,以提高重新接收检测系统的效率。我们首先提取与图像质量评估和法医任务相关的判定性特征。通过利用图像质量和法医功能的法医应用的域知识,我们定义了特定于任务的规定类别和特征空间中的初始化位置。根据提取的功能和定义的中心,我们使用跨凝结损失训练提出的法医评估网络(FANET),并使用基于动量的更新方法更新中心。我们将受过训练的粉丝与实际重新接收检测方案相结合,并在抗spofing和重新接收的文档检测任务中。实验结果表明,对于基于CNN的FAS方案而言,狂热者通过拒绝最低30%放大性得分的样本,将EERS从Rose to IDIAP方案下的ERS降低到19.23%。在被拒绝的样品中,FAS方案的性能很差,EER高达56.48%。在FAS中的最新方法和重新接收的文档检测任务中,已经观察到了拒绝低差异性样品的类似性能。据我们所知,这是评估重新捕获文档图像并提高系统效率的第一份工作。
translated by 谷歌翻译
面对抗泡沫(FAS)和伪造探测在保护面部生物识别系统免受演示攻击(PAS)和恶性数字操作(例如,Deepfakes)中的生物识别系统中起着至关重要的作用。尽管大规模数据和强大的深层模型有希望的表现,但现有方法的概括问题仍然是一个空旷的问题。最近的大多数方法都集中在1)单峰视觉外观或生理学(即远程光摄影学(RPPG))线索;和2)用于FAS或面部伪造检测的分离特征表示。一方面,单峰外观和RPPG功能分别容易受到高保真的面孔3D面膜和视频重播攻击的影响,从而激发了我们设计可靠的多模式融合机制,用于广义面部攻击检​​测。另一方面,FAS和面部伪造探测任务(例如,定期的RPPG节奏和BONAFIDE的香草外观)都有丰富的共同特征,提供了可靠的证据来设计联合FAS和面部伪造探测系统,以多任务学习方式。在本文中,我们使用视觉外观和生理RPPG提示建立了第一个关节面欺骗和伪造的检测基准。为了增强RPPG的周期性歧视,我们使用两种面部时空时代的RPPG信号图及其连续小波转换为输入的两分支生理网络。为了减轻模态偏差并提高融合功效,我们在多模式融合之前对外观和RPPG特征进行了加权批次和层归一化。我们发现,可以通过对这两个任务的联合培训来改善单峰(外观或RPPG)和多模式(外观+RPPG)模型的概括能力。我们希望这种新的基准将促进FAS和DeepFake检测社区的未来研究。
translated by 谷歌翻译
心血管疾病(CVD)是全球死亡的第一大原因。尽管有越来越多的证据表明心房颤动(AF)与各种CVD有着密切的关联,但这种心律不齐通常是使用心电图(ECG)诊断的,这是一种无风险,无侵入性和具有成本效益的工具。在任何威胁生命的疾病/疾病发展之前,不断和远程监视受试者的心电图信息迅速诊断和及时对AF进行预处理的潜力。最终,可以降低CVD相关的死亡率。在此手稿中,展示了体现可穿戴心电图设备,移动应用程序和后端服务器的个性化医疗系统的设计和实施。该系统不断监视用户的心电图信息,以提供个性化的健康警告/反馈。用户能够通过该系统与他们的配对健康顾问进行远程诊断,干预措施等。已经评估了实施的可穿戴ECG设备,并显示出极好的一致性(CVRMS = 5.5%),可接受的一致性(CVRMS = CVRMS = CVRMS = 12.1%),可忽略不计的RR间隙错误(<1.4%)。为了提高可穿戴设备的电池寿命,提出了使用ECG信号的准周期特征来实现压缩的有损压缩模式。与公认的架构相比,它在压缩效率和失真方面优于其他模式,并在MIT-BIH数据库中以ECG信号的某个PRD或RMSE达到了至少2倍的Cr。为了在拟议系统中实现自动化AF诊断/筛查,开发了基于重新系统的AF检测器。对于2017年Physionet CINC挑战的ECG记录,该AF探测器获得了平均测试F1 = 85.10%和最佳测试F1 = 87.31%,表现优于最先进。
translated by 谷歌翻译
语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译
过度参数化神经网络(NNS)的小概括误差可以通过频率偏见现象来部分解释,在频率偏置现象中,基于梯度的算法将低频失误最小化,然后再减少高频残差。使用神经切线内核(NTK),可以为训练提供理论上严格的分析,其中数据是从恒定或分段构剂概率密度绘制的数据。由于大多数训练数据集不是从此类分布中汲取的,因此我们使用NTK模型和数据依赖性的正交规则来理论上量化NN训练的频率偏差,给定完全不均匀的数据。通过用精心选择的Sobolev规范替换损失函数,我们可以进一步扩大,抑制,平衡或逆转NN训练中的内在频率偏差。
translated by 谷歌翻译
前列腺癌是美国男性癌症死亡的第二大原因。前列腺MRI的诊断通常依赖于准确的前列腺区域分割。但是,最新的自动分割方法通常无法产生前列腺区域的含有良好的体积分割,因为某些切片的前列腺MRI(例如碱基和顶点片)比其他切片更难分割。可以通过考虑相邻切片之间的跨片段关系来克服这一困难,但是当前的方法不能完全学习和利用这种关系。在本文中,我们提出了一种新型的跨板夹心注意机制,我们在变压器模块中使用该机制,以系统地学习不同尺度的跨斜纹关系。该模块可以在任何基于Skip Connections的现有基于学习的细分框架中使用。实验表明,我们的跨板块注意力能够捕获前列腺区域分割中的跨板片信息,并提高当前最新方法的性能。我们的方法提高了外围区域的分割精度,从而使所有前列腺切片(Apex,Mid-Gland和Base)的分割结果保持一致。
translated by 谷歌翻译
最近的自我监督学习方法能够学习高质量的图像表示,并通过监督方法关闭差距。但是,这些方法无法逐步获取新的知识 - 事实上,它们实际上主要仅用为具有IID数据的预训练阶段。在这项工作中,我们在没有额外的记忆或重放的情况下调查持续学习制度的自我监督方法。为防止忘记以前的知识,我们提出了功能正规化的使用。我们将表明,朴素的功能正则化,也称为特征蒸馏,导致可塑性的低可塑性,因此严重限制了连续的学习性能。为了解决这个问题,我们提出了预测的功能正则化,其中一个单独的投影网络确保新学习的特征空间保留了先前的特征空间的信息,同时允许学习新功能。这使我们可以防止在保持学习者的可塑性时忘记。针对应用于自我监督的其他增量学习方法的评估表明我们的方法在不同场景和多个数据集中获得竞争性能。
translated by 谷歌翻译