折射率是最常见的眼睛障碍,是可更正视觉障碍的关键原因,造成了美国近80%的视觉障碍。可以使用多种方法诊断折射误差,包括主观折射,视网膜镜检查和自动磨蚀器。尽管主观折射是黄金标准,但它需要患者的合作,因此不适合婴儿,幼儿和发育迟缓的成年人。视网膜镜检查是一种客观折射方法,不需要患者的任何输入。但是,视网膜镜检查需要镜头套件和训练有素的检查员,这限制了其用于大规模筛查的使用。在这项工作中,我们通过将智能手机连接到视网膜镜和录制视网膜镜视频与患者戴着定制的纸框架来自动化自动化。我们开发了一个视频处理管道,该管道将视网膜视频视为输入,并根据我们提出的视网膜镜检查数学模型的扩展来估算净屈光度错误。我们的系统减轻了对镜头套件的需求,可以由未经培训的检查员进行。在一项185只眼睛的临床试验中,我们的灵敏度为91.0%,特异性为74.0%。此外,与主观折射测量相比,我们方法的平均绝对误差为0.75 $ \ pm $ 0.67D。我们的结果表明,我们的方法有可能用作现实世界中医疗设置中的基于视网膜镜检查的折射率筛选工具。
translated by 谷歌翻译
高质量的校准不确定性估计对于众多现实世界应用至关重要,尤其是对于基于深度学习的部署的ML系统。虽然贝叶斯深度学习技术允许估计不确定性,但使用大规模数据集培训它们是一个昂贵的过程,并不总是会产生与非贝斯尼亚对应物竞争的模型。此外,许多已经经过培训和部署的高性能深度学习模型本质上都是非拜拜西亚人,并且不提供不确定性估计。为了解决这些问题,我们提出了贝叶斯cap,该贝内斯cap学习了冷冻模型的贝叶斯身份映射,从而估算了不确定性。 Bayescap是一种记忆效率的方法,可以在原始数据集的一小部分中进行训练,从而通过为预测提供了校准的不确定性估计,而没有(i)妨碍模型的性能和(ii),从而增强了预审预学的非bayesian计算机视觉模型。需要从头开始昂贵的型号。所提出的方法对各种架构和任务不可知。我们显示了我们方法对各种各样的任务的功效,这些任务具有多种架构,包括图像超分辨率,脱蓝色,内化和关键应用,例如医学图像翻译。此外,我们将派生的不确定性估计值应用于在自主驾驶深度估计等关键情况下检测分布样本。代码可在https://github.com/explainableml/bayescap上找到。
translated by 谷歌翻译
基于梯度的解释算法何时提供有意义的解释?我们提出了一个必要的标准:它们的特征归因需要与数据歧管的切线空间保持一致。为了提供这一假设的证据,我们介绍了一个基于变异自动编码器的框架,该框架允许估计和生成图像歧管。通过跨各种不同数据集的实验 - MNIST,EMNIST,CIFAR10,X射线肺炎和糖尿病性视网膜病变检测 - 我们证明,功能归因与数据的切线相符,结构化和解释性越多倾向于。特别是,由流行的事后方法(例如集成梯度,SmoothGrad和Input $ \ times $梯度)提供的归因往往比原始梯度更与数据歧管更强烈。结果,我们建议解释算法应积极努力将其解释与数据歧管保持一致。在某种程度上,这可以通过对抗训练来实现,从而可以使所有数据集更好地对齐。必须对模型架构或训练算法进行某种形式的调整,因为我们表明单独的神经网络的概括并不意味着模型梯度与数据歧管的一致性。
translated by 谷歌翻译
The first large-scale deployment of private federated learning uses differentially private counting in the continual release model as a subroutine (Google AI blog titled "Federated Learning with Formal Differential Privacy Guarantees"). In this case, a concrete bound on the error is very relevant to reduce the privacy parameter. The standard mechanism for continual counting is the binary mechanism. We present a novel mechanism and show that its mean squared error is both asymptotically optimal and a factor 10 smaller than the error of the binary mechanism. We also show that the constants in our analysis are almost tight by giving non-asymptotic lower and upper bounds that differ only in the constants of lower-order terms. Our algorithm is a matrix mechanism for the counting matrix and takes constant time per release. We also use our explicit factorization of the counting matrix to give an upper bound on the excess risk of the private learning algorithm of Denisov et al. (NeurIPS 2022). Our lower bound for any continual counting mechanism is the first tight lower bound on continual counting under approximate differential privacy. It is achieved using a new lower bound on a certain factorization norm, denoted by $\gamma_F(\cdot)$, in terms of the singular values of the matrix. In particular, we show that for any complex matrix, $A \in \mathbb{C}^{m \times n}$, \[ \gamma_F(A) \geq \frac{1}{\sqrt{m}}\|A\|_1, \] where $\|\cdot \|$ denotes the Schatten-1 norm. We believe this technique will be useful in proving lower bounds for a larger class of linear queries. To illustrate the power of this technique, we show the first lower bound on the mean squared error for answering parity queries.
translated by 谷歌翻译
This work proposes Multi-task Meta Learning (MTML), integrating two learning paradigms Multi-Task Learning (MTL) and meta learning, to bring together the best of both worlds. In particular, it focuses simultaneous learning of multiple tasks, an element of MTL and promptly adapting to new tasks with fewer data, a quality of meta learning. It is important to highlight that we focus on heterogeneous tasks, which are of distinct kind, in contrast to typically considered homogeneous tasks (e.g., if all tasks are classification or if all tasks are regression tasks). The fundamental idea is to train a multi-task model, such that when an unseen task is introduced, it can learn in fewer steps whilst offering a performance at least as good as conventional single task learning on the new task or inclusion within the MTL. By conducting various experiments, we demonstrate this paradigm on two datasets and four tasks: NYU-v2 and the taskonomy dataset for which we perform semantic segmentation, depth estimation, surface normal estimation, and edge detection. MTML achieves state-of-the-art results for most of the tasks. Although semantic segmentation suffers quantitatively, our MTML method learns to identify segmentation classes absent in the pseudo labelled ground truth of the taskonomy dataset.
translated by 谷歌翻译
除了独奏游戏外,棋盘游戏至少需要其他玩家才能玩。因此,当对手失踪时,我们创建了人工智能(AI)代理商来对抗我们。这些AI代理是通过多种方式创建的,但是这些代理的一个挑战是,与我们相比,代理可以具有较高的能力。在这项工作中,我们描述了如何创建玩棋盘游戏的较弱的AI代理。我们使用Tic-Tac-toe,九名成员的莫里斯和曼卡拉,我们的技术使用了增强学习模型,代理商使用Q学习算法来学习这些游戏。我们展示了这些代理商如何学会完美地玩棋盘游戏,然后我们描述了制作这些代理商较弱版本的方法。最后,我们提供了比较AI代理的方法。
translated by 谷歌翻译
在启用语音的应用程序中,一个预定的热词在同时用来激活设备以便进行查询。 toavoid重复一个热词,我们提出了一个端到端的流(E2E)打算查询检测器,该查询检测器识别向设备指向的发音,并滤除针对设备的其他发出内容。提出的方法将预期的查询检测器置于E2E模型中,该模型将语音识别的不同组件折叠成一个神经网络。E2E对台面解码和预期的查询检测进行建模,也使我们可以基于早期的部分偏置检测结果, ,这对于减少潜伏期和使系统响应很重要。我们证明,与独立的预期检测器相比,检测准确性和600个MSLATENCE的相对相对改善的相对提高一级误差率(EER)的相对提高了22%。在我们的实验中,提出的模型检测用户正在用用户开始讲话后,用8.7%的Eerwithin与设备进行对话。
translated by 谷歌翻译
具有深层神经网络的图像分类使技术突破激增,在面部识别,医学成像和自动驾驶等领域具有有希望的应用。然而,在工程问题中,例如发动机喷油器喷雾剂或身体油漆喷雾剂的高速成像,深度神经网络面临着与充足和多样性数据的可用性有关的根本挑战。通常,只有数千甚至数百个样本可供培训。此外,不同喷雾类之间的过渡是连续体,需要高水平的域专业知识来准确标记图像。在这项工作中,我们使用混音作为一种系统地处理工业喷雾应用中发现的数据稀缺和模棱两可的类界限的方法。我们表明,数据增强可以减轻小型数据集上大型神经网络的过度问题,但无法从根本上解决该问题。我们讨论了不同类别的凸线性插值如何自然与应用程序中不同类别之间的连续过渡保持一致。我们的实验表明,混合是一种简单而有效的方法,可以用仅几百个样品训练准确,坚固的深神网络分类器。
translated by 谷歌翻译
通常通过过去的选择来告知机器学习中的评估,例如要使用哪些数据集或指标。该标准化可以使用排行榜对平等基础进行比较,但是随着出现更好的替代方案,评估选择变得不佳。这个问题在自然语言生成中尤其相关,该语言需要不断改善的数据集,指标和人类评估以提出确定性的主张。为了使遵循最佳模型评估实践更加容易,我们介绍了GEMV2。新版本的一代,评估和指标基准为数据集,模型和指标开发人员提供了模块化基础架构,以使彼此受益。GEMV2支持40种记录的数据集中51种语言。所有数据集的模型都可以在线评估,我们的交互式数据卡创建和渲染工具使得在Living Benchmark中添加新数据集变得更加容易。
translated by 谷歌翻译
语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译