智能论文笔记

Deep Probability Estimation

Sheng Liu , Aakash Kaku , Weicheng Zhu , Matan Leibovich , Sreyas Mohan , Boyang Yu , Laure Zanna , Narges Razavian , Carlos Fernandez-Granda

分类：机器学习 | 人工智能 | 计算机视觉 | (统计)机器学习

2021-11-21

在许多现实世界应用中，可靠的概率估计在具有固有的不确定性的许多现实应用中至关重要，例如天气预报，医疗预后或自动车辆的碰撞避免。概率估计模型培训观察到的结果（例如，它是否已下雨，或者是否患者是否已死亡），因为感兴趣事件的地面真理概率通常是未知的。因此，问题类似于二进制分类，具有重要差异，即目标是估计概率而不是预测特定结果。这项工作的目标是使用深神经网络调查从高维数据的概率估计。存在几种方法来改善这些模型产生的概率，但它们主要专注于概率与模型不确定性相关的分类问题。在具有固有的不确定性问题的情况下，在没有访问地面概率的情况下评估性能有挑战性。要解决此问题，我们构建一个合成数据集以学习和比较不同的可计算度量。我们评估了合成数据以及三个现实世界概率估计任务的现有方法，所有这些方法都涉及固有的不确定性：从雷达图像的降水预测，从组织病理学图像预测癌症患者存活，并预测从Dashcam视频预测车祸。最后，我们还提出了一种使用神经网络的概率估计的新方法，该方法修改了培训过程，促进了与从数据计算的经验概率一致的输出概率。该方法优于模拟和真实数据上大多数度量的现有方法。

translated by 谷歌翻译

Rethinking Video ViTs: Sparse Video Tubes for Joint Image and Video Learning

AJ Piergiovanni , Weicheng Kuo , Anelia Angelova

分类：计算机视觉

2022-12-06

We present a simple approach which can turn a ViT encoder into an efficient video model, which can seamlessly work with both image and video inputs. By sparsely sampling the inputs, the model is able to do training and inference from both inputs. The model is easily scalable and can be adapted to large-scale pre-trained ViTs without requiring full finetuning. The model achieves SOTA results and the code will be open-sourced.

translated by 谷歌翻译

Mine yOur owN Anatomy: Revisiting Medical Image Segmentation with Extremely Limited Labels

Chenyu You , Weicheng Dai , Fenglin Liu , Haoran Su , Xiaoran Zhang , Lawrence Staib , James S. Duncan

分类：人工智能 | 计算机视觉 | 机器学习

2022-09-27

关于对比学习的最新研究仅通过在医学图像分割的背景下利用很少的标签来实现出色的性能。现有方法主要关注实例歧视和不变映射。但是，他们面临三个常见的陷阱：（1）尾巴：医疗图像数据通常遵循隐式的长尾分配。盲目利用训练中的所有像素会导致数据失衡问题，并导致性能恶化；（2）一致性：尚不清楚分割模型是否由于不同解剖学特征之间的类内变化而学会了有意义但一致的解剖学特征；（3）多样性：整个数据集中的切片内相关性已得到明显降低的关注。这促使我们寻求一种有原则的方法来战略利用数据集本身，以发现不同解剖学观点的类似但不同的样本。在本文中，我们介绍了一种新型的半监督医学图像分割框架，称其为您自己的解剖结构（MONA），并做出了三个贡献。首先，先前的工作认为，每个像素对模型培训都同样重要。我们从经验上观察到，仅此单单就不太可能定义有意义的解剖特征，这主要是由于缺乏监督信号。我们通过使用更强大的数据增强和最近的邻居展示了学习不变的两个简单解决方案。其次，我们构建了一组目标，鼓励模型能够以无监督的方式将医学图像分解为解剖特征的集合。最后，我们在具有不同标记设置的三个基准数据集上的广泛结果验证了我们提出的MONA的有效性，该数据在不同的标签设置下实现了新的最新设置。

translated by 谷歌翻译

Interpretable Selective Learning in Credit Risk

Dangxing Chen , Weicheng Ye , Jiahui Ye

分类：人工智能

2022-09-21

几十年来，对信用违约风险的预测一直是一个重要的研究领域。传统上，由于其准确性和解释性，逻辑回归被广泛认为是解决方案。作为最近的趋势，研究人员倾向于使用更复杂和高级的机器学习方法来提高预测的准确性。尽管某些非线性机器学习方法具有更好的预测能力，但通常认为它们缺乏金融监管机构的解释性。因此，它们尚未被广泛应用于信用风险评估中。我们引入了一个具有选择性选项的神经网络，以通过区分数据集来通过线性模型来解释，以提高可解释性。我们发现，对于大多数数据集，逻辑回归将足够，准确性合理。同时，对于某些特定的数据部分，浅神经网络模型可以提高精确度，而无需显着牺牲可解释性。

translated by 谷歌翻译

Generalized Gloves of Neural Additive Models: Pursuing transparent and accurate machine learning models in finance

Dangxing Chen , Weicheng Ye

分类：机器学习 | 人工智能

2022-09-21

多年来，机器学习方法一直在各种领域（包括计算机视觉和自然语言处理）中使用。尽管机器学习方法比传统方法显着改善了模型性能，但它们的黑盒结构使研究人员难以解释结果。对于高度监管的金融行业，透明度，解释性和公平性同样重要，甚至比准确性重要。没有满足受管制要求的情况，即使是高度准确的机器学习方法也不太可能被接受。我们通过引入一种新颖的透明和可解释的机器学习算法来解决这个问题，称为神经添加剂模型的通用手套。神经添加剂模型的广义手套将特征分为三类：线性特征，单个非线性特征和相互作用的非线性特征。此外，最后类别中的交互仅是本地的。线性和非线性组件通过逐步选择算法区分，并通过应用加法分离标准仔细验证相互作用的组。经验结果表明，神经添加剂模型的广义手套可通过最简单的体系结构提供最佳的精度，从而可以采用高度准确，透明且可解释的机器学习方法。

translated by 谷歌翻译

Monotonic Neural Additive Models: Pursuing Regulated Machine Learning Models for Credit Scoring

Dangxing Chen , Weicheng Ye

分类：机器学习

2022-09-21

数十年来，对信用违约风险的预测一直是一个积极的研究领域。从历史上看，逻辑回归由于遵守法规要求而被用作主要工具：透明度，解释性和公平性。近年来，研究人员越来越多地使用复杂和先进的机器学习方法来提高预测准确性。即使机器学习方法可以潜在地提高模型的准确性，但它会使简单的逻辑回归复杂化，会使解释性恶化并经常违反公平性。在没有法规要求的情况下，公司即使是高度准确的机器学习方法也不太可能被公司接受信用评分。在本文中，我们介绍了一类新颖的单调神经添加剂模型，这些模型通过简化神经网络体系结构并实施单调性来满足调节要求。通过利用神经添加剂模型的特殊体系结构特征，单调神经添加剂模型有效地违反了单调性。因此，训练的计算成本单调神经添加剂模型类似于训练神经添加剂模型的计算成本，作为免费午餐。我们通过经验结果证明，我们的新模型与Black-Box完全连接的神经网络一样准确，提供了一种高度准确且受调节的机器学习方法。

translated by 谷歌翻译

PaLI: A Jointly-Scaled Multilingual Language-Image Model

Xi Chen , Xiao Wang , Soravit Changpinyo , AJ Piergiovanni , Piotr Padlewski , Daniel Salz , Sebastian Goodman , Adam Grycner , Basil Mustafa , Lucas Beyer

分类：计算机视觉 | 自然语言处理

2022-09-14

有效的缩放和灵活的任务接口使大型语言模型能够在许多任务中表现出色。帕利（Pali）根据视觉和文本输入生成文本，并使用该界面以许多语言执行许多视觉，语言和多模式任务。为了训练帕利，我们利用了大型的编码器语言模型和视觉变压器（VITS）。这使我们能够利用其现有能力，并利用培训它们的大量成本。我们发现，视觉和语言组成部分的联合缩放很重要。由于现有的语言变压器比其视觉对应物要大得多，因此我们训练迄今为止最大的VIT（VIT-E），以量化甚至大容量视觉模型的好处。为了训练Pali，我们基于一个新的图像文本训练集，其中包含10B图像和文本，以100多种语言来创建大型的多语言组合。帕利（Pali）在多个视觉和语言任务（例如字幕，视觉问题，索方式，场景文本理解）中实现了最新的，同时保留了简单，模块化和可扩展的设计。

translated by 谷歌翻译

Pre-training image-language transformers for open-vocabulary tasks

AJ Piergiovanni , Weicheng Kuo , Anelia Angelova

分类：计算机视觉

2022-09-09

我们为视觉和语言变压器模型提供了一种预训练方法，该方法基于各种任务的混合。我们探索了在预训练中使用图像文本字幕数据的使用，这不需要其他监督，以及对象感知的策略来预先培训模型。我们评估了许多文本式视觉+语言任务的方法，例如视觉问题答案，视觉范围和字幕，并证明了对标准预训练方法的巨大收益。

translated by 谷歌翻译

Scale-free Photo-realistic Adversarial Pattern Attack

Xiangbo Gao , Weicheng Xie , Minmin Liu , Cheng Luo , Qinliang Lin , Linlin Shen , Keerthy Kusumam , Siyang Song

分类：计算机视觉

2022-08-12

传统的像素图像攻击算法对防御算法的鲁棒性不佳，即应用防御算法时的攻击强度急剧下降。尽管生成对抗网络（GAN）可以通过综合更有意义的纹理模式来部分解决此问题，但主要限制是现有生成器只能生成特定比例的图像。在本文中，我们提出了一种基于无规模的攻击算法，该算法将全球具有语义上有意义的对抗模式综合到具有任意尺度的图像。我们的生成攻击方法始终优于各种攻击设置上的最新方法，即所提出的方法在很大程度上降低了各种图像分类，对象检测和实例分段算法在不同的高级防御方法下的性能。

translated by 谷歌翻译

Video Question Answering with Iterative Video-Text Co-Tokenization

AJ Piergiovanni , Kairo Morton , Weicheng Kuo , Michael S. Ryoo , Anelia Angelova

分类：计算机视觉

2022-08-01

视频问题回答是一项具有挑战性的任务，需要共同理解语言输入，单个视频帧中的视觉信息以及视频中发生的事件的时间信息。在本文中，我们提出了一种新颖的多流视频编码器，用于视频问题回答，它使用多个视频输入和一种新的视频文本迭代迭代式共同指定方法来回答与视频相关的各种问题。我们在几个数据集上进行了实验评估该模型，例如MSRVTT-QA，MSVD-QA，IVQA，超过了大幅度的先前最新时间。同时，我们的模型将所需的Gflops从150-360减少到只有67，从而产生了高效的视频答案模型。

translated by 谷歌翻译