智能论文笔记

Escaping Saddle Points for Effective Generalization on Class-Imbalanced Data

Harsh Rangwani , Sumukh K Aithal , Mayank Mishra , R. Venkatesh Babu

分类：机器学习 | 计算机视觉

2022-12-28

Real-world datasets exhibit imbalances of varying types and degrees. Several techniques based on re-weighting and margin adjustment of loss are often used to enhance the performance of neural networks, particularly on minority classes. In this work, we analyze the class-imbalanced learning problem by examining the loss landscape of neural networks trained with re-weighting and margin-based techniques. Specifically, we examine the spectral density of Hessian of class-wise loss, through which we observe that the network weights converge to a saddle point in the loss landscapes of minority classes. Following this observation, we also find that optimization methods designed to escape from saddle points can be effectively used to improve generalization on minority classes. We further theoretically and empirically demonstrate that Sharpness-Aware Minimization (SAM), a recent technique that encourages convergence to a flat minima, can be effectively used to escape saddle points for minority classes. Using SAM results in a 6.2\% increase in accuracy on the minority classes over the state-of-the-art Vector Scaling Loss, leading to an overall average increase of 4\% across imbalanced datasets. The code is available at: https://github.com/val-iisc/Saddle-LongTail.

translated by 谷歌翻译

Improving GANs for Long-Tailed Data through Group Spectral Regularization

Harsh Rangwani , Naman Jaswani , Tejan Karmali , Varun Jampani , R. Venkatesh Babu

分类：计算机视觉 | 机器学习

2022-08-21

深尾学习旨在培训有用的深层网络，以实用现实世界中的不平衡分布，其中大多数尾巴类别的标签都与一些样本相关联。有大量的工作来训练判别模型，以进行长尾分布的视觉识别。相比之下，我们旨在训练有条件的生成对抗网络，这是一类长尾分布的图像生成模型。我们发现，类似于识别图像产生的最新方法类似，也遭受了尾部类别的性能降解。性能降解主要是由于尾部类别的类别模式塌陷，我们观察到与调节参数矩阵的光谱爆炸相关。我们提出了一种新型的组光谱正规剂（GSR），以防止光谱爆炸减轻模式崩溃，从而导致尾巴类别的形象产生多样化和合理的图像产生。我们发现GSR有效地与现有的增强和正则化技术结合在一起，从而导致长尾数据上的最新图像生成性能。广泛的实验证明了我们的常规器在不同程度不平衡的长尾数据集上的功效。

translated by 谷歌翻译

Hierarchical Semantic Regularization of Latent Spaces in StyleGANs

Tejan Karmali , Rishubh Parihar , Susmit Agrawal , Harsh Rangwani , Varun Jampani , Maneesh Singh , R. Venkatesh Babu

分类：计算机视觉

2022-08-07

GAN的进展使高分辨率的感性质量形象产生了产生。 stylegans允许通过数学操作对W/W+空间中的潜在样式向量进行数学操作进行引人入胜的属性修改，从而有效调节生成器的丰富层次结构表示。最近，此类操作已被推广到原始StyleGan纸中的属性交换之外，以包括插值。尽管StyleGans有许多重大改进，但仍被认为会产生不自然的图像。生成的图像的质量基于两个假设。（a）生成器学到的层次表示的丰富性，以及（b）样式空间的线性和平滑度。在这项工作中，我们提出了一个层次的语义正常化程序（HSR），该层次正常化程序将生成器学到的层次表示与大量数据学到的相应的强大功能保持一致。 HSR不仅可以改善发电机的表示，还可以改善潜在风格空间的线性和平滑度，从而导致产生更自然的样式编辑的图像。为了证明线性改善，我们提出了一种新型的度量 - 属性线性评分（ALS）。通过改善感知路径长度（PPL）度量的改善，在不同的标准数据集中平均16.19％的不自然图像的生成显着降低，同时改善了属性编辑任务中属性变化的线性变化。

translated by 谷歌翻译

Concurrent Subsidiary Supervision for Unsupervised Source-Free Domain Adaptation

Jogendra Nath Kundu , Suvaansh Bhambri , Akshay Kulkarni , Hiran Sarkar , Varun Jampani , R. Venkatesh Babu

分类：计算机视觉 | 机器学习

2022-07-27

无监督的域适应性（DA）中的主要挑战是减轻源域和目标域之间的域移动。先前的DA工作表明，可以使用借口任务来通过学习域不变表示来减轻此域的转移。但是，实际上，我们发现大多数现有的借口任务对其他已建立的技术无效。因此，我们从理论上分析了如何以及何时可以利用子公司借口任务来协助给定DA问题的目标任务并制定客观的子公司任务适用性标准。基于此标准，我们设计了一个新颖的贴纸干预过程和铸造贴纸分类的过程，作为监督的子公司DA问题，该问题与目标任务无监督的DA同时发生。我们的方法不仅改善了目标任务适应性能，而且还促进了面向隐私的无源DA，即没有并发源目标访问。标准Office-31，Office-Home，Domainnet和Visda基准的实验证明了我们对单源和多源无源DA的优势。我们的方法还补充了现有的无源作品，从而实现了领先的绩效。

translated by 谷歌翻译

Everything is There in Latent Space: Attribute Editing and Attribute Style Manipulation by StyleGAN Latent Space Exploration

Rishubh Parihar , Ankit Dhiman , Tejan Karmali , R. Venkatesh Babu

分类：计算机视觉 | 人工智能

2022-07-20

现在，使用最近的生成对抗网络（GAN）可以使用高现实主义的不受约束图像产生。但是，用给定的一组属性生成图像非常具有挑战性。最近的方法使用基于样式的GAN模型来执行图像编辑，通过利用发电机层中存在的语义层次结构。我们提出了一些基于潜在的属性操纵和编辑（火焰），这是一个简单而有效的框架，可通过潜在空间操纵执行高度控制的图像编辑。具体而言，我们估计了控制生成图像中语义属性的潜在空间（预训练样式的）中的线性方向。与以前的方法相反，这些方法依赖于大规模属性标记的数据集或属性分类器，而火焰则使用一些策划的图像对的最小监督来估算删除的编辑指示。火焰可以在保留身份的同时，在各种图像集上同时进行高精度和顺序编辑。此外，我们提出了一项新颖的属性样式操纵任务，以生成各种样式的眼镜和头发等属性。我们首先编码相同身份的一组合成图像，但在潜在空间中具有不同的属性样式，以估计属性样式歧管。从该歧管中采样新的潜在将导致生成图像中的新属性样式。我们提出了一种新颖的抽样方法，以从歧管中采样潜在的样品，使我们能够生成各种属性样式，而不是训练集中存在的样式。火焰可以以分离的方式生成多种属性样式。我们通过广泛的定性和定量比较来说明火焰与先前的图像编辑方法相对于先前的图像编辑方法的卓越性能。火焰在多个数据集（例如汽车和教堂）上也很好地概括了。

translated by 谷歌翻译

Segmentation Guided Deep HDR Deghosting

K. Ram Prabhakar , Susmit Agrawal , R. Venkatesh Babu

分类：计算机视觉

2022-07-04

我们提出了一种运动分割引导的卷积神经网络（CNN）方法，以进行高动态范围（HDR）图像磁化。首先，我们使用CNN分段输入序列中的移动区域。然后，我们将静态区域和移动区域分别与不同的融合网络合并，并结合融合功能以生成最终的无幽灵HDR图像。我们的运动分割引导的HDR融合方法比现有的HDR脱胶方法具有显着优势。首先，通过将输入序列分割为静态和移动区域，我们提出的方法可以为各种具有挑战性的饱和度和运动类型学习有效的融合规则。其次，我们引入了一个新颖的存储网络，该网络积累了在饱和区域中生成合理细节所需的必要功能。所提出的方法在两个公开可用的数据集上优于九种现有的最新方法，并生成视觉上令人愉悦的无幽灵HDR结果。我们还提供了3683个不同暴露图像的大规模运动细分数据集，以使研究社区受益。

translated by 谷歌翻译

A Closer Look at Smoothness in Domain Adversarial Training

Harsh Rangwani , Sumukh K Aithal , Mayank Mishra , Arihant Jain , R. Venkatesh Babu

分类：机器学习 | 计算机视觉

2022-06-16

域对抗训练无处不在地实现不变表示，并广泛用于各种域适应任务。近来，融合到平滑最佳的方法已显示出对分类等监督学习任务的改进的概括。在这项工作中，我们分析了增强配方对域对抗训练的影响，其目的是任务损失（例如分类，回归等）和对抗性术语的组合。我们发现，相对于（W.R.T.）任务损失融合了平滑的最小值，可以稳定对抗性训练，从而在目标域上获得更好的性能。与任务损失相反，我们的分析表明，融合到平滑的最小W.R.T.对抗损失导致目标结构域的次级概括。基于分析，我们介绍了平滑的域对抗训练（SDAT）程序，该程序有效地增强了现有域对抗方法的性能，以进行分类和对象检测任务。我们的分析还提供了对社区中亚当（Adam）对域名对抗训练的广泛使用的洞察力。

translated by 谷歌翻译

Balancing Discriminability and Transferability for Source-Free Domain Adaptation

Jogendra Nath Kundu , Akshay Kulkarni , Suvaansh Bhambri , Deepesh Mehta , Shreyas Kulkarni , Varun Jampani , R. Venkatesh Babu

分类：计算机视觉 | 机器学习

2022-06-16

传统的域适应性（DA）技术旨在通过学习领域不变表示来改善域的可传递性；同时保留从标记的源数据中收集的任务歧义性知识。但是，同时访问标签源和未标记的目标的要求使其不适合无源的无源DA设置。实现有效原件到通用域映射的微不足道的解决方案可改善可转移性，但会降低任务可区分性。从理论和经验的角度分析障碍后，我们得出了新颖的见解，以表明原始和相应的翻译通用样品之间的混合会增强可区分性可转移性权衡，同时适当尊重以隐私为导向的无源源环境。在现有的无源DA方法之上，简单但有效地实现了所提出的见解，可产生最先进的性能，并更快地收敛。除了单源外，我们还胜过分类和语义分割基准的多源先验艺术。

translated by 谷歌翻译

Self-Gated Memory Recurrent Network for Efficient Scalable HDR Deghosting

K. Ram Prabhakar , Susmit Agrawal , R. Venkatesh Babu

分类：计算机视觉

2021-12-24

我们提出了一种新型的基于网络的基于网络的HDR Duthosting方法，用于融合任意长度的动态序列。所提出的方法使用卷积和经常性架构来产生视觉上令人愉悦的重影的HDR图像。我们介绍了一个新的反复间谍架构，即自动门控内存（SGM）单元格，这胜过标准LSTM单元格，同时包含更少的参数并具有更快的运行时间。在SGM小区中，通过将门的输出乘以自身的函数来控制通过门的信息流。此外，我们在双向设置中使用两个SGM单元来提高输出质量。该方法的方法与现有的HDR Deghosting方法定量跨三个公共数据集相比，实现了最先进的性能，同时同时实现熔断器可变长度输入顺序的可扩展性而不需要重新训练。通过广泛的消融，我们证明了各个组件以拟议方法的重要性。该代码可在https://val.cds.iisc.ac.in.in/hdr/hdrrn/index.html中获得。

translated by 谷歌翻译

Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models

Aarohi Srivastava , Abhinav Rastogi , Abhishek Rao , Abu Awal Md Shoeb , Abubakar Abid , Adam Fisch , Adam R. Brown , Adam Santoro , Aditya Gupta , Adrià Garriga-Alonso

分类：自然语言处理 | 人工智能 | 机器学习 | (统计)机器学习

2022-06-09

语言模型既展示了定量的改进，又展示了新的定性功能，随着规模的增加。尽管它们具有潜在的变革性影响，但这些新能力的特征却很差。为了为未来的研究提供信息，为破坏性的新模型能力做准备，并改善社会有害的效果，至关重要的是，我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战，我们介绍了超越模仿游戏基准（Big Bench）。 Big Bench目前由204个任务组成，由132家机构的442位作者贡献。任务主题是多样的，从语言学，儿童发展，数学，常识性推理，生物学，物理学，社会偏见，软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号，Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为，跨越了数百万到数十亿个参数。此外，一个人类专家评估者团队执行了所有任务，以提供强大的基准。研究结果包括：模型性能和校准都随规模改善，但绝对的术语（以及与评估者的性能相比）；在模型类中的性能非常相似，尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分，而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标；社交偏见通常会随着含糊不清的环境而随着规模而增加，但这可以通过提示来改善。

translated by 谷歌翻译