智能论文笔记

ECU Identification using Neural Network Classification and Hyperparameter Tuning

Kunaal Verma , Mansi Girdhar , Azeem Hafeez , Selim S. Awad

分类：机器学习

2022-08-22

控制器区域网络（CAN）协议的入侵检测需要现代方法才能与其他电气体系结构竞争。指纹入侵检测系统（IDS）提供了一种有希望解决此问题的新方法。通过表征来自已知ECU的网络流量，可以区分危险信息。在本文中，通过神经网络培训对网络流量的步骤响应和光谱表征，使用了修改版的指纹ID版本。通过添加功能集减少和超参数调整，此方法可实现99.4％的可信ECU流量检测率。

translated by 谷歌翻译

Learning Video Representations from Large Language Models

Yue Zhao , Ishan Misra , Philipp Krähenbühl , Rohit Girdhar

分类：计算机视觉

2022-12-08

We introduce LaViLa, a new approach to learning video-language representations by leveraging Large Language Models (LLMs). We repurpose pre-trained LLMs to be conditioned on visual input, and finetune them to create automatic video narrators. Our auto-generated narrations offer a number of advantages, including dense coverage of long videos, better temporal synchronization of the visual information and text, and much higher diversity of text. The video-text embedding learned contrastively with these additional auto-generated narrations outperforms the previous state-of-the-art on multiple first-person and third-person video tasks, both in zero-shot and finetuned setups. Most notably, LaViLa obtains an absolute gain of 10.1% on EGTEA classification and 5.9% Epic-Kitchens-100 multi-instance retrieval benchmarks. Furthermore, LaViLa trained with only half the narrations from the Ego4D dataset outperforms baseline models trained on the full set, and shows positive scaling behavior on increasing pre-training data and model size.

translated by 谷歌翻译

B2B Advertising: Joint Dynamic Scoring of Account and Users

Atanu R. Sinha , Gautam Choudhary , Mansi Agarwal , Shivansh Bindal , Abhishek Pande , Camille Girabawe

分类：机器学习

2022-09-28

当一家企业向另一家企业（B2B）出售时，购买业务由一组称为帐户的个人代表，他们共同决定是否购买。卖方向每个人做广告，并与他们互动，主要是通过数字方式进行的。销售周期很长，通常在几个月内。在寻求信息时，属于帐户的个人之间存在异质性，因此卖方需要在漫长的视野中对每个人的利益进行评分，以决定必须达到哪些人以及何时达到。此外，购买决定与帐户有关，必须进行评分才能投射购买的可能性，这一决定可能会一直变化，直到实际的决定，象征组决策。我们以动态的方式为帐户及其个人的决定分数。动态评分允许机会在长时间的不同时间点影响不同的单个成员。数据集包含与卖方的每个人通信活动的行为日志；但是，没有关于个人之间咨询的数据，这导致了决定。使用神经网络体系结构，我们提出了几种方法来汇总各个成员活动的信息，以预测该小组的集体决策。多次评估发现了强大的模型性能。

translated by 谷歌翻译

A High Resolution Multi-exposure Stereoscopic Image & Video Database of Natural Scenes

Rohit Choudhary , Mansi Sharma , Aditya Wadaskar

分类：计算机视觉

2022-06-22

近年来，Imbersive显示器（例如VR耳机，AR眼镜，多视图显示器，自由点电视）已成为一种新的展示技术，与传统显示相比，提供了更好的视觉体验和观众的参与度。随着3D视频和展示技术的发展，高动态范围（HDR）摄像机和显示器的消费市场迅速增长。缺乏适当的实验数据是3D HDR视频技术领域的主要研究工作的关键障碍。同样，足够的现实世界多曝光实验数据集的不可用是用于HDR成像研究的主要瓶颈，从而限制了观众的体验质量（QOE）。在本文中，我们介绍了在印度理工学院马德拉斯校园内捕获的多元化立体曝光数据集，该数据集是多元化的动植物的所在地。该数据集使用ZED立体相机捕获，并提供户外位置的复杂场景，例如花园，路边景观，节日场地，建筑物和室内地区，例如学术和居住区。提出的数据集可容纳宽深度范围，复杂的深度结构，使物体运动复杂化，照明变化，丰富的色彩动态，纹理差异，除了通过移动摄像机和背景运动引入的显着随机性。拟议的数据集可公开向研究界公开使用。此外，详细描述了捕获，对齐和校准多曝光立体视频和图像的过程。最后，我们讨论了有关HDR成像，深度估计，一致的音调映射和3D HDR编码的进度，挑战，潜在用例和未来研究机会。

translated by 谷歌翻译

MEStereo-Du2CNN: A Novel Dual Channel CNN for Learning Robust Depth Estimates from Multi-exposure Stereo Images for HDR 3D Applications

Rohit Choudhary , Mansi Sharma , Uma T V , Rithvik Anil

分类：计算机视觉

2022-06-21

这些年来，展示技术已经发展。开发实用的HDR捕获，处理和显示解决方案以将3D技术提升到一个新的水平至关重要。多曝光立体声图像序列的深度估计是开发成本效益3D HDR视频内容的重要任务。在本文中，我们开发了一种新颖的深度体系结构，以进行多曝光立体声深度估计。拟议的建筑有两个新颖的组成部分。首先，对传统立体声深度估计中使用的立体声匹配技术进行了修改。对于我们体系结构的立体深度估计部分，部署了单一到stereo转移学习方法。拟议的配方规避了成本量构造的要求，该要求由基于重新编码的单码编码器CNN取代，具有不同的重量以进行功能融合。基于有效网络的块用于学习差异。其次，我们使用强大的视差特征融合方法组合了从不同暴露水平上从立体声图像获得的差异图。使用针对不同质量度量计算的重量图合并在不同暴露下获得的差异图。获得的最终预测差异图更强大，并保留保留深度不连续性的最佳功能。提出的CNN具有使用标准动态范围立体声数据或具有多曝光低动态范围立体序列的训练的灵活性。在性能方面，所提出的模型超过了最新的单眼和立体声深度估计方法，无论是定量还是质量地，在具有挑战性的场景流以及暴露的Middlebury立体声数据集上。该体系结构在复杂的自然场景中表现出色，证明了其对不同3D HDR应用的有用性。

translated by 谷歌翻译

An Integrated Representation & Compression Scheme Based on Convolutional Autoencoders with 4D DCT Perceptual Encoding for High Dynamic Range Light Fields

Sally Khaidem , Mansi Sharma

分类：计算机视觉

2022-06-21

新兴和现有的灯场显示器非常能够在无自动镜玻璃平台上对3D场景进行现实呈现。在利用3D显示和流式传输目的的同时，光场大小是主要缺点。当光场具有高动态范围时，大小会大大增加。在本文中，我们为高动态范围光场提出了一种新型的压缩算法，该算法具有感知的无损压缩。该算法通过将其解释为四维体积来利用HDR光场的间和内部视图相关性。 HDR光场压缩基于一种新型的4DDCT-UCS（4D-DCT均匀颜色空间）算法。 HEVC通过HEVC获取的4DDCT-UCS获取图像的其他编码消除了HDR光场数据中的框内，框架间和内在冗余。与JPEG-XL和HDR视频编码算法等最新编码器的比较表现出对现实世界光场提出的方案的卓越压缩性能。

translated by 谷歌翻译

OmniMAE: Single Model Masked Pretraining on Images and Videos

Rohit Girdhar , Alaaeldin El-Nouby , Mannat Singh , Kalyan Vasudev Alwala , Armand Joulin , Ishan Misra

分类：计算机视觉 | 人工智能 | 机器学习 | (统计)机器学习

2022-06-16

基于变压器的体系结构已在各种视觉域（最著名的图像和视频）中变得更具竞争力。虽然先前的工作已经孤立地研究了这些模式，但拥有一个共同的体系结构表明，人们可以训练单个统一模型以多种视觉方式。事先尝试进行统一建模通常使用针对视觉任务量身定制的体系结构，或与单个模态模型相比获得较差的性能。在这项工作中，我们表明可以使用蒙版的自动编码来在图像和视频上训练简单的视觉变压器，而无需任何标记的数据。该单个模型学习了与图像和视频基准上的单模式表示相当或更好的视觉表示，同时使用了更简单的体系结构。特别是，我们的单一预算模型可以进行审核，以在ImageNet上获得86.5％的速度，而在挑战性的事物V2视频基准测试中，可以实现75.3％的范围。此外，可以通过丢弃90％的图像和95％的视频补丁来学习该模型，从而实现非常快速的训练。

translated by 谷歌翻译

Bayesian Structure Learning with Generative Flow Networks

Tristan Deleu , António Góis , Chris Emezue , Mansi Rankawat , Simon Lacoste-Julien , Stefan Bauer , Yoshua Bengio

分类：机器学习 | (统计)机器学习

2022-02-28

在贝叶斯结构学习中，我们有兴趣从数据中推断出贝叶斯网络的定向无环图（DAG）结构。由于组合较大的样本空间，定义这种分布非常具有挑战性，并且通常需要基于MCMC的近似值。最近，已引入了一种新型的概率模型，称为生成流网络（GFLOWNETS），作为离散和复合对象（例如图形）生成建模的一般框架。在这项工作中，我们建议使用GFLOWNET作为MCMC的替代方案，以近似贝叶斯网络结构的后验分布，给定观测数据集。从该近似分布中生成样本DAG被视为一个顺序决策问题，在该问题中，该图是根据学习的过渡概率一次构造一个边缘的。通过对模拟和真实数据的评估，我们表明我们的方法称为dag-gflownet，可以准确地近似DAG，并且它可以与基于MCMC或变异推断的其他方法进行比较。

translated by 谷歌翻译

Mask2Former for Video Instance Segmentation

Bowen Cheng , Anwesa Choudhuri , Ishan Misra , Alexander Kirillov , Rohit Girdhar , Alexander G. Schwing

分类：计算机视觉 | 人工智能 | 机器学习

2021-12-20

我们发现Mask2Former还可以在视频实例分段上实现最先进的性能，而无需修改架构，丢失甚至培训管道。在本报告中，我们通过直接预测3D分段卷来显示通用图像分割体系结构通过直接预测3D分段卷来概括到视频分段。具体而言，Mask2Former在Youtubevis-2021上为Youtubevis-2019和52.6 AP设置了新的60.4 AP最先进的。鉴于其在图像分割中的多功能性，我们认为蒙版2格相符也能够处理视频语义和Panoptic分割。我们希望这将使最先进的视频分段研究更可访问，并更加关注设计通用图像和视频分段架构。

translated by 谷歌翻译

Server-Side Local Gradient Averaging and Learning Rate Acceleration for Scalable Split Learning

Shraman Pal , Mansi Uniyal , Jihong Park , Praneeth Vepakomma , Ramesh Raskar , Mehdi Bennis , Moongu Jeon , Jinho Choi

分类：机器学习 | 人工智能

2021-12-11

近年来，与私人数据的分散学习领域有很大进展。联合学习（FL）和分裂学习（SL）是两个拥有其优点和缺点的矛头，并分别适用于许多用户客户和大型型号。为了享受这两个好处，斯普利特这样的混合方法已经出现了迟到，但他们的基本面仍然是虚幻的。在这项工作中，我们首先识别SL的基本瓶颈，从而提出可伸缩的SL框架，被卷曲的SGLR。 SGLR下的服务器在分裂层上广播了平均的公共梯度，在没有横跨客户端的情况下仿真FL而没有任何额外的通信。同时，SGLR将学习率分解为服务器端和客户端速率，并单独调整它们以支持许多客户端。仿真结果证实了SGLR实现比其他基线SL方法更高的精度，包括分裂，这甚至是与耗能更高的能量和通信成本的影响。作为次要结果，我们通过使用SLGR通过基线通过相互信息观察更大的敏感信息泄漏。

translated by 谷歌翻译