智能论文笔记

Improving scripts with a memory of natural feedback

Niket Tandon , Aman Madaan , Peter Clark , Yiming Yang

分类：自然语言处理 | 人工智能

2021-12-16

最终用户如何提供反馈，如果部署的结构化预测模型生成不正确的输出，则提供反馈？我们的目标是允许用户通过对模型输出的反馈来直接通过交互直接纠正错误。我们创建动态内存架构，具有越来越多的反馈记忆，关于输出中的错误。鉴于新的，看不见的输入，我们的模型可以使用类似于类似的过去的错误状态的反馈。在脚本生成任务上，我们凭经验显示模型的学习有效地应用反馈（最多30分），同时避免在部署后的类似过去错误（在看不见的方案集上提高了10分。这是加强部署模型的第一步，潜在地扩大其实用程序。

translated by 谷歌翻译

Interscript: A dataset for interactive learning of scripts through error feedback

Niket Tandon , Aman Madaan , Peter Clark , Keisuke Sakaguchi , Yiming Yang

分类：人工智能

2021-12-15

最终用户如何提供反馈，如果部署的结构化预测模型产生不一致的输出，忽略人类语言的结构复杂性？这是一个新兴主题，最近合成或约束设置的进展，下一个大的飞跃需要在现实世界中进行测试和调整模型。我们呈现了一个新的DataSet，interscript，包含有关已部署模型的用户反馈，该模型生成复杂的日常任务。依据包含8,466个数据点 - 输入是可能是错误的脚本和用户反馈，输出是修改的脚本。我们分散了两种用例，这可能会在互动学习中显着推进最先进的。数据集可用于：https：//github.com/allenai/interscript。

translated by 谷歌翻译

RecD: Deduplication for End-to-End Deep Learning Recommendation Model Training Infrastructure

Mark Zhao , Dhruv Choudhary , Devashish Tyagi , Ajay Somani , Max Kaplan , Sung-Han Lin , Sarunya Summa , Jongsoo Park , Aarti Basant , Niket Agarwal

分类：机器学习

2022-11-09

We present RecD (Recommendation Deduplication), a suite of end-to-end infrastructure optimizations across the Deep Learning Recommendation Model (DLRM) training pipeline. RecD addresses immense storage, preprocessing, and training overheads caused by feature duplication inherent in industry-scale DLRM training datasets. Feature duplication arises because DLRM datasets are generated from interactions. While each user session can generate multiple training samples, many features' values do not change across these samples. We demonstrate how RecD exploits this property, end-to-end, across a deployed training pipeline. RecD optimizes data generation pipelines to decrease dataset storage and preprocessing resource demands and to maximize duplication within a training batch. RecD introduces a new tensor format, InverseKeyedJaggedTensors (IKJTs), to deduplicate feature values in each batch. We show how DLRM model architectures can leverage IKJTs to drastically increase training throughput. RecD improves the training and preprocessing throughput and storage efficiency by up to 2.49x, 1.79x, and 3.71x, respectively, in an industry-scale DLRM training system.

translated by 谷歌翻译

Transformer based Fingerprint Feature Extraction

Saraansh Tandon , Anoop Namboodiri

分类：计算机视觉

2022-09-08

指纹特征提取是使用全局或局部表示的求解的任务。最先进的全球方法使用大量深度学习模型一次处理完整的指纹图像，从而使相应的方法记忆密集型。另一方面，本地方法涉及基于细节的补丁提取，多个特征提取步骤和昂贵的匹配阶段，从而使相应的接近时间密集型。但是，这两种方法都为解决问题提供了有用的，有时甚至是独家见解。使用两种方法一起提取指纹表示，在语义上是有用的，但效率很低。我们采用内置小型萃取器的基于卷积变压器的方法为提取指纹的全局和局部表示提供了时间和记忆有效的解决方案。这些表示形式的使用以及智能匹配过程为我们提供了多个数据库的最先进性能。项目页面可以在https://saraansh199999.github.io/global-plus-plus-local-fp-transformer上找到。

translated by 谷歌翻译

Learning Fashion Compatibility from In-the-wild Images

Additya Popli , Vijay Kumar , Sujit Jos , Saraansh Tandon

分类：计算机视觉

2022-06-13

互补的时尚推荐旨在识别来自不同类别（例如衬衫，鞋类等）的项目，这些项目“很好地融合在一起”是一件服装。大多数现有方法使用包含手动策划的兼容项目组合的标记的Outfit数据集学习此任务的表示形式。在这项工作中，我们建议通过利用人们经常穿兼容服装的事实来学习从野外街头时尚图像进行兼容性预测的表示形式。我们制定的借口任务是使同一个人所穿的不同物品的表示形式与其他人所穿的物品相比更接近。此外，为了减少推理期间野外和目录图像之间的域间隙，我们引入了对抗性损失，以最大程度地减少两个域之间特征分布的差异。我们对两个流行的时尚兼容性基准进行了实验 - 多视频和多视频搭配服装，并优于现有的自我监督方法，在跨数据库环境中尤其重要，在跨数据库设置中，训练和测试图像来自不同来源。

translated by 谷歌翻译

A Hybrid Science-Guided Machine Learning Approach for Modeling and Optimizing Chemical Processes

Niket Sharma , Y. A. Liu

分类：机器学习

2021-12-02

本研究介绍了混合过程建模和优化的广阔视角，将科学知识和数据分析在生物处理和化学工程中与科学引导机学习（SGML）方法相结合。我们将这种方法分为两大类。首先是指基于数据的ML模型的恭维的情况并使基于第一原理的科学的模型在预测中更准确，并且第二个对应于科学知识有助于使ML模型更加科学地保持的情况。我们对科学和工程文献进行了详细审查，与混合SGML方法有关，并提出了混合动力SGML模型的系统分类。为了应用ML改善基于科学的模型，我们呈现了直串行和并行混合建模的子类别及其组合，反向建模，阶阶建模，量化过程中的不确定性，甚至发现该过程的管理方程式的博览会模型。为了应用科学原则来改善ML模型，我们讨论科学导游的设计，学习和改进的子类别。对于每个子类别，我们确定其要求，优势和局限性以及其在生物处理和化学工程中的出版和潜在的应用领域。

translated by 谷歌翻译

Water Care: Water Surface Cleaning Bot and Water Body Surveillance System

Harsh Sankar Naicker , Yash Srivastava , Akshara Pramod , Niket Paresh Ganatra , Deepakshi Sood , Saumya Singh , Velmathi Guruviah

分类：机器人 | 计算机视觉

2021-11-24

每当一个人听到污染的时候，比不是不是，他们思想的第一个想法是空气污染。全球最介绍和讨论的污染之一是我们水体中不可生物降解的废物引起的。在印度的情况下，河流和湖泊表面有很多塑料废物。 Ganga River是10家河流之一，占90％的塑料，最终在大海中，由于这种废物，湖泊有主要的纳拉纳斯和湖泊的主要案例。这限制了清洁水源，导致水源的主要耗尽。从2001年到2012年，在海德拉巴市，3245公顷的湖泊消散了。在新德里南部的平均水平，水将九英尺抬起。因此，清洁这些本地水体和河流至关重要。我们的宗旨是开发一种水面清洁机床，该机床部署在岸上。机器人将在途中检测垃圾斑块并收集垃圾，从而使水体清洁。该解决方案采用监测机制，以便在发现任何人被发现污染水体时提醒当局。开发了一种通过使用太阳能来为系统供电的可持续系统。计算机视觉算法用于检测水面上的垃圾。该垃圾由机器人收集，并在指定位置处置。除了清洁水体外，还借助虚拟击剑算法实施了预防措施，如果有人试图污染水处理，则会提醒当局。部署Web应用程序和移动应用程序以分别检查机器人和岸上监控的运动。这种完整的解决方案涉及水护理所需的预防性和治疗措施。

translated by 谷歌翻译

AI-based Monitoring and Response System for Hospital Preparedness towards COVID-19 in Southeast Asia

Tushar Goswamy , Naishadh Parmar , Ayush Gupta , Raunak Shah , Vatsalya Tandon , Varun Goyal , Sanyog Gupta , Karishma Laud , Shivam Gupta , Sudhanshu Mishra

分类：自然语言处理 | 机器学习

2020-07-30

这篇研究论文提出了COVID-19监测和响应系统，以确定医院患者的数量激增以及关键设备（如东南亚国家的呼吸机），以了解医疗机构的负担。这可以通过资源计划措施来帮助这些地区的当局，以将资源重定向到模型确定的地区。由于缺乏有关医院患者涌入的公开可用数据，或者这些国家可能面临的设备，ICU单元或医院病床的短缺，我们利用Twitter数据来收集此信息。该方法为印度的各州提供了准确的结果，我们正在努力验证其余国家的模型，以便它可以作为当局监控医院负担的可靠工具。

translated by 谷歌翻译