智能论文笔记

Neural Architecture Search for Improving Latency-Accuracy Trade-off in Split Computing

Shoma Shimizu , Takayuki Nishio , Shota Saito , Yoichi Hirose , Chen Yen-Hsiu , Shinichi Shirakawa

分类：机器学习

2022-08-30

本文提出了一种用于拆分计算的神经体系结构搜索（NAS）方法。拆分计算是一种新兴的机器学习推理技术，可解决在物联网系统中部署深度学习的隐私和延迟挑战。在拆分计算中，神经网络模型通过网络使用Edge服务器和IoT设备进行了分离和合作处理。因此，神经网络模型的体系结构显着影响通信有效载荷大小，模型准确性和计算负载。在本文中，我们解决了优化神经网络体系结构以进行拆分计算的挑战。为此，我们提出了NASC，该NASC共同探讨了最佳模型架构和一个拆分点，以达到延迟需求（即，计算和通信的总延迟较小，都比某个阈值较小）。 NASC采用单发NAS，不需要重复模型培训进行计算高效的体系结构搜索。我们使用硬件（HW） - 基准数据的NAS基础的绩效评估表明，拟议的NASC可以改善``通信潜伏期和模型准确性''的权衡，即，将延迟降低了约40-60％，从基线降低了约40-60％有轻微的精度降解。

translated by 谷歌翻译

HTML版本

Interaction in Remote Peddling Using Avatar Robot by People with Disabilities

Takashi Kanetsuna , Kazuaki Takeuchi , Hiroaki Kato , Taichi Sono , Hirotaka Osawa , Kentaro Yoshifuji , Yoichi Yamazaki

分类：机器人

2022-12-02

Telework "avatar work," in which people with disabilities can engage in physical work such as customer service, is being implemented in society. In order to enable avatar work in a variety of occupations, we propose a mobile sales system using a mobile frozen drink machine and an avatar robot "OriHime", focusing on mobile customer service like peddling. The effect of the peddling by the system on the customers are examined based on the results of video annotation.

translated by 谷歌翻译

Efficient and Accurate Quantized Image Super-Resolution on Mobile NPUs, Mobile AI & AIM 2022 challenge: Report

Andrey Ignatov , Radu Timofte , Maurizio Denna , Abdel Younes , Ganzorig Gankhuyag , Jingang Huh , Myeong Kyun Kim , Kihwan Yoon , Hyeon-Cheol Moon , Seungho Lee

分类：计算机视觉

2022-11-07

Image super-resolution is a common task on mobile and IoT devices, where one often needs to upscale and enhance low-resolution images and video frames. While numerous solutions have been proposed for this problem in the past, they are usually not compatible with low-power mobile NPUs having many computational and memory constraints. In this Mobile AI challenge, we address this problem and propose the participants to design an efficient quantized image super-resolution solution that can demonstrate a real-time performance on mobile NPUs. The participants were provided with the DIV2K dataset and trained INT8 models to do a high-quality 3X image upscaling. The runtime of all models was evaluated on the Synaptics VS680 Smart Home board with a dedicated edge NPU capable of accelerating quantized neural networks. All proposed solutions are fully compatible with the above NPU, demonstrating an up to 60 FPS rate when reconstructing Full HD resolution images. A detailed description of all models developed in the challenge is provided in this paper.

translated by 谷歌翻译

Surgical Skill Assessment via Video Semantic Aggregation

Zhenqiang Li , Lin Gu , Weimin Wang , Ryosuke Nakamura , Yoichi Sato

分类：计算机视觉

2022-08-04

基于视频的自动化手术技能评估是协助年轻的外科学员，尤其是在资源贫乏地区的一项有前途的任务。现有作品通常诉诸CNN-LSTM联合框架，该框架对LSTM的长期关系建模在空间汇总的短期CNN功能上。但是，这种做法将不可避免地忽略了空间维度中工具，组织和背景等语义概念之间的差异，从而阻碍了随后的时间关系建模。在本文中，我们提出了一个新型的技能评估框架，视频语义聚合（Visa），该框架发现了不同的语义部分，并将它们汇总在时空维度上。语义部分的明确发现提供了一种解释性的可视化，以帮助理解神经网络的决策。它还使我们能够进一步合并辅助信息，例如运动学数据，以改善表示和性能。与最新方法相比，两个数据集的实验显示了签证的竞争力。源代码可在以下网址获得：bit.ly/miccai2022visa。

translated by 谷歌翻译

RealTime QA: What's the Answer Right Now?

Jungo Kasai , Keisuke Sakaguchi , Yoichi Takahashi , Ronan Le Bras , Akari Asai , Xinyan Yu , Dragomir Radev , Noah A. Smith , Yejin Choi , Kentaro Inui

分类：自然语言处理

2022-07-27

我们介绍了Realtime QA，这是一个动态的问答（QA）平台，该平台宣布问题并定期评估系统（此版本每周）。实时质量检查询问当前世界，质量检查系统需要回答有关新事件或信息的问题。因此，它挑战了QA数据集中的静态，常规假设，并追求瞬时应用。我们在包括GPT-3和T5在内的大型语言模型上建立了强大的基线模型。我们的基准是一项持续的努力，该初步报告在过去一个月中提出了实时评估结果。我们的实验结果表明，GPT-3通常可以根据新的退休文档正确更新其生成结果，从而突出了最新信息检索的重要性。尽管如此，我们发现GPT-3倾向于在检索文件时返回过时的答案，这些文件没有提供足够的信息来找到答案。这表明了未来研究的重要途径：开放式域质量检查系统是否可以确定无法回答的案例，并与用户甚至检索模块进行通信以修改检索结果？我们希望实时质量检查能够刺激问题答案及其他问题的瞬时应用。

translated by 谷歌翻译

CompNVS: Novel View Synthesis with Scene Completion

Zuoyue Li , Tianxing Fan , Zhenqiang Li , Zhaopeng Cui , Yoichi Sato , Marc Pollefeys , Martin R. Oswald

分类：计算机视觉 | 人工智能

2022-07-23

我们引入了一个可扩展的框架，用于从RGB-D图像中具有很大不完整的场景覆盖率的新型视图合成。尽管生成的神经方法在2D图像上表现出了惊人的结果，但它们尚未达到相似的影像学结果，并结合了场景完成，在这种情况下，空间3D场景的理解是必不可少的。为此，我们提出了一条在基于网格的神经场景表示上执行的生成管道，通过以2.5D-3D-2.5D方式进行场景的分布来完成未观察到的场景部分。我们在3D空间中处理编码的图像特征，并具有几何完整网络和随后的纹理镶嵌网络，以推断缺失区域。最终可以通过与一致性的可区分渲染获得感性图像序列。全面的实验表明，我们方法的图形输出优于最新技术，尤其是在未观察到的场景部分中。

translated by 谷歌翻译

Compound Prototype Matching for Few-shot Action Recognition

Yifei Huang , Lijin Yang , Yoichi Sato

分类：计算机视觉

2022-07-12

很少有动作识别旨在仅使用少量标记的训练样本识别新型动作类别。在这项工作中，我们提出了一种新颖的方法，该方法首先将每个视频汇总到由一组全球原型和一组集中原型组成的复合原型中，然后比较基于原型的视频相似性。鼓励每个全局原型总结整个视频中的特定方面，例如动作的开始/演变。由于没有针对全球原型提供明确的注释，因此我们使用一组专注的原型专注于视频中的某些时间戳。我们通过匹配支持视频和查询视频之间的复合原型来比较视频相似性。例如，从相同的角度来比较视频，以比较两个动作是否同样开始。对于集中的原型，由于动作在视频中具有各种时间变化，因此我们采用两分匹配，以比较具有不同时间位置和偏移的动作。实验表明，我们提出的方法在多个基准上实现了最先进的结果。

translated by 谷歌翻译

Precise Affordance Annotation for Egocentric Action Video Datasets

Zecheng Yu , Yifei Huang , Ryosuke Furuta , Takuma Yagi , Yusuke Goutsu , Yoichi Sato

分类：计算机视觉

2022-06-11

物体负担是人类对象互动中的一个重要概念，它基于人类运动能力和物体的物理特性提供有关行动可能性的信息，从而使任务受益，例如行动预期和机器人模仿学习。但是，现有数据集通常：1）将负担能力与对象功能混合在一起；2）将负担与目标相关的动作混淆；3）忽略人类运动能力。本文提出了一个有效的注释方案，通过将目标 - 毫无疑问的运动动作和将类型抓住为负担性标签，并引入机械作用的概念来解决这些问题，以表示两个对象之间的动作可能性。我们通过将该方案应用于Epic-Kitchens数据集并通过“负担能力识别”等任务来测试我们的注释，从而提供新的注释。我们定性地验证了接受注释训练的模型可以区分负担能力和机械行动。

translated by 谷歌翻译

Object Instance Identification in Dynamic Environments

Takuma Yagi , Md Tasnimul Hasan , Yoichi Sato

分类：计算机视觉

2022-06-10

我们研究了人们与对象互动的动态环境中识别对象实例的问题。在这样的环境中，对象的外观通过与其他实体的相互作用，手动阻塞，背景变化等动态变化。这会导致外观内部范围更大的外观变化，而不是在静态环境中。为了发现这种情况下的挑战，我们新建立了在Epic-Kitchens数据集中建立的1,500多个实例的基准，该数据集包括自然活动并对IT进行了广泛的分析。实验结果表明（i）针对特定实例的外观变化的鲁棒性（ii）集成低级（例如，颜色，纹理）和高级（例如，对象类别）功能（iii）重叠对象上的前景特征选择是进一步改进所必需的。

translated by 谷歌翻译

Feature Selection for Discovering Distributional Treatment Effect Modifiers

Yoichi Chikahara , Makoto Yamada , Hisashi Kashima

分类：机器学习 | (统计)机器学习

2022-06-01

找到与治疗效果差异相关的特征对于揭示基本因果机制至关重要。现有方法通过测量特征属性如何影响{\ iT条件平均治疗效果}（CATE）的程度来寻求此类特征。但是，这些方法可能会忽略重要特征，因为CATE是平均治疗效果的度量，无法检测到平均值以外的其他分布参数（例如方差）的差异。为了解决现有方法的这种弱点，我们提出了一个特征选择框架，以发现{\ IT分布处理效果修饰符}。我们首先制定特征重要性度量，该指标量化特征属性如何影响潜在结果分布之间的差异。然后，我们得出其计算高效的估计器，并开发了一个功能选择算法，该算法可以将I型错误率控制为所需级别。实验结果表明，我们的框架成功地发现了重要特征，并优于现有的基于均值的方法。

translated by 谷歌翻译