新一代无线技术,健身跟踪器和带嵌入式传感器的设备可能对医疗系统和生活质量产生重大影响。在这些设备中考虑的最重要方面是所产生的数据和功耗的准确性。可以监控的许多事件,而明显简单,可能无法通过配备嵌入式传感器的设备易于检测和识别,尤其是在具有低计算能力的设备上。众所周知,深度学习减少了对贡献识别不同目标类别的特征的研究。在这项工作中,我们提供了一种适用于摆动板的便携式和电池供电的微控制器。摆动板是低成本的设备,可用于传感器训练,以避免踝关节伤害或受伤后的康复过程的一部分。通过使用基于深度学习的认知技术来实施运动识别过程。为了降低功耗,我们添加了一个适应性层,它动态管理设备的硬件和软件配置,以在运行时调整到所需的操作模式。我们的实验结果表明,将节点配置调整为运行时的工作量可以节省高达60%的功耗。在自定义数据集上,我们的优化和量化的神经网络达到了大于97%的精度值,用于检测摆动板上的一些特定体育锻炼。
translated by 谷歌翻译
带有像素天标签的注释图像是耗时和昂贵的过程。最近,DataSetGan展示了有希望的替代方案 - 通过利用一小组手动标记的GaN生成的图像来通过生成的对抗网络(GAN)来综合大型标记数据集。在这里,我们将DataSetGan缩放到ImageNet类别的规模。我们从ImageNet上训练的类条件生成模型中拍摄图像样本,并为所有1K类手动注释每个类的5张图像。通过在Biggan之上培训有效的特征分割架构,我们将Bigan转换为标记的DataSet生成器。我们进一步表明,VQGan可以类似地用作数据集生成器,利用已经注释的数据。我们通过在各种设置中标记一组8K实图像并在各种设置中评估分段性能来创建一个新的想象因基准。通过广泛的消融研究,我们展示了利用大型生成的数据集来培训在像素 - 明智的任务上培训不同的监督和自我监督的骨干模型的大增益。此外,我们证明,使用我们的合成数据集进行预培训,以改善在几个下游数据集上的标准Imagenet预培训,例如Pascal-VOC,MS-Coco,Citycapes和Chink X射线以及任务(检测,细分)。我们的基准将公开并维护一个具有挑战性的任务的排行榜。项目页面:https://nv-tlabs.github.io/big-dataseTgan/
translated by 谷歌翻译
对比度学习依赖于假设正对包含相关视图,例如,视频的图像或视频的共同发生的多峰信号,其共享关于实例的某些基础信息。但如果违反了这个假设怎么办?该文献表明,对比学学习在存在嘈杂的视图中产生次优表示,例如,没有明显共享信息的假正对。在这项工作中,我们提出了一种新的对比损失函数,这是对嘈杂的观点的强大。我们通过显示嘈杂二进制分类的强大对称损失的连接提供严格的理论理由,并通过基于Wassersein距离测量来建立新的对比界限进行新的对比。拟议的损失是完全的方式无话无双,并且对Innoconce损失的更换简单的替代品,这使得适用于现有的对比框架。我们表明,我们的方法提供了在展示各种现实世界噪声模式的图像,视频和图形对比学习基准上的一致性改进。
translated by 谷歌翻译
当地球经历全球变暖时,自然灾害,如洪水,龙卷风或野火,越来越普遍普遍。很难预测事件的何时何时会发生,所以及时的应急响应对于拯救受破坏事件危害的人的生命至关重要。幸运的是,技术可以在这些情况下发挥作用。社交媒体帖子可以用作低延迟数据源来了解灾难的进展和后果,但解析此数据无需自动化方法。在前的工作主要集中在基于文本的过滤,但基于图像和基于视频的过滤仍然很大程度上是未开发的。在这项工作中,我们介绍了一个大规模的多标签数据集,其中包含977,088个图像,43个事件和49个地方。我们提供数据集建设,统计和潜在偏差的详细信息;介绍和训练事件检测模型;在Flickr和Twitter上为数百万图像进行图像过滤实验。我们还提出了一些关于事件分析的申请,以鼓励和使未来的人道主义援助中的计算机愿景工作。代码,数据和模型可在http://incidentsdataset.csail.mit.edu上获得。
translated by 谷歌翻译
布局分析(LA)阶段对光学音乐识别(OMR)系统的正确性能至关重要。它标识了感兴趣的区域,例如Staves或歌词,然后必须处理,以便转录它们的内容。尽管存在基于深度学习的现代方法,但在不同模型的精度,它们对不同领域的概括或更重要的是,它们尚未开展对OMR的详尽研究,或者更重要的是,它们对后续阶段的影响管道。这项工作侧重于通过对不同神经结构,音乐文档类型和评估方案的实验研究填补文献中的这种差距。培训数据的需求也导致了一种新的半合成数据生成技术的提议,这使得LA方法在真实情况下能够有效适用性。我们的结果表明:(i)该模型的选择及其性能对于整个转录过程至关重要; (ii)(ii)常用于评估LA阶段的指标并不总是与OMR系统的最终性能相关,并且(iii)所提出的数据生成技术使最先进的结果能够以有限的限制实现标记数据集。
translated by 谷歌翻译
人类比赛无人机比针对端到端自治飞行所培训的神经网络更快。这可能与人类飞行员有效地选择任务相关的视觉信息的能力有关。这项工作调查了能够模仿人眼凝视行为和注意力的神经网络可以提高基于视觉的自主无人机赛车的挑战性的神经网络性能。我们假设基于凝视的注意预测可以是基于模拟器的无人机赛任务中的视觉信息选择和决策的有效机制。我们使用来自18个人的无人机飞行员的眼睛凝视和飞行轨迹数据来测试这个假设,以培训视觉注意预测模型。然后,我们使用这种视觉注意预测模型来使用模仿学习训练基于视觉的自主无人机赛车的端到端控制器。我们将注意力预测控制器的无人机赛竞赛性能与使用原始图像输入和基于图像的抽象(即,特征曲目)进行比较。我们的研究结果表明,关注预测的控制器优于基线,能够始终如一地完成挑战性的竞赛赛道,最高可达88%的成功率。此外,当在对凝固参考轨迹进行评估时,视觉注意力预测和基于特征轨迹的模型显示出比基于图像的模型更好的泛化性能。我们的结果表明,人类视觉注意力预测可提高基于视觉视觉的无人机赛车的性能,为最终可以达到甚至超过人类性能的基于视觉,快速和敏捷的自主飞行提供了重要步骤。
translated by 谷歌翻译
本文介绍了图像“培养”的概念,即定义为改变“文化特征的画笔”的过程,使物体被认为属于给定文化的同时保留其功能。首先,我们提出了一种基于生成的对冲网络(GaN)将物体从源转换为目标文化域的管道。然后,我们通过在线调查问卷收集数据,以测试有关意大利参与者对属于不同文化的物体和环境的偏好的四个假设。正如预期的那样,结果取决于个人口味和偏好:然而,它们符合我们的猜想,即某些人在与机器人或其他智能系统的互动期间,可能更愿意被示出其文化领域已被修改以匹配其的图像文化背景。
translated by 谷歌翻译
最近的数据提取攻击暴露了语言模型可以记住一些培训样本逐字。这是一种漏洞,可以损害模型培训数据的隐私。在这项工作中,我们介绍了子句:私人私人下一象征预测的实用协议,旨在防止在公共语料库预训练后在私人语料库中进行微调的语言模型的隐私违规。我们展示子子句通过放松差异私密预测,限制了私人语料库中的任何单独用户所唯一的信息的泄漏。重要的是,子提M允许一个紧张,数据相关的隐私会计机制,它允许它挫败现有的数据提取攻击,同时保持语言模型的效用。子句是即使在公开释放由大型变压器的模型等基于GPT-2的基于大型变换器的模型制作的数千个下一令牌预测,也是第一个维护隐私的协议。
translated by 谷歌翻译
凭借在运动扫描系统生产的LIDAR点云注册的目的,我们提出了一种新颖的轨迹调整程序,可以利用重叠点云和关节集成之间所选可靠的3D点对应关系的自动提取。 (调整)与所有原始惯性和GNSS观察一起。这是使用紧密耦合的方式执行的动态网络方法来执行,这通过在传感器处的错误而不是轨迹等级来实现最佳补偿的轨迹。 3D对应关系被制定为该网络内的静态条件,并且利用校正的轨迹和可能在调整内确定的其他参数,以更高的精度生成注册点云。我们首先描述了选择对应关系以及将它们作为新观察模型作为动态网络插入的方法。然后,我们描述了对具有低成本MEMS惯性传感器的实用空气激光扫描场景中提出框架的性能进行评估。在进行的实验中,建议建立3D对应关系的方法在确定各种几何形状的点对点匹配方面是有效的,例如树木,建筑物和汽车。我们的结果表明,该方法提高了点云登记精度,否则在确定的平台姿态或位置(以标称和模拟的GNSS中断条件)中的错误受到强烈影响,并且可能仅使用总计的一小部分确定未知的触觉角度建立的3D对应数量。
translated by 谷歌翻译
时间序列分析是自然科学,社会科学和工程中的广泛任务。基本问题是发现输入时间序列的表现力且有效的计算表示,以用作执行任意下游任务的起点。在本文中,我们建立了最近的作品,该作品使用路径的签名作为特征映射,并研究基于线性随机投影来近似这些特征的计算上有效的技术。我们提出了几种理论结果,以证明我们的方法和经验验证,我们的随机预测可以有效地检索路径的底层签名。我们在多个任务中展示了所提出的随机特征的令人惊讶的性能,包括(1)使用随机签名将随机微分方程的控制和(2)映射到相应的解决方案,以及用于分类任务的时间序列表示。与相应的截断签名方法相比,我们的随机签名在高维度上更加计算效率,并且通常会导致更好的准确性和更快的培训。除了提供一个新的工具来提取签名还是进一步验证这些特征的高度表现力,我们相信我们的结果提供了几个现有的研究领域之间有趣的概念联系,这表明未来调查的新的兴趣方向。
translated by 谷歌翻译