我们介绍了一种计算关于数据集的学习任务的导数的方法。学习任务是从训练设置到验证错误的函数,可以由培训的深神经网络(DNN)表示。 “数据集导数”是一个线性运算符,围绕培训的模型计算,它通知每个训练样本的权重的扰动如何影响验证误差,通常在单独的验证数据集上计算。我们的方法,DIVA(可微分验证)铰接在预先训练的DNN周围的休假交叉验证误差的闭合形式微分表达上。这种表达构成数据集衍生物。 Diva可用于数据集自动策策,例如用错误的注释删除样本,使用其他相关样本增强数据集或重新平衡。更一般地,DIVA可用于优化数据集,以及模型的参数,作为培训过程的一部分,而无需单独的验证数据集,与AutomL的双层优化方法不同。为了说明DIVA的灵活性,我们向样本自动策展任务报告实验,如异常值拒绝,数据集扩展和多模态数据的自动聚合。
translated by 谷歌翻译
自动化生成和(用户)逼真的虚拟地形的创作是VR模型和游戏等多媒体应用最受寻求的。地形采用的最常见的代表是数字海拔模型(DEM)。现有地形创作和建模技术已经解决了其中一些并且可以广泛地分类为:程序建模,仿真方法和基于示例的方法。在本文中,我们提出了一种由VAE和生成条件GaN模型组合的新型现实地形创作框架。我们的框架是一种基于示例的方法,该方法通过从真实世界地形数据集学习潜在的空间来克服现有方法的局限性。此潜在空间允许我们从单个输入生成地形的多个变体,以及地形之间的内插,同时保持所生成的地形接近真实数据分布。我们还开发了一个交互式工具,让用户使用最低纲领派的输入生成不同的地形。我们进行彻底的定性和定量分析,并提供与其他SOTA方法的比较。我们打算向学术界发出我们的代码/工具。
translated by 谷歌翻译
食品包装行业通常使用工厂工人手动包装的季节性成分。对于由体积或重量挑选的小型食物,倾向于使缠绕,棒或聚集在一起,很难预测他们从视觉检查中有多么交流,使其成为准确掌握必要目标大量的挑战。工人依赖于称重鳞片的组合和一系列复杂的操作,以分离食物并达到目标质量。这使得过程自动化是非琐碎的事件。在这项研究中,我们提出了一种结合1)预先抓住以降低缠结程度的方法,2)在掌握量大于掌握量时仔细丢弃多余的食物以调整抓住质量的缠绕。目标质量和3)选择抓取点以抓住可能合理地高于目标抓地质量的量。我们评估了各种食品的方法,缠绕,粘和丛的各种食物,每个食物具有不同的尺寸,形状和材料特性,例如体积质量密度。我们使用我们所提出的方法表现出掌握用户指定目标群众的准确性的显着改进。
translated by 谷歌翻译
我们提出了一种名为MaskGru的经常发生的基于神经网络的时空框架,用于检测和跟踪视频中的小对象。虽然近年来对象跟踪领域有很多发展,但在其他移动物体和演员中跟踪小型移动物体(例如在运动镜头中移动玩家中的球)仍然是一项艰巨的任务。现有的时空网络,例如卷积门复制单位(Concrecrus)难以训练,并且在这种情况下准确地跟踪小物体。为了克服这些困难,我们开发了MaskGru框架,它使用CONCRGRU生成的内部隐藏状态的加权和被跟踪对象的预测边界框的3声道掩码作为在下一次步骤中使用的隐藏状态底层concregru。我们认为,通过加权和将掩模结合到隐藏状态的技术具有两个优点:通过指示对象所在的前一个视频帧中的位置,控制爆炸梯度并将注意力机制引入网络的效果。我们的实验表明,即使在存在其他移动物体的情况下,MaskGru也在跟踪相对于视频分辨率的对象时占Concergu。
translated by 谷歌翻译
中风康复旨在通过功能运动的重复实践来增加神经塑性,但由于重复不足,对恢复可能具有最小的影响。最佳培训内容和数量目前未知,因为不存在测量它们的实用工具。在这里,我们呈现Primseq,一个管道来分类和计算在笔划康复中培训的功能动作。我们的方法集成了可穿戴传感器来捕获上体运动,深度学习模型来预测运动序列,以及对Tally Motions的算法。训练有素的模型将康复活动分解成组件功能运动,优于竞争性机器学习方法。 Primseq进一步在人类专家的时间和劳动力成本的一小部分中量化了这些动作。我们展示了以前看不见的中风患者的Primseq的能力,这是一系列上肢电机损伤。我们预计这些进步将支持在中风康复中定量给药试验所需的严格测量。
translated by 谷歌翻译
尽管近期基于深度学习的语义细分,但远程感测图像的自动建筑检测仍然是一个具有挑战性的问题,由于全球建筑物的出现巨大变化。误差主要发生在构建足迹的边界,阴影区域,以及检测外表面具有与周围区域非常相似的反射率特性的建筑物。为了克服这些问题,我们提出了一种生成的对抗基于网络的基于网络的分割框架,其具有嵌入在发电机中的不确定性关注单元和改进模块。由边缘和反向关注单元组成的细化模块,旨在精炼预测的建筑地图。边缘注意力增强了边界特征,以估计更高的精度,并且反向关注允许网络探索先前估计区域中缺少的功能。不确定性关注单元有助于网络解决分类中的不确定性。作为我们方法的权力的衡量标准,截至2021年12月4日,它在Deepglobe公共领导板上的第二名,尽管我们的方法的主要重点 - 建筑边缘 - 并不完全对齐用于排行榜排名的指标。 DeepGlobe充满挑战数据集的整体F1分数为0.745。我们还报告了对挑战的Inria验证数据集的最佳成绩,我们的网络实现了81.28%的总体验证,总体准确性为97.03%。沿着同一条线,对于官方Inria测试数据集,我们的网络总体上得分77.86%和96.41%,而且准确性。
translated by 谷歌翻译
传统上,视频会议是广泛采用的电信解决方案,但由于面部代表性的2D性质,缺乏沉浸性是固有的。通过头戴式显示器(HMDS)的通信/远程呈现系统中虚拟现实(VR)的集成有望为用户提供更好的沉浸体验。然而,HMD通过阻挡用户的面部外观和表达而导致障碍。为了克服这些问题,我们提出了一种用于HMD去闭锁的一种新的关注的编码器解码器架构。我们还建议使用用户的短视频(1-2分钟),在不同的外观中捕获的短视频(1-2分钟)培训我们的特定于人士的模型,并展示了解开了Unseen姿势和外观的概括。我们通过最先进的方法报告了卓越的定性和定量结果。我们还使用现有动画和3D面重建管道向混合视频电话会议提供这种方法的应用。
translated by 谷歌翻译
在本文中,我们开发了一种强大的3D服装数字化解决方案,可以在现实世界时尚目录图像上概括用布纹理遮挡和大体姿势变化。我们假设已知类型的服装类型的固定拓扑参数模板网格模型(例如,T恤,裤子),并从输入目录图像执行高质量纹理的映射到与衣服的参数网格模型相对应的UV映射面板。我们通过首先预测服装边界的稀疏2D地标。随后,我们使用这些地标在UV地图面板上执行基于薄板样条的纹理传输。随后,我们使用深度纹理修复网络来填充TPS输出中的大孔(由于查看变化和自闭电),以产生一致的UV映射。此外,为了培训监督的地标预测和纹理修复任务,我们产生了一大组合成数据,其具有不同于各种姿势的各种视图的不同纹理和照明。此外,我们手动注释了一小组时尚目录图像从在线时尚电子商务平台到Finetune。我们开展彻底的经验评估,并在时尚目录图像上显示我们所提出的3D服装纹理解决方案的令人印象深刻的定性结果。这种3D服装数字化有助于我们解决启用3D虚拟试验的具有挑战性的任务。
translated by 谷歌翻译
大物体的操纵和安全地在人类附近进行安全操作的能力是通用国内机器人助手的关键能力。我们介绍了一种柔软,触觉的人形的人形机器人的设计,并展示了用于处理大物体的全身丰富的接触操作策略。我们展示了我们的硬件设计理念,用于使用软触觉传感模块,包括:(i)低成本,抗缝,接触压力定位的武器, (ii)基于TRI软气泡传感器的爪子,用于最终效应器,(III)柔顺的力/几何传感器,用于粗糙几何感测表面/胸部。我们利用这些模块的机械智能和触觉感应,为全身抓握控制进行开发和展示运动原语。我们评估硬件在实现各种大型国内物体上实现不同优势的掌握。我们的结果表明,利用富含接触的操纵策略的柔软度和触觉感应的重要性,以及与世界的全身力量控制的互动前进的道路。
translated by 谷歌翻译
从视频和动态数据自动活动识别是一种重要的机器学习问题,其应用范围从机器人到智能健康。大多数现有的作品集中在确定粗动作,如跑步,登山,或切割植物,其具有相对长的持续时间。这对于那些需要细微动作中的高时间分辨率识别应用的一个重要限制。例如,在中风恢复,定量康复剂量需要区分具有亚秒持续时间的运动。我们的目标是弥合这一差距。为此,我们引入了一个大规模,多数据集,StrokeRehab,为包括标记高时间分辨率微妙的短期操作的新动作识别基准。这些短期的行为被称为功能性原语和由河段,运输,重新定位,稳定作用,和空转的。所述数据集由高品质的惯性测量单元的传感器和执行的日常生活像馈送,刷牙等的活动41中风影响的病人的视频数据的,我们表明,基于分割产生嘈杂状态的最先进的现有机型预测时,对这些数据,这往往会导致行动超量。为了解决这个问题,我们提出了高分辨率的活动识别,通过语音识别技术的启发,它是基于一个序列到序列模型,直接预测的动作序列的新方法。这种方法优于国家的最先进的电流在StrokeRehab数据集的方法,以及对标准的基准数据集50Salads,早餐,和拼图。
translated by 谷歌翻译