最近的工作表明,学习的图像压缩策略可以倾销标准的手工制作压缩算法,这些压缩算法已经开发了几十年的速率 - 失真折衷的研究。随着计算机视觉的不断增长的应用,来自可压缩表示的高质量图像重建通常是次要目标。压缩,可确保计算机视觉任务等高精度,例如图像分割,分类和检测,因此具有跨各种设置的显着影响的可能性。在这项工作中,我们开发了一个框架,它产生适合人类感知和机器感知的压缩格式。我们表明可以了解到表示,同时优化核心视觉任务的压缩和性能。我们的方法允许直接从压缩表示培训模型,并且这种方法会产生新任务和低拍学习设置的性能。我们呈现出与标准高质量JPG相比细分和检测性能提高的结果,但是在每像素的比特方面,表示表示的表示性比率为4至10倍。此外,与天真的压缩方法不同,在比标准JEPG的十倍小的级别,我们格式培训的分段和检测模型仅在性能下遭受轻微的降级。
translated by 谷歌翻译
横梁面部识别(CFR)旨在识别个体,其中比较面部图像源自不同的感测模式,例如红外与可见的。虽然CFR由于与模态差距相关的面部外观的显着变化,但CFR具有比经典的面部识别更具挑战性,但它在具有有限或挑战的照明的场景中,以及在呈现攻击的情况下,它是优越的。与卷积神经网络(CNNS)相关的人工智能最近的进展使CFR的显着性能提高了。由此激励,这项调查的贡献是三倍。我们提供CFR的概述,目标是通过首先正式化CFR然后呈现具体相关的应用来比较不同光谱中捕获的面部图像。其次,我们探索合适的谱带进行识别和讨论最近的CFR方法,重点放在神经网络上。特别是,我们提出了提取和比较异构特征以及数据集的重新访问技术。我们枚举不同光谱和相关算法的优势和局限性。最后,我们讨论了研究挑战和未来的研究线。
translated by 谷歌翻译
本文侧重于机器人控制激光方向的研究问题,以最大限度地减少病理组织切除过程中健康组织的错误过度。激光手术刀已广泛用于手术中以去除病理组织靶标,如肿瘤或其他病变。然而,不同的激光取向可以产生各种组织消融腔,并且不正确的入射角会导致不应烧蚀的健康组织过度照射。这项工作旨在制定优化问题,以找到最佳的激光方向,以最小化过量激光诱导的组织消融的可能性。我们首先开发一种3D数据驱动的几何模型,以预测单个激光烧蚀后的组织腔的形状。通过障碍边界建模目标和非目标组织区域,最佳取向的确定被转换为碰撞最小化问题。该优化制剂的目的是从障碍物边界保持蒸煮的轮廓距离,这通过投影梯度下降来解决。进行了模拟实验,结果验证了各种障碍形状和不同初始入射角的条件的提出方法。
translated by 谷歌翻译
在这项工作中,我们建立了对砂桩镶嵌的不均匀区域的解说中的自治控制的启发式和学习策略。我们将问题正式化为马尔可夫决策过程,设计了一个演示了代理环境交互的模拟,最后将我们的模拟器与真正的Dozer原型进行了比较。我们使用钢筋学习,行为克隆和对比学习的方法来培训混合政策。我们的培训代理AGPNET达到人力级性能,优于自主分级任务的当前最先进的机器学习方法。此外,我们的代理能够从随机情景中推广到看不见的世界问题。
translated by 谷歌翻译
近年来已经看到了最终(E2E)口语理解(SLU)系统的重要进展,它直接从口头音频预测意图和插槽。虽然对话历史被利用以改善基于传统的基于文本的自然语言理解系统,但是当前的E2E SLU方法尚未在多转义和面向任务的对话中尚未结合这种关键的上下文信号。在这项工作中,我们提出了一个上下文E2E SLU模型架构,它使用多针关注机制来通过编码的先前的话语和对话框(语音助手所采取的动作)进行多转对对话。我们详细介绍了将这些上下文集成到最先进的复制和转换器的模型中的替代方法。当应用于由语音助理收集的大型识别的话语数据集时,我们的方法分别将平均单词和语义误差率降低10.8%和12.6%。我们还在公开可用的数据集中呈现结果,并显示我们的方法显着提高了非联盟基线的性能
translated by 谷歌翻译
自主驾驶中安全路径规划是由于静态场景元素和不确定的周围代理的相互作用,这是一个复杂的任务。虽然所有静态场景元素都是信息来源,但对自助车辆可用的信息有不对称的重要性。我们展示了一个具有新颖功能的数据集,签署了Parience,定义为指示符号是否明显地对自助式车辆的目标有关交通规则的目标。在裁剪标志上使用卷积网络,通过道路类型,图像坐标和计划机动的实验增强,我们预测了76%的准确性,使用76%的符号蓬勃发展,并使用与标志图像的车辆机动信息找到最佳改进。
translated by 谷歌翻译
在本文中,我们研究了在共享物理空间中运行时的影响界面和反馈对人机信任级别的反馈。我们使用的任务是为室内环境中的机器人指定“无-Go”区域。我们评估三种界面(物理,AR和基于地图)和四个反馈机制(无反馈,机器人在空间,AR“栅栏”和地图上标记的区域)。我们的评估看起来可用和信任。具体而言,如果参与者信任机器人“知道”在禁止地区是禁止机器人避免该区域的能力的地方。我们使用自我报告和间接的信任措施和可用性。我们的主要研究结果是:1)接口和反馈确实影响信任水平;2)参与者在很大程度上优选的混合界面反馈对,其中界面的模态与反馈不同。
translated by 谷歌翻译
荆棘冠的海星(婴儿床)爆发是珊瑚损失的主要原因是巨大的障碍礁(GBR),并且正在进行大量监测和控制计划,以试图管理生态可持续水平的COTS群体。我们释放了GBR上的COTS爆发区域的大规模注释的水下图像数据集,以鼓励机器学习和AI驱动技术的研究,以改善珊瑚礁秤上的COTS群体的检测,监测和管理。该数据集发布并托管在一次竞争中,挑战国际机器学习界,并从这些水下图像中的COTS检测的任务挑战。
translated by 谷歌翻译
本文通过将MD势能分量引入我们的生成模型,我们利用了生成模型,并在分子动力学(MD)模拟中的问题进行了重构。通过将潜在的能量纳入从TORCHMD进入条件的生成框架,我们试图在螺旋〜$ \ Lightarrow $〜蛋白的线圈结构之间构建低势能的转化途径。我们展示了如何为条件生成模型添加额外的损失功能,其通过分子配置的潜在能量为动机,并且还提出了一种用于这种增强损耗功能的优化技术。我们的结果表明,这种额外的损失术语在合成现实分子轨迹上的好处。
translated by 谷歌翻译
行人安全是运输系统管理人员和运营商的优先事项,以及德克萨斯州奥斯汀市雇用的愿景零策略的主要重点。虽然有许多治疗和技术能够有效地提高行人安全性,但识别这些治疗最需要的位置仍然是一个挑战。当前的实践需要手动观察候选位置进行有限的时间段,导致识别过程是耗时的,随着时间的推移,交通模式的滞后,缺乏可扩展性。中间块位置,通常需要安全对策,特别是难以识别和监控。该研究的目标是了解公交车站位置和中块交叉路口之间的相关性,以帮助交通工程师实施视觉零策略以提高行人安全性。在事先工作中,我们开发了一种使用深度神经网络模型来检测交通摄像机视频的行人交叉事件,以识别交叉事件。在本文中,我们扩展了使用在附近的交叉口的货架上的CCTV PAN- TILT-ZOOM(PTZ)流量监控摄像机中使用交通摄像机视频识别总线停止使用的方法。我们将视频检测结果与巴士站附近的中间块交叉相关联,在中间块交叉的每一侧的公共汽车上的行人活动。我们还通过自动创建仅显示交叉事件的视频剪辑自动化创建来促进人工活动检测的网络门户,从而大大提高人类审查过程的效率来促进人工活动检测。
translated by 谷歌翻译