深度神经网络过度参数化,这意味着参数的数量远远大于用于训练网络的样本数量。即使在这样的制度下,深层架构也不会过度配合。这种现象是一个活跃的研究领域,并且已经提出了许多理论来理解这种特殊的观察。这些包括VapnikChervonenkis(VC)维边界和Rademacher复杂边界,其表明网络的容量由权重的范数表征,而不是参数的数量。然而,尚未研究输入噪声对浅层和深层架构的这些措施的影响。在本文中,我们分析了各种正则化方案对神经网络复杂性的影响,我们用损失,权重的$ L_2 $范数,Rademacher复杂性(直接近似正则化复杂度-DARC1),基于VC维度的低复杂度神经网络(LCNN)来表征。 )不同程度的高斯输入噪声。我们证明了$ L_2 $正则化导致了一个更简单的假设类,并且DARC1正则化器随后对于浅层和深层架构都进行了更好的泛化。雅可比正则化器适用于具有高水平输入噪声的浅层架构。对于浅层和深层架构,光谱归一化获得最高的测试设备准确度。我们还表明,Dropoutalone在输入噪声存在的情况下表现不佳。最后,我们展示了较深的体系结构对输入噪声的鲁棒性,而不是它们的浅部分。
translated by 谷歌翻译
解释深度学习的不合理有效性已经让全球各地的研究人员望而却步。各种作者都描述了多个度量标准来评估深层体系结构的容量。在本文中,我们提到了对具有铰链损耗的支持向量机(SVM)所描述的半边界限,将其应用于深度前馈体系结构并导出与先前限制的术语不同的Vapnik-Chervonenkis(VC)边界。网络的权重数量。在这样做的过程中,我们还提出了Dropout和Dropconnect等技术在降低网络容量方面的有效性。最后,我们描述了最大化输入和输出裕度的效果,以实现输入噪声稳健的深层体系结构。
translated by 谷歌翻译
神经网络很容易受到对抗性攻击 - 视觉上不易察觉的小噪声,当加到输入端时会大大改变输出。防御这些敌对攻击的最有效方法是使用对抗性训练的方法。我们分析了经过对侧训练的强大模型,以研究它们在潜层层面对抗对抗性攻击的脆弱性。我们的分析揭示了与对抗性攻击具有鲁棒性的输入层相反,这些鲁棒模型的特征层非常容易受到小幅度的对抗性扰动。利用这些信息,我们引入了一种新技术潜在对抗训练(LAT),其中包括对经过对侧训练的模型进行微调,以确保在特征层中的稳健性。我们还提出潜在攻击(LA),一种用于构建对抗性示例的新算法。 LAT导致测试精度的微小改进,并导致针对MNIST,CIFAR-10,CIFAR-100数据集显示的通用一阶对抗性PGD攻击的最新对抗精度。
translated by 谷歌翻译
在从个人智能手机到边境安全的不同领域中,可靠地确定个人身份的需求至关重要;从自动驾驶汽车到电子投票;从追踪儿童便利到预防人口贩运;从犯罪现场调查到客户服务个性化。生物识别技术需要使用诸如面部,指纹和语音之类的生物属性来识别人,这种生物识别技术正在越来越多地用于几种此类应用中。虽然生物识别技术在过去十年中取得了快速发展,但仍有一些基本问题尚未得到令人满意的解决。在本文中,我们将讨论其中的一些问题,并列举该领域的一些激动人心的挑战。
translated by 谷歌翻译
我们为类别特定的CAD模型提出了一种新颖的基于线的参数化。所提出的参数化使用基于字典的RANSAC方法将所考虑的3D类别特定的CAD模型对象相关联,该方法使用视觉点作为先验,并且在场景的相应强度图像中检测到边缘。关联问题作为经典的几何问题而不是数据集驱动,因此节省了注释数据集中为不同类别对象训练关键点网络的时间和劳动。除了不需要数据集准备之外,该方法还可以完成整个过程,因为此方法仅处理图像一次,因此无需为所有图像中的图像中的每个对象调用网络。 3D-2D边缘关联模块后面是线的截面算法用于恢复对象姿势。该公式优化了物体的形状和姿态,从而有助于更准确地恢复物体3D结构。最后,使用因子图制剂与相机测距法一起构造SLAM问题。
translated by 谷歌翻译
人工智能(AI)和自动化的快节奏推动了策略师重塑他们的商业模式。这促进了人工智能在业务流程中的整合,但这种采用的后果尚未得到探索,需要引起注意。本文重点介绍了企业对企业的整体影响 - 从研究,创新,市场部署到商业模式中的期货提升。为了获得这种整体影响,我们设计了基于Neo-Schumpeterian经济学及其三种力量的三维研究模型。创新,知识和创业精神。第一个维度涉及人工智能的研究和创新。在第二个维度中,我们探讨了人工智能对全球市场的影响以及企业的战略目标,最后,第三个维度探讨了人工智能如何塑造商业环境。此外,本文还探讨了对演员及其黑暗面的影响。
translated by 谷歌翻译
磁共振成像(MRI)越来越多地用于评估,诊断和计划各种疾病的治疗。在单次扫描中以MR脉冲序列的形式可视化组织的各种对比的能力为医生提供了有价值的见解,并且使得自动化系统能够执行下游分析。然而,许多问题如禁止扫描时间,图像损坏,不同的采集协议,对某些对比材料的口服可能会妨碍为患者获取多个序列的过程。这给医生和自动化系统带来了挑战,因为丢失序列所提供的补充信息就会丢失。在本文中,我们提出了生成性对抗网络(GAN)的变体,其能够利用多个可用序列中包含的冗余信息,以便为患者扫描生成一个或多个缺失序列。所提出的网络被设计为多输入多输出网络,其组合来自所有可用脉冲序列的信息,隐含地推断哪些序列缺失,并且在单个正向通过中合成丢失的序列。我们在具有四个序列的两个脑MRI数据集上展示和验证我们的方法,并且显示所提出的方法在任何可能的情况下同时合成所有缺失序列的适用性,其中四个序列中的一个,两个或三个可能缺失。我们将我们的方法与竞争的单模态和多模态方法进行了比较,并表明我们在定量和定性方面都表现优异。
translated by 谷歌翻译
近年来,通过具有注释的基准,行动认可得到了提高。然而,研究仍主要局限于人类行为或运动识别 - 专注于高度特定的视频理解任务,并且在描述视频的整体内容方面留下了显着差距。我们通过展示大规模的“整体视频理解数据集”〜(HVU)来填补这一空白。 HVU在语义分类中以层次结构的方式组织,侧重于多标签和多任务视频理解,作为包含动态场景中多个语义方面的识别的综合问题。 HVU包含大约约577k个视频,其中13M注释用于跨越{4378}类的训练和验证集.HVU包含在场景,对象,动作,事件,属性和概念的类别上定义的语义方面,自然地捕获了对象世界场景。此外,我们引入了一种新的时空深度神经网络架构,称为“整体外观和时间网络”〜(HATNet),它通过结合外观和时间线索的中间表示,将2D和3D架构融为一体。 HATNet专注于多标签和多任务学习问题,并以端到端的方式进行培训。实验表明,在HVU上训练的HATNet在挑战人类行动数据集方面优于当前最先进的方法:HMDB51,UCF101和动力学。数据集和代码将公开发布。
translated by 谷歌翻译
在本文中,我们感兴趣的是使用动态运动滤波器对运动cuesin视频进行自我监督学习,以获得更好的运动表示,特别是促进人类行为识别。到目前为止,视觉社区一直关注使用标准滤波器的时空方法,而我们在此提出动态滤波器,通过预测短期未来帧来自适应地学习视频特定的内部运动表示。 Wename这种新的运动表示,作为动态运动表示(DMR),并作为一个新层嵌入3D卷积网络内部,捕获整个视频剪辑中的视觉外观和运动动态,并通过端到端网络学习。同时,我们利用这些动作表示来丰富视频分类。我们设计了帧预测任务作为赋予分类问题的辅助任务。为了实现这些总体目标,为此,我们引入了一种新颖的统一时空3D-CNN架构(DynamoNet),通过预测共同优化视频分类和学习运动表示。 futureframes作为一个多任务学习问题。我们在挑战人类行动数据集上进行实验:Kinetics 400,UCF101,HMDB51。使用提出的DynamoNet的实验在所有数据集上显示出有希望的结果。
translated by 谷歌翻译
我们描述了一种配备好奇心算法(CA)的化学机器人助手,可以有效地探索复杂的化学系统canexhibit状态。 CA机器人旨在以开放式方式探索配方,没有明确的优化目标。通过将CA机器人应用于自行推进的多组分水包油滴的研究,我们能够观察到与随机参数搜索相比可能具有更多种类的液滴行为并给出相同的预算。我们证明了CA机器人能够发现液滴突然且高度特异性地响应微小的温度变化。鉴定了六种自推进液滴运动模式,并使用包括NMR在内的各种技术探测时间 - 温度相位图进行分类。这项工作说明了目标免费搜索可以显着提高不可预测的观察率,从而导致具有潜在应用信息化学的新发现。
translated by 谷歌翻译