视频质量评估(VQA)仍然是一个重要而挑战性的问题,影响了最广泛的尺度的许多应用程序。移动设备和云计算技术的最新进展使得可以捕获,处理和共度高分辨率,高分辨率(HFR)视频几乎瞬间。能够监控和控制这些流式视频的质量可以使得能够提供更令人愉快的内容和感知的优化速率控制。因此,需要一种强迫需要开发可以在巨大尺度部署的VQA模型。虽然最近的一些效果已应用于可变帧速率和HFR视频质量的全参考(FR)分析,但是没有研究帧速率变化的无引用(NR)VQA算法的开发。在这里,我们提出了一种用于评估HFR视频的一级盲VQA模型,我们将其配给了帧群感知视频评估程序W / O参考(Faver)。 Faver使用扩展模型的空间自然场景统计数据,即包括节省空间小波分解的视频信号,进行有效的帧速率敏感质量预测。我们对几个HFR视频质量数据集的广泛实验表明,PEVER以合理的计算成本优于其他盲VQA算法。为了便于可重复的研究和公共评估,在线可以在线进行狂热的实施:\ url {https://github.com/uniqzheng/hfr-bvqa}。
translated by 谷歌翻译
2019年冠状病毒疾病(Covid-19)继续自爆发以来对世界产生巨大挑战。为了对抗这种疾病,开发了一系列人工智能(AI)技术,并应用于现实世界的情景,如安全监测,疾病诊断,感染风险评估,Covid-19 CT扫描的病变细分等。 Coronavirus流行病迫使人们佩戴面膜来抵消病毒的传播,这也带来了监控戴着面具的大群人群的困难。在本文中,我们主要关注蒙面面部检测和相关数据集的AI技术。从蒙面面部检测数据集的描述开始,我们调查了最近的进步。详细描述并详细讨论了十三可用数据集。然后,该方法大致分为两类:传统方法和基于神经网络的方法。常规方法通常通过用手工制作的特征升高算法来训练,该算法占少比例。基于神经网络的方法根据处理阶段的数量进一步归类为三个部分。详细描述了代表性算法,与一些简要描述的一些典型技术耦合。最后,我们总结了最近的基准测试结果,讨论了关于数据集和方法的局限性,并扩大了未来的研究方向。据我们所知,这是关于蒙面面部检测方法和数据集的第一次调查。希望我们的调查可以提供一些帮助对抗流行病的帮助。
translated by 谷歌翻译
现实世界机器学习部署的特点是源(训练)和目标(测试)分布之间的不匹配,可能导致性能下降。在这项工作中,我们研究了仅使用标记的源数据和未标记的目标数据来预测目标域精度的方法。我们提出了平均阈值的置信度(A​​TC),一种实用的方法,用于了解模型的置信度的阈值,预测精度作为模型置信度超过该阈值的未标记示例的分数。 ATC优于多种模型架构的先前方法,分发班次类型(例如,由于综合损坏,数据集再现或新颖的群体)和数据集(野外,想象成,品种,CNIST)。在我们的实验中,ATC估计目标性能$ 2 $ 2美元 - 比以前的方法更准确地获得4美元。我们还探讨了问题的理论基础,证明通常,识别精度与识别最佳预测因子一样难以识别,因此,任何方法的功效都依赖于(可能是未列区)假设对移位的性质。最后,在一些玩具分布中分析了我们的方法,我们提供了有关其工作时的见解。
translated by 谷歌翻译
本文报告了Chalearn的Autodl挑战系列的结果和后攻击分析,这有助于对自动学习(DL)进行分类,以便在各种环境中引入的深度学习(DL),但缺乏公平的比较。格式化所有输入数据模型(时间序列,图像,视频,文本,表格)作为张量,所有任务都是多标签分类问题。代码提交已在隐藏的任务上执行,具有限制时间和计算资源,推动快速获取结果的解决方案。在此设置中,DL方法占主导地位,但流行的神经结构搜索(NAS)是不切实际的。解决方案依赖于微调预培训的网络,架构匹配数据模块。挑战后测试没有透露超出强加时间限制的改进。虽然没有组件尤其原始或新颖,但是一个高级模块化组织出现了“Meta-Learner”,“数据摄入”,“模型选择器”,“模型/学习者”和“评估员”。这种模块化使得消融研究,揭示了(离坡)元学习,合奏和高效数据管理的重要性。异构模块组合的实验进一步证实了获胜解决方案的(本地)最优性。我们的挑战队遗产包括一个持久的基准(http://utodl.chalearn.org),获胜者的开放源代码,以及免费的“autodl自助服务”。
translated by 谷歌翻译
卷积层和损耗功能是深度学习中的两个基本组件。由于传统的深度学习内核的成功,尽管它们可以提供不同频率,方向和比例的不同频率,方向和尺度的丰富功能,但较不可能的Gabor内核变得不那么受欢迎。对于多级图像分割的现有损失函数,通常有准确性,鲁棒性对超参数的折衷以及用于组合不同损失的手动选择。因此,为了获得使用Gabor核心的益处,同时保持深度学习中的自动特征生成的优势,我们提出了一种完全可训练的Gabor的卷积层,其中所有Gabor参数都是通过BackPropagation培训的。此外,我们基于Pearson的相关系数提出了一种损失函数,这是准确的,对学习速率的准确,鲁棒性,并且不需要手动重量选择。在43d脑磁共振图像上的实验,具有19个解剖结构,表明,使用所提出的损失功能与常规和基于Gabor的内核的适当组合,我们可以训练只有160万参数的网络,以实现83的平均骰子系数%。该尺寸比V-NET小44倍,具有7100万参数。本文展示了在深度学习3D分割中使用学习参数核的潜力。
translated by 谷歌翻译
传输学习方法旨在使用在丰富的源域上掠过的模型来提高数据稀缺目标域中的性能。一种成本效益的策略,线性探测涉及冻结源模型并培训目标域的新分类头。此策略的表现优于更昂贵但最先进的方法 - 将源模型的所有参数微调到目标域 - 可能是因为微调允许模型从中间层利用有用的信息否则被稍后的净化层丢弃。我们探讨了这些中间层可能直接剥削的假设。我们提出了一种方法,头对脚趾探测(Head2ToE),其从源模型的所有层中选择特征,以训练目标域的分类头。在VTAB-1K的评估中,Head2Toe与平均微调获得的性能相匹配,同时减少培训和储存成本一百倍或更多,但批判性地,用于分配转移,头部2ToE优于微调。
translated by 谷歌翻译
由于多个字体,简单的词汇统计,更新的数据生成工具和写入系统,场景 - 文本识别比非拉丁语语言更好地比非拉丁语语言更好。本文通过将英文数据集与非拉丁语语言进行比较,检查了低精度的可能原因。我们比较单词图像和Word Length Statistics的大小(宽度和高度)等各种功能。在过去的十年中,通过强大的深度学习技术生成合成数据集具有极大地改善了场景文本识别。通过改变(i)字体的数量来创建合成数据的数量和(ii)创建字图像来对英语进行几个受控实验。我们发现这些因素对于场景文本识别系统至关重要。英语合成数据集使用超过1400字体,而阿拉伯语和其他非拉丁数据集使用少于100个字体的数据生成。由于这些语言中的一些是不同区域的一部分,我们通过基于地区的搜索来加入额外的字体,以改善阿拉伯语和Devanagari中的场景文本识别模型。与以前的作品或基线相比,我们将阿拉伯MLT-17和MLT-19数据集的单词识别率(WRRS)提高了24.54%和2.32%。对于IIT-ILST和MLT-19 Devanagari数据集,我们实现了7.88%和3.72%的WRR收益。
translated by 谷歌翻译
场景文本识别低资源印度语言是挑战,因为具有多个脚本,字体,文本大小和方向等复杂性。在这项工作中,我们调查从英语到两个常见的印度语言的深度场景文本识别网络的所有层的转移学习的力量。我们对传统的CRNN模型和星网进行实验,以确保连续性。为研究不同脚本的变化影响,我们最初在使用Unicode字体呈现的综合单词图像上运行我们的实验。我们表明英语模型转移到印度语言简单的合成数据集并不实用。相反,我们建议由于其n-gram分布的相似性以及像元音和结合字符的视觉功能,因此在印度语言中应用转移学习技术。然后,我们研究了六种印度语言之间的转移学习,在字体和单词长度统计中不同的复杂性。我们还证明,从其他印度语言转移的模型的学习功能与来自英语转移的人的特征视觉更接近(并且有时甚至更好)。我们终于通过在MLT-17上实现了6%,5%,2%和23%的单词识别率(WRRS )与以前的作品相比。通过将新颖的校正Bilstm插入我们的模型,我们进一步提高了MLT-17 Bangla结果。我们还释放了大约440个场景图像的数据集,其中包含了500古吉拉蒂和2535个泰米尔单词。在MLT-19 Hindi和Bangla Datasets和Gujarati和泰米尔数据集上,WRRS在基线上提高了8%,4%,5%和3%。
translated by 谷歌翻译
使用浮点实数实现标准深度学习算法。这呈现了在可能没有专用浮点单元(FPU)的低端设备上实现它们的障碍。因此,Tinyml的研究人员认为可以使用Integer操作在低端设备上培训和运行深神经网络(DNN)的机器学习算法。本文在纯C ++中提出了Pocketnn,轻型和独立的概念概念框架,用于仅使用整数的DNN训练和推断。与其他方法不同,PocketNN直接在整数上运行,而无需任何显式量化算法或定制的定期点格式。这是通过口袋激活来实现的,这是一个用于整数DNN的激活函数系列,以及称为直接反馈对准(DFA)的新兴DNN训练算法。与标准BackPropagation(BP)不同,DFA独立列举每个图层,从而避免在使用仅具有整数操作的BP时是一个关键问题的整数溢出。我们使用Pocketnn在两个着名的数据集,Mnist和Fashion-Mnist上培训一些DNN。我们的实验表明,DNN与我们的PocketNN接受过的DNN培训,分别在MNIST和Fashion-Mnist数据集中获得了96.98%和87.7%的准确性。精度非常接近使用具有浮点实数操作的BP培训的等效DNN,使得精度降解分别为1.02%p和2.09%p。最后,我们的PocketNN为低端设备具有高兼容性和可移植性,因为它是开源的开源,并在纯C ++中实现,没有任何依赖项。
translated by 谷歌翻译
无监督域适应(UDA)旨在将知识从标记的源域传输到未标记的目标域。传统上,基于子空间的方法为此问题形成了一类重要的解决方案。尽管他们的数学优雅和易腐烂性,但这些方法通常被发现在产生具有复杂的现实世界数据集的领域不变的功能时无效。由于近期具有深度网络的代表学习的最新进展,本文重新访问了UDA的子空间对齐,提出了一种新的适应算法,始终如一地导致改进的泛化。与现有的基于对抗培训的DA方法相比,我们的方法隔离了特征学习和分配对准步骤,并利用主要辅助优化策略来有效地平衡域不契约的目标和模型保真度。在提供目标数据和计算要求的显着降低的同时,基于子空间的DA竞争性,有时甚至优于几种标准UDA基准测试的最先进的方法。此外,子空间对准导致本质上定期的模型,即使在具有挑战性的部分DA设置中,也表现出强大的泛化。最后,我们的UDA框架的设计本身支持对测试时间的新目标域的逐步适应,而无需从头开始重新检测模型。总之,由强大的特征学习者和有效的优化策略提供支持,我们将基于子空间的DA建立为可视识别的高效方法。
translated by 谷歌翻译