太阳眩光是导致交通事故的主要环境危害之一。每年都有许多人因与太阳眩光有关的交通事故而死亡和受伤。提供关于发生太阳光的时间和地点的准确信息将有助于防止太阳眩光造成交通事故并挽救生命。在本研究中,我们建议使用可公开访问的GoogleStreet View(GSV)全景图像来估计和预测sunglare的发生。 GSV图像具有类似于驾驶员的视线,这将使GSVimage适合于估计驾驶员对太阳眩光的可见性。最近开发的卷积神经网络算法用于分割GSV图像并预测太阳眩光上的障碍物。根据给定位置的预测障碍,我们通过估算太阳位置以及这些位置的驾驶员和太阳之间的相对角度,进一步估算了太阳伞的时间窗。我们在美国马萨诸塞州剑桥进行了一个案例研究。结果表明,该方法可以准确预测出眩光的存在。所提出的方法将为驾驶员和交通规划者提供重要的工具,以减轻太阳眩光并减少由太阳眩光引起的潜在交通事故。
translated by 谷歌翻译
解密潜在空间中的内容和风格是普通的文本风格转移。然而,在大多数当前神经模型中存在两个主要问题。 1)很难从句子的语义中完全剥离样式信息。 2)基于递归神经网络(RNN)的编码器和解码器,由潜在表示介导,不能解决长期依赖问题,导致非风格语义内容的保存。本文提出了风格变换器,它没有对潜在句子的潜在表现做出任何假设,并且配备了变形金刚注意机制的力量,以实现更好的风格转移和更好的内容保存。
translated by 谷歌翻译
事实证明,语言模型预训练对于学习通用语言表示非常有用。作为最先进的语言模型预训练模型,BERT(变形金刚的双向编码器表示)在许多语言理解任务中取得了惊人的成果。在本文中,我们进行了详尽的实验,以研究BERT在文本分类任务上的不同微调方法,并为BERTfine调整提供一般解决方案。最后,所提出的解决方案在八个广泛研究的文本分类数据集上获得了新的最新结果。
translated by 谷歌翻译
在这项研究中,我们介绍了EdgeSegNet,一种紧凑的深度卷积神经网络,用于语义分割任务。利用人机协同设计策略创建EdgeSegNet,其中原则性网络设计原型与机器驱动的设计探索相结合,创建具有针对任务定制的定制模块级宏架构和微架构设计的网络。实验结果表明,EdgeSegNet可以实现与更大和计算复杂的网络(比RefineNet更小的模型大小)相当的语义分割精度,以及在NVidia Jetson AGXXavier上实现~38.5 FPS的推理速度。因此,拟议的EdgeSegNet非常适合低功耗边缘场景。
translated by 谷歌翻译
我们提出了一种新颖的实时,协作和交互式AI绘画系统,Mappa Mundi,用于艺术思维导图创作。该系统包括基于avoice的输入界面,自动主题扩展模块和图像投影模块。关键的创新是通过考虑语言的词汇和语音相似性,学习和继承艺术家的原始绘画风格,以及应用达达主义的原则和即兴的不可能性来注入人工想象力。 Oursystem表明AI和艺术家可以无缝协作创作具有想象力的艺术绘画,Mappa Mundi已应用于UCCA,北京的艺术展览
translated by 谷歌翻译
本文提出了一种新的具有地形倾斜度的三维定位和测绘技术,使机器人能够识别其位置并在室外环境中建立全局地图。迭代最近点(ICP)算法和基于地形倾斜的定位相结合,以实现准确,快速的定位和映射。机器人导航的地形的倾斜用于在两次激光扫描之间的间隔期间实现局部定位。使用abovelocalization的结果作为初始条件,然后应用ICP算法来对准重叠的激光扫描图以更新悬垂的障碍物以构建周围区域的全局图。进行了综合实验以验证所提出的3D定位和绘图技术。实验结果表明,该技术可以减少时间消耗,提高性能的准确性。
translated by 谷歌翻译
本文介绍了一种基于视觉的Unscented FastSLAM(UFastSLAM)算法,该算法采用Rao-Blackwellized粒子滤波器和Unscented Kalman滤波器(UKF)。通过双目视觉检测地标,整合定位和映射。由于这种双目视觉系统通常会继承较大的测量误差,因此采用Unscented FastSLAM来提高定位和映射的性能是合适的。 Unscented FastSLAM利用UKF而不是非线性函数的线性近似,其中有效粒子数被用作减少粒子退化的标准。进行了仿真和实验,证明Unscented FastSLAM算法在基于视觉的系统中可以比FastSLAM2.0算法在准确性和鲁棒性方面获得更好的性能。
translated by 谷歌翻译
网络视频应用(例如视频会议)由于意外的网络波动和有限的带宽而经常遭受视觉质量的影响。在本文中,我们开发了一个质量增强网络(QENet)来减少视频压缩伪像,利用各个多尺度卷积产生的空间和时间先验,在时间上以循环方式进行空间和扭曲时间预测。我们已将此QENet集成为高效视频编码(HEVC)兼容解码器的标准单独后处理子系统。实验结果表明,我们的QENet在HEVC和其他基于深度学习的方法中展示了针对默认环路滤波器的最先进性能,其中在峰值信噪比(PSNR)和主观增益中具有明显的目标增益。
translated by 谷歌翻译
本文提出了一种新的非局部注意优化深度图像压缩(NLAIC)框架,该框架建立在流行的变异自动编码器(VAE)结构之上。我们的NLAIC框架在编码器和解码器中嵌入非局部操作,用于图像和潜在特征概率信息(称为超线性)以捕获局部和全局相关,并应用注意机制来生成用于图像和超图像的特征的掩模,它根据其重要性隐式调整不同特征的比特分配。此外,潜在特征的超级特征和空间通道邻居都用于改进熵编码。所提出的模型优于柯达数据集上的现有方法,包括用于PSNR和MS-SSIM失真度量的学习(例如,Balle2019,Balle2018)和常规(例如,BPG,JPEG2000,JPEG)图像压缩方法。
translated by 谷歌翻译
具有基于文本或基于语音的对话界面的智能个人助理系统正变得越来越流行。大多数先前的研究使用基于检索或基于生成的方法。基于检索的方法具有返回流畅和信息性响应的优点,具有很大的多样性。检索到的响应更容易解释。但是,响应检索性能受响应存储库大小的限制。另一方面,尽管基于生成的方法可以在给定对话上下文的情况下返回高度一致的响应,但是它们可能返回具有不足的地面知识信息的普遍或一般响应。在本文中,我们构建了一个具有响应检索和生成能力的混合神经对话模型,并结合了这两种方法的优点。关于Twitter和Foursquare数据的实验结果表明,在自动评估指标和人工评估下,所提出的模型可以优于基于检索的方法和基于生成的方法(包括最近提出的知识接地神经对话模型)。我们的模型和研究发现提供了关于如何集成文本检索和文本生成模型以构建会话系统的新见解。
translated by 谷歌翻译