车辆网络中的传感器数据共享可以显着提高连接自动化车辆环境感知的范围和准确性。已经开发了用于传播和融合传感器数据的不同概念和方案。对于这些方案而言,传感器的测量错误损害了感知质量,并可能导致道路交通事故。具体而言,当传感器的测量误差(也称为测量噪声)尚不清楚并且时间变化时,数据融合过程的性能受到限制,这代表了传感器校准的重大挑战。在本文中,我们考虑了具有车辆到基础设施和车辆到车辆通信的车辆网络中的传感器数据共享和融合。我们提出了一种名为双向反馈噪声估计(BIFNOE)的方法,其中边缘服务器从车辆收集和缓存传感器测量数据。边缘在双动态滑动时间窗口中交替估计噪声和目标,并以低通信成本来增强每辆车的分布式合作环境感测。我们通过模拟评估了应用程序方案中提出的算法和数据传播策略,并表明感知精度平均提高了80%左右,仅12 kbps上行链路和28 kbps的下行链路带宽。
translated by 谷歌翻译
The 1$^{\text{st}}$ Workshop on Maritime Computer Vision (MaCVi) 2023 focused on maritime computer vision for Unmanned Aerial Vehicles (UAV) and Unmanned Surface Vehicle (USV), and organized several subchallenges in this domain: (i) UAV-based Maritime Object Detection, (ii) UAV-based Maritime Object Tracking, (iii) USV-based Maritime Obstacle Segmentation and (iv) USV-based Maritime Obstacle Detection. The subchallenges were based on the SeaDronesSee and MODS benchmarks. This report summarizes the main findings of the individual subchallenges and introduces a new benchmark, called SeaDronesSee Object Detection v2, which extends the previous benchmark by including more classes and footage. We provide statistical and qualitative analyses, and assess trends in the best-performing methodologies of over 130 submissions. The methods are summarized in the appendix. The datasets, evaluation code and the leaderboard are publicly available at https://seadronessee.cs.uni-tuebingen.de/macvi.
translated by 谷歌翻译
Neural network-based approaches for solving partial differential equations (PDEs) have recently received special attention. However, the large majority of neural PDE solvers only apply to rectilinear domains, and do not systematically address the imposition of Dirichlet/Neumann boundary conditions over irregular domain boundaries. In this paper, we present a framework to neurally solve partial differential equations over domains with irregularly shaped (non-rectilinear) geometric boundaries. Our network takes in the shape of the domain as an input (represented using an unstructured point cloud, or any other parametric representation such as Non-Uniform Rational B-Splines) and is able to generalize to novel (unseen) irregular domains; the key technical ingredient to realizing this model is a novel approach for identifying the interior and exterior of the computational grid in a differentiable manner. We also perform a careful error analysis which reveals theoretical insights into several sources of error incurred in the model-building process. Finally, we showcase a wide variety of applications, along with favorable comparisons with ground truth solutions.
translated by 谷歌翻译
Vision language (VL) models like CLIP are robust to natural distribution shifts, in part because CLIP learns on unstructured data using a technique called caption supervision; the model inteprets image-linked texts as ground-truth labels. In a carefully controlled comparison study, we show that caption-supervised CNNs trained on a standard cross-entropy loss (with image labels assigned by scanning captions for class names) can exhibit greater distributional robustness than VL models trained on the same data. To facilitate future experiments with high-accuracy caption-supervised models, we introduce CaptionNet (https://github.com/penfever/CaptionNet/), which includes a class-balanced, fully supervised dataset with over 50,000 new human-labeled ImageNet-compliant samples which includes web-scraped captions. In a series of experiments on CaptionNet, we show how the choice of loss function, data filtration and supervision strategy enable robust computer vision. We also provide the codebase necessary to reproduce our experiments at VL Hub (https://github.com/penfever/vlhub/).
translated by 谷歌翻译
遗憾已被广泛用作评估分布式多代理系统在线优化算法的性能的首选指标。但是,与代理相关的数据/模型变化可以显着影响决策,并需要在代理之间达成共识。此外,大多数现有的作品都集中在开发(强烈或非严格地)凸出的方法上,对于一般非凸损失的分布式在线优化中的遗憾界限,几乎没有得到很少的结果。为了解决这两个问题,我们提出了一种新型的综合遗憾,并使用新的基于网络的基于遗憾的度量标准来评估分布式在线优化算法。我们具体地定义了复合遗憾的静态和动态形式。通过利用我们的综合遗憾的动态形式,我们开发了一种基于共识的在线归一化梯度(CONGD)的伪convex损失方法,事实证明,它显示了与最佳器路径变化的规律性术语有关的透明性行为。对于一般的非凸损失,我们首先阐明了基于最近进步的分布式在线非凸学习的遗憾,因此没有确定性算法可以实现sublinear的遗憾。然后,我们根据离线优化的Oracle开发了分布式的在线非凸优化(Dinoco),而无需进入梯度。迪诺科(Dinoco)被证明是统一的遗憾。据我们所知,这是对一般分布在线非convex学习的第一个遗憾。
translated by 谷歌翻译
我们解决了在线顺序决策的问题,即在利用当前知识以最大程度地提高绩效和探索新信息以使用多武器的强盗框架获得长期利益之间的权衡平衡。汤普森采样是选择解决这一探索探索困境的动作的启发式方法之一。我们首先提出了一个通用框架,该框架可帮助启发性地调整汤普森采样中的探索与剥削权衡取舍,并使用后部分布中的多个样本进行调整。利用此框架,我们为多臂匪徒问题提出了两种算法,并为累积遗憾提供了理论界限。接下来,我们证明了拟议算法对汤普森采样的累积遗憾表现的经验改善。我们还显示了所提出的算法在现实世界数据集上的有效性。与现有方法相反,我们的框架提供了一种机制,可以根据手头的任务改变探索/开发量。为此,我们将框架扩展到两个其他问题,即,在土匪中最佳的ARM识别和时间敏感学习,并将我们的算法与现有方法进行比较。
translated by 谷歌翻译
变压器体系结构在许多最新应用程序中取得了显着进展。然而,尽管他们取得了成功,但现代变形金刚依赖于自我发挥的机制,其时间和空间复杂性在输入的长度上是二次的。已经提出了几种方法来加快自我注意力的机制以实现次级运行时间。但是,这些作品中的绝大多数并不伴随着严格的错误保证。在这项工作中,我们在许多情况下就自我注意的计算复杂性建立了下限。我们证明,自我注意力的时间复杂性在输入长度上必定是二次的,除非强烈的指数时间假设(SETH)是错误的。即使注意力计算仅执行大约和各种注意力机制,该论点也存在。作为对我们的下限的补充,我们表明确实可以使用有限的泰勒级数在线性时间中近似点产物自我发作,而成本依赖于多项式顺序。
translated by 谷歌翻译
数字化和自动化方面的快速进步导致医疗保健的加速增长,从而产生了新型模型,这些模型正在创造新的渠道,以降低成本。 Metaverse是一项在数字空间中的新兴技术,在医疗保健方面具有巨大的潜力,为患者和医生带来了现实的经验。荟萃分析是多种促成技术的汇合,例如人工智能,虚拟现实,增强现实,医疗设备,机器人技术,量子计算等。通过哪些方向可以探索提供优质医疗保健治疗和服务的新方向。这些技术的合并确保了身临其境,亲密和个性化的患者护理。它还提供自适应智能解决方案,以消除医疗保健提供者和接收器之间的障碍。本文对医疗保健的荟萃分析提供了全面的综述,强调了最新技术的状态,即采用医疗保健元元的能力技术,潜在的应用程序和相关项目。还确定了用于医疗保健应用的元元改编的问题,并强调了合理的解决方案作为未来研究方向的一部分。
translated by 谷歌翻译
在这项工作中,我们解决了为野外任何演讲者发出静音唇部视频演讲的问题。与以前的作品形成鲜明对比的是,我们的方法(i)不仅限于固定数量的扬声器,(ii)并未明确对域或词汇构成约束,并且(iii)涉及在野外记录的视频,反对实验室环境。该任务提出了许多挑战,关键是,所需的目标语音的许多功能(例如语音,音调和语言内容)不能完全从无声的面部视频中推断出来。为了处理这些随机变化,我们提出了一种新的VAE-GAN结构,该结构学会了将唇部和语音序列关联到变化中。在指导培训过程的多个强大的歧视者的帮助下,我们的发电机学会了以任何人的唇部运动中的任何声音综合语音序列。多个数据集上的广泛实验表明,我们的优于所有基线的差距很大。此外,我们的网络可以在特定身份的视频上进行微调,以实现与单扬声器模型相当的性能,该模型接受了$ 4 \ times $ $数据的培训。我们进行了大量的消融研究,以分析我们体系结构不同模块的效果。我们还提供了一个演示视频,该视频与我们的网站上的代码和经过训练的模型一起展示了几个定性结果: -合成}}
translated by 谷歌翻译
人类通过各种感官方式逮捕了世界,但语言是他们主要的交流渠道。机器学习系统需要利用相同的多模式丰富性,以使人类以自然语言知情。对于专门从事视觉密集信息的系统,例如对话,建议和搜索引擎,尤其如此。为此,我们训练一个视觉问题回答(VQA)系统,以回答有关时尚拍摄图像中服装的复杂自然语言问题。成功培训我们的VQA模型的关键是使用不同模板从207,000张图像的项目属性中自动创建一个视觉提问数据集。样本生成采用了一种策略,该策略考虑了提问的困难,以强调具有挑战性的概念。与使用几个数据集预处理视觉问题答案模型的最新趋势相反,我们专注于保持数据集的固定,同时从头开始训练各种模型以隔离模型体系结构的改进。我们看到,使用相同的变压器编码问题并解码答案,就像在语言模型中一样,可以达到最大的准确性,表明视觉语言模型(VLMS)为我们的数据集提供了最佳的视觉问题答案系统。最佳模型的准确性也超过了人类专家的水平,即使回答不限于模板格式的人类生成的问题。我们生成大规模多模式域特异性数据集的方法为训练能够以自然语言进行交流的专业模型提供了途径。这样的域 - 专家模型的培训,例如我们的时尚VLM模型,不能仅依靠从网络收集的大规模通用数据集。
translated by 谷歌翻译