自动驾驶所需的大量传感器对汽车总线系统的容量提出了巨大的挑战。需要理解比特率和感知性能之间的权衡。在本文中,我们将图像压缩标准JPEG,JPEG2000和WebP与基于生成对抗网络(GAN)的modernencoder / decoder图像压缩方法进行比较。我们使用诸如峰值信噪比(PSNR),结构相似性(SSIM)等的典型度量来评估纯压缩性能,还评估后续感知函数的性能,即语义分段(以对联合的平均交叉特征为特征) mIoU)措施)。毫不奇怪,对于所有调查的压缩方法,更高的比特率意味着在所有被调查的质量度量中更好的结果。然而,有趣的是,我们表明GAN自动编码器在高度相关的低比特率区域(at0.0625位/像素)的语义分段moU比JPEG2000更好3.9%的绝对值,尽管就PSNR来说,latterstill要好得多( 5.91 dB差异)。通过利用来自解码器的图像训练语义分割模型可以极大地扩大该效果,使得使用由GAN重建训练的分割模型的mIoU超过使用原始图像训练的模型几乎20%的绝对值。我们得出结论,未来自动驾驶中的分布式感知很可能不会通过使用JPEG2000等标准压缩方案来解决汽车总线容量瓶颈,但需要现代编码方法,GAN编码器/解码器方法是一种很有前景的候选方案。
translated by 谷歌翻译
在这个数据丰富的时代,人们越来越需要以精确和有效的方式聚类大数据的算法和技术。过去众所周知的聚类方法在计算上是昂贵的,特别是当用于将大量数据集聚成相对较大的数据集时。组。将数百万(数十亿)数据点聚类成数千(数百万)簇的特定任务称为极端聚类。我们设计了一种能够由aquantum处理器供电的分布式方法,以解决这个聚类问题。
translated by 谷歌翻译
音乐的机器学习模型通常将组合的任务分解为按时间顺序排列的过程,从开始到结束一次性组成一段音乐。相反,人类作曲家在这里和那里以非线性时尚,涂鸦的图案来写音乐,经常重新审视以前做出的选择。为了更好地近似这个过程,我们训练卷积神经网络来完成部分乐谱,并探索使用阻塞的吉布斯采样作为重写的类比。模型和生成过程都不是与组合的特定因果方向联系在一起。我们的模型是无序NADE的一个实例(Uria等,2014),它允许更直接的祖先采样。然而,我们发现Gibbs采样大大提高了样本质量,我们证明这是由于某些条件分布模型不佳所致。此外,我们表明,甚至廉价的近似阻止了来自Yao等人的Gibbs程序。 (2014)基于对数似然和人道评估,得出比祖先抽样更好的样本。
translated by 谷歌翻译
跟踪视频序列中的多个对象的问题带来了几个具有挑战性的任务。对于逐个检测的跟踪,这些包括对象重新识别,运动预测和处理遮挡等。我们提供一个没有铃声和口哨声的跟踪器,可以完成跟踪而无需特定地针对任何这些任务,特别是我们对跟踪数据进行训练或优化。为此,我们利用对象检测器的边界框回归来预测对象在下一帧中的新位置,从而将检测器转换为Tracktor。我们展示了Tracktor的可扩展性,并通过直接识别和相机运动补偿扩展了三个多目标跟踪基准,提供了最先进的技术。然后,我们对几种最先进的跟踪方法和我们的Tracktor的性能和故障情况进行分析。令人惊讶的是,在处理完全跟踪方案时,没有任何专用跟踪方法更好,即小型和遮挡对象或缺少检测。但是,我们的方法解决了大多数简单的跟踪方案。因此,我们将我们的方法作为一种新的跟踪范式进行激励,并指出了有希望的未来研究方向。总的来说,我们表明,一个巧妙利用的探测器可以比任何当前的跟踪方法执行更好的跟踪,并暴露仍未解决的跟踪挑战。
translated by 谷歌翻译
本文是Berkel和Lyon在2019年发表的“Cut-free Calculi and RelationalSemantics for Temporal STIT logics”一文的附录。它提供了基本STIT逻辑Ldm(相对于无反射,时间Kripke STIT帧)的完整性证明以及给出了逻辑Xstit的代理公理的独立性的推导。
translated by 谷歌翻译
我们提出了一种新的自动方法,用于准确分割前列腺素T2加权磁共振成像(MRI)。我们的方法基于卷积神经网络(CNN)。由于前列腺的形状,大小和外观的巨大差异以及注释训练数据的稀缺性,我们建议训练两个单独的CNN。全局CNN将确定前列腺边界框,然后对其进行重新采样并发送到localCNN以准确描绘前列腺边界。通过这种方式,本地CNN可以有效地学习使用少量可用的训练数据来分割区分前列腺与周围组织的精细细节。为了充分利用训练数据,我们通过使用学习形状使训练图像和分割变形来合成附加数据。模型。我们在PROMISE12挑战数据集上应用所提出的方法,并实现最先进的结果。我们提出的方法可以生成准确,平滑且无伪影的分割。在测试图像上,我们得到平均Dice得分为90.6,标准差为2.2,这优于以往的所有方法。我们的两步分割方法和数据增强策略可能在从少量注释的医学图像中分割其他器官方面非常有效。
translated by 谷歌翻译
我们介绍了场景感知对话框的任务。鉴于关于视频的anongoing对话中的后续问题,我们的目标是对给出的问题产生完整且自然的响应(a)输入视频,以及(b)对话中先前转向的历史。要取得成功,代理商必须将视频中的语义作为基础,并利用对话历史中的上下文提示来回答问题。为了对此任务进行基准测试,我们将介绍Audio Visual Scene-AwareDialog(AVSD)数据集。对于Charades数据集中超过11,000个人类行为视频中的每一个。我们的数据集包含一个关于视频的对话框,以及一个对话参与者对视频的最终摘要。我们为此任务培训了几个基线系统,并使用多个定性和定量指标评估受训模型的性能。我们的结果表明,模型必须理解所有可用的输入(视频,音频,问题和对话历史)才能在此数据集上表现良好。
translated by 谷歌翻译
本文介绍了第七对话系统技术挑战(DSTC),它使用共享数据集来探索构建对话系统的问题。最近,端到端对话建模方法已应用于各种对话任务。第七个DSTC(DSTC7)侧重于开发与端到端对话系统相关的技术,用于(1)句子选择,(2)句子生成和(3)视听场景感知对话。本文总结了DSTC7的整体设置和结果,包括对不同轨道和提供的数据集的详细描述。我们还描述了提交系统的总体趋势和关键结果。每个轨道都引入了新的数据集,参与者使用最先进的端到端技术取得了令人瞩目的成果。
translated by 谷歌翻译
Clickbait已成为社交媒体用户和社交媒体运营商的麻烦。恶意内容发布商滥用社交媒体来操纵尽可能多的用户使用clickbaitmessages访问他们的网站。机器学习技术可能有助于解决这个问题,从而实现自动clickbait检测。为了加快这方面的进展,我们组织了Clickbait Challenge 2017,这是一项共享任务,邀请提供clickbait探测器进行比较评估。已经提交了总共13个检测器,在检测性能方面实现了对现有技术的显着改进。此外,许多提交的方法已经公开发布,使它们可以再现,并且是新手的良好起点。虽然2017年的挑战已经过去,但我们维持评估系统并回答新的注册,以支持正在进行的关于更好的clickbait探测器的研究。
translated by 谷歌翻译
我们提出了一种新方法,用于学习单一演示,以解决像Atari游戏Montezuma's Revenge这样的艰苦探索任务。我们的方法是直接最大化奖励,而不是像其他近期作品中提出的那样模仿人类示范。我们的代理人使用现成的执行学习进行培训,但是通过从ademonstration重置为州来开始每一集。通过从这样的示范状态开始,与从每次发作的游戏开始时开始相比,代理需要更少的探索来学习游戏。我们在简单的玩具环境中分析具有稀疏奖励的强化学习难题,其中我们表明标准RL方法的时间在奖励之间的状态数量呈指数级增长。我们的方法将此减少为二次缩放,打开了以前不可行的许多任务。然后我们将我们的方法应用于Montezuma'sRevenge,为此我们提供了一个训练有素的代理人,获得了74,500的高分,优于以前发布的任何结果。
translated by 谷歌翻译