Recent advances in neural approaches greatly improve task-oriented dialogue (TOD) systems which assist users to accomplish their goals. However, such systems rely on costly manually labeled dialogs which are not available in practical scenarios. In this paper, we present our models for Track 2 of the SereTOD 2022 challenge, which is the first challenge of building semi-supervised and reinforced TOD systems on a large-scale real-world Chinese TOD dataset MobileCS. We build a knowledge-grounded dialog model to formulate dialog history and local KB as input and predict the system response. And we perform semi-supervised pre-training both on the labeled and unlabeled data. Our system achieves the first place both in the automatic evaluation and human interaction, especially with higher BLEU (+7.64) and Success (+13.6\%) than the second place.
translated by 谷歌翻译
图像文本聚类(ITC)的目标是通过整合这些异质样品的多模式的互补和一致信息来找到正确的簇。但是,目前的大多数研究都根据理想的前提分析了ITC,即每种模式中的样本都是完整的。但是,在现实情况下,这种推定并不总是有效的。缺少的数据问题使图像文本特征学习性能退化,并最终会影响ITC任务中的概括能力。尽管已经提出了一系列方法来解决此不完整的图像文本群集问题(IITC),但仍然存在以下问题:1)大多数现有方法几乎不考虑异质特征域之间的明显差距。 2)对于缺少数据,很少保证由现有方法生成的表示形式适合聚类任务。 3)现有方法不利用内部和内部模式的潜在连接。在本文中,我们提出了一个聚类引起的生成不完整的图像文本聚类(CIGIT-C)网络,以应对上述挑战。更具体地说,我们首先使用特定于模态的编码器将原始功能映射到更独特的子空间。通过使用对抗生成网络在另一种模态上产生一种方式,可以彻底探索内部内部和模式之间的潜在连接。最后,我们使用两个KL DiverGence损失更新相应的模态特异性编码器。公共图像文本数据集的实验结果表明,建议的方法优于IITC作业更有效。
translated by 谷歌翻译
关于点击率(CTR)预测的最新研究通过对更长的用户行为序列进行建模,已达到新的水平。除其他外,两阶段的方法是用于工业应用的最先进的解决方案(SOTA)。两阶段方法首先训练检索模型,以事先截断长行为序列,然后使用截短序列训练CTR模型。但是,检索模型和CTR模型是分别训练的。因此,CTR模型中检索到的子序列不准确,它降低了最终性能。在本文中,我们提出了一个端到端范式来建模长行为序列,与现有模型相比,该序列能够实现卓越的性能以及出色的成本效益。我们的贡献是三倍:首先,我们提出了一个名为ETA-NET的基于哈希的有效目标(TA)网络,以基于低成本的位置操作来启用端到端的用户行为检索。提出的ETA-NET可以通过顺序数据建模的数量级来降低标准TA的复杂性。其次,我们建议将通用系统体系结构作为一种可行的解决方案,用于在工业系统上部署ETA-NET。特别是,与SOTA两阶段方法相比,ETA-NET已部署在TAOBAO的推荐系统上,并在CTR上带来了1.8%的升降机和3.1%的升降机(GMV)。第三,我们在离线数据集和在线A/B测试上进行了广泛的实验。结果证明,在CTR预测性能和在线成本效益方面,所提出的模型大大优于现有的CTR模型。 ETA-NET现在为TAOBAO的主要流量提供服务,每天为数亿用户提供服务。
translated by 谷歌翻译
室外(OOD)检测是面向任务的对话框系统中的关键组件,旨在确定查询是否不在预定义的支持的意图集之外。事实证明,先前基于软磁性的检测算法对OOD样品被过度自信。在本文中,我们分析了过度自信的OOD来自由于训练和测试分布之间的不匹配而导致的分布不确定性,这使得该模型无法自信地做出预测,因此可能导致异常软磁得分。我们提出了一个贝叶斯OOD检测框架,以使用Monte-Carlo辍学来校准分布不确定性。我们的方法是灵活的,并且可以轻松地插入现有的基于软磁性的基线和增益33.33 \%OOD F1改进,而与MSP相比仅增加了0.41 \%的推理时间。进一步的分析表明,贝叶斯学习对OOD检测的有效性。
translated by 谷歌翻译
传统意图分类模型基于预定义的意图集,仅识别有限的内域(IND)意图类别。但是用户可以在实用的对话系统中输入室外(OOD)查询。这样的OOD查询可以提供未来改进的方向。在本文中,我们定义了一项新任务,广义意图发现(GID),旨在将IND意图分类器扩展到包括IND和OOD意图在内的开放世界意图集。我们希望在发现和识别新的未标记的OOD类型的同时,同时对一组标记的IND意图类进行分类。我们为不同的应用程序方案构建了三个公共数据集,并提出了两种框架,即基于管道的框架和端到端,以实现未来的工作。此外,我们进行详尽的实验和定性分析,以理解关键挑战,并为未来的GID研究提供新的指导。
translated by 谷歌翻译
视频亮点检测长期以来一直是计算机视觉任务中的主题,挖掘出未接触的原始视频输入的用户出现剪辑。但是,在大多数情况下,这一研究中的主流方法建立在封闭的世界假设上,在封闭的世界假设中,固定数量的突出显示类别是提前正确定义的,并且需要同时可用的所有培训数据,并且作为一个结果,相对于突出显示类别和数据集大小的可伸缩性差。为了解决上面提到的问题,我们提出了一个视频突出显示检测器,能够逐步学习,即\ textbf {g} lobal \ textbf {p} rototype \ textbf {e} ncoding(gpe),捕获新定义的视频亮点。通过其相应的原型扩展数据集。除此之外,我们提供了一个注释且昂贵的数据集,称为\ emph {Bytefood},包括超过5.1k的美食视频属于\ emph {cooke},\ emph {eat},\ emph {food Material},\ emph {cooke},和\ emph {演示}。据我们所知,这是第一次将增量学习设置引入视频突出显示检测,从而减轻培训视频输入的负担,并促进了按数据集的大小成比例的传统神经网络的可扩展性和域的数量。此外,所提出的GPE超过了\ emph {Bytefood}上的当前增量学习方法,至少报告了1.57 \%MAP的改善。代码和数据集将更早提供。
translated by 谷歌翻译
作为自动驾驶系统的核心部分,运动计划已受到学术界和行业的广泛关注。但是,由于非体力学动力学,尤其是在存在非结构化的环境和动态障碍的情况下,没有能够有效的轨迹计划解决方案能够为空间周期关节优化。为了弥合差距,我们提出了一种多功能和实时轨迹优化方法,该方法可以在任意约束下使用完整的车辆模型生成高质量的可行轨迹。通过利用类似汽车的机器人的差异平坦性能,我们使用平坦的输出来分析所有可行性约束,以简化轨迹计划问题。此外,通过全尺寸多边形实现避免障碍物,以产生较少的保守轨迹,并具有安全保证,尤其是在紧密约束的空间中。我们通过最先进的方法介绍了全面的基准测试,这证明了所提出的方法在效率和轨迹质量方面的重要性。现实世界实验验证了我们算法的实用性。我们将发布我们的代码作为开源软件包,目的是参考研究社区。
translated by 谷歌翻译
尖峰神经网络(SNN)是一种受脑启发的模型,具有更时空的信息处理能力和计算能效效率。但是,随着SNN深度的增加,由SNN​​的重量引起的记忆问题逐渐引起了人们的注意。受到人工神经网络(ANN)量化技术的启发,引入了二进制SNN(BSNN)来解决记忆问题。由于缺乏合适的学习算法,BSNN通常由ANN-SNN转换获得,其准确性将受到训练有素的ANN的限制。在本文中,我们提出了具有准确性损失估计器的超低潜伏期自适应局部二进制二进制尖峰神经网络(ALBSNN),该网络层动态选择要进行二进制的网络层,以通过评估由二进制重量引起的错误来确保网络的准确性在网络学习过程中。实验结果表明,此方法可以将存储空间降低超过20%,而不会丢失网络准确性。同时,为了加速网络的训练速度,引入了全球平均池(GAP)层,以通过卷积和合并的组合替换完全连接的层,以便SNN可以使用少量时间获得更好识别准确性的步骤。在仅使用一个时间步骤的极端情况下,我们仍然可以在三个不同的数据集(FashionMnist,CIFAR-10和CIFAR-10和CIFAR-100)上获得92.92%,91.63%和63.54%的测试精度。
translated by 谷歌翻译
在复杂的场景中,尤其是在城市交通交叉点,对实体关系和运动行为的深刻理解对于实现高质量的计划非常重要。我们提出了有关交通信号灯D2-Tpred的轨迹预测方法,该方法使用空间动态交互图(SDG)和行为依赖图(BDG)来处理空间空间中不连续依赖的问题。具体而言,SDG用于通过在每帧中具有动态和可变特征的不同试剂的子图来捕获空间相互作用。 BDG用于通过建模当前状态对先验行为的隐式依赖性来推断运动趋势,尤其是与加速度,减速或转向方向相对应的不连续运动。此外,我们提出了一个新的数据集,用于在称为VTP-TL的交通信号灯下进行车辆轨迹预测。我们的实验结果表明,与其他轨迹预测算法相比,我们的模型在ADE和FDE方面分别获得了{20.45%和20.78%}的改善。数据集和代码可在以下网址获得:https://github.com/vtp-tl/d2-tpred。
translated by 谷歌翻译
Gigapixel全斜面图像(WSIS)上的癌症预后一直是一项艰巨的任务。大多数现有方法仅着眼于单分辨率图像。利用图像金字塔增强WSI视觉表示的多分辨率方案尚未得到足够的关注。为了探索用于提高癌症预后准确性的多分辨率解决方案,本文提出了双流构建结构,以通过图像金字塔策略对WSI进行建模。该体系结构由两个子流组成:一个是用于低分辨率WSIS,另一个是针对高分辨率的WSIS。与其他方法相比,我们的方案具有三个亮点:(i)流和分辨率之间存在一对一的关系; (ii)添加了一个平方池层以对齐两个分辨率流的斑块,从而大大降低了计算成本并启用自然流特征融合; (iii)提出了一种基于跨注意的方法,以在低分辨率的指导下在空间上在空间上进行高分辨率斑块。我们验证了三个公共可用数据集的计划,来自1,911名患者的总数为3,101个WSI。实验结果验证(1)层次双流表示比单流的癌症预后更有效,在单个低分辨率和高分辨率流中,平均C-指数上升为5.0%和1.8% ; (2)我们的双流方案可以胜过当前最新方案,而C-Index的平均平均值为5.1%; (3)具有可观察到的生存差异的癌症疾病可能对模型复杂性具有不同的偏好。我们的计划可以作为进一步促进WSI预后研究的替代工具。
translated by 谷歌翻译