The current optical communication systems minimize bit or symbol errors without considering the semantic meaning behind digital bits, thus transmitting a lot of unnecessary information. We propose and experimentally demonstrate a semantic optical fiber communication (SOFC) system. Instead of encoding information into bits for transmission, semantic information is extracted from the source using deep learning. The generated semantic symbols are then directly transmitted through an optical fiber. Compared with the bit-based structure, the SOFC system achieved higher information compression and a more stable performance, especially in the low received optical power regime, and enhanced the robustness against optical link impairments. This work introduces an intelligent optical communication system at the human analytical thinking level, which is a significant step toward a breakthrough in the current optical communication architecture.
translated by 谷歌翻译
Physical interactions can often help reveal information that is not readily apparent. For example, we may tug at a table leg to evaluate whether it is built well, or turn a water bottle upside down to check that it is watertight. We propose to train robots to acquire such interactive behaviors automatically, for the purpose of evaluating the result of an attempted robotic skill execution. These evaluations in turn serve as "interactive reward functions" (IRFs) for training reinforcement learning policies to perform the target skill, such as screwing the table leg tightly. In addition, even after task policies are fully trained, IRFs can serve as verification mechanisms that improve online task execution. For any given task, our IRFs can be conveniently trained using only examples of successful outcomes, and no further specification is needed to train the task policy thereafter. In our evaluations on door locking and weighted block stacking in simulation, and screw tightening on a real robot, IRFs enable large performance improvements, even outperforming baselines with access to demonstrations or carefully engineered rewards. Project website: https://sites.google.com/view/lirf-corl-2022/
translated by 谷歌翻译
Human conversations of recommendation naturally involve the shift of interests which can align the recommendation actions and conversation process to make accurate recommendations with rich explanations. However, existing conversational recommendation systems (CRS) ignore the advantage of user interest shift in connecting recommendation and conversation, which leads to an ineffective loose coupling structure of CRS. To address this issue, by modeling the recommendation actions as recommendation paths in a knowledge graph (KG), we propose DICR (Dual Imitation for Conversational Recommendation), which designs a dual imitation to explicitly align the recommendation paths and user interest shift paths in a recommendation module and a conversation module, respectively. By exchanging alignment signals, DICR achieves bidirectional promotion between recommendation and conversation modules and generates high-quality responses with accurate recommendations and coherent explanations. Experiments demonstrate that DICR outperforms the state-of-the-art models on recommendation and conversation performance with automatic, human, and novel explainability metrics.
translated by 谷歌翻译
紧张的机器人由刚性杆和柔性电缆组成,表现出高强度对重的比率和极端变形,使它们能够驾驭非结构化的地形,甚至可以在严酷的冲击力上生存。但是,由于其高维,复杂的动态和耦合体系结构,它们很难控制。基于物理学的仿真是制定运动策略的途径,然后可以将其转移到真实的机器人中,但是建模时态机器人是一项复杂的任务,因此模拟会经历大量的SIM2REAL间隙。为了解决这个问题,本文介绍了台词机器人的真实2SIM2REAL策略。该策略是基于差异物理引擎的,可以在真正的机器人(即离线测量和一个随机轨迹)中进行有限的数据进行训练,并达到足够高的精度以发现可转移的运动策略。除了整体管道之外,这项工作的主要贡献包括在接触点处计算非零梯度,损失函数和轨迹分割技术,该技术避免了训练期间梯度评估的冲突。在实际的3杆张力机器人上证明并评估了所提出的管道。
translated by 谷歌翻译
人类的姿势估计旨在弄清不同场景中所有人的关键。尽管结果有希望,但目前的方法仍然面临一些挑战。现有的自上而下的方法单独处理一个人,而没有不同的人与所在的场景之间的相互作用。因此,当发生严重闭塞时,人类检测的表现会降低。另一方面,现有的自下而上方法同时考虑所有人,并捕获整个图像的全局知识。但是,由于尺度变化,它们的准确性不如自上而下的方法。为了解决这些问题,我们通过整合自上而下和自下而上的管道来探索不同接受场的视觉线索并实现其互补性,提出了一种新颖的双皮线整合变压器(DPIT)。具体而言,DPIT由两个分支组成,自下而上的分支介绍了整个图像以捕获全局视觉信息,而自上而下的分支则从单人类边界框中提取本地视觉的特征表示。然后,从自下而上和自上而下的分支中提取的特征表示形式被馈入变压器编码器,以交互融合全局和本地知识。此外,我们定义了关键点查询,以探索全景和单人类姿势视觉线索,以实现两个管道的相互互补性。据我们所知,这是将自下而上和自上而下管道与变压器与人类姿势估计的变压器相结合的最早作品之一。关于可可和MPII数据集的广泛实验表明,我们的DPIT与最先进的方法相当。
translated by 谷歌翻译
多源域适应(MSDA)学会了预测目标域数据中的标签,在标记来自多个源域的所有数据并且来自目标域的所有数据的设置下。为了解决这个问题,大多数方法都集中在跨域中学习不变表示。但是,他们的成功严重依赖于标签分布在跨域保持不变的假设。为了减轻它,我们提出了一个新的假设,潜在的协变量移位,其中潜在内容变量的边际分布跨域变化,并且给定标签的条件分布在跨域之间保持不变。我们引入了一个潜在样式变量,以补充潜在因果图作为数据和标签生成过程的潜在内容变量。我们表明,尽管潜在样式变量由于潜在空间中的传输性能而无法识别,但在某些温和条件下,可以将潜在内容变量识别为简单缩放。这激发了我们为MSDA提出一种新颖的方法,该方法在潜在内容变量上学习了不变标签的分布,而不是学习不变表示。与基于不变表示的许多最新方法相比,对模拟和真实数据的经验评估证明了该方法的有效性。
translated by 谷歌翻译
因果代表学习揭示了低级观察背后的潜在高级因果变量,这对于一组感兴趣的下游任务具有巨大的潜力。尽管如此,从观察到的数据中确定真正的潜在因果表示是一个巨大的挑战。在这项工作中,我们专注于确定潜在的因果变量。为此,我们分析了潜在空间中的三个固有特性,包括传递性,置换和缩放。我们表明,传递性严重阻碍了潜在因果变量的可识别性,而排列和缩放指导指导了识别潜在因果变量的方向。为了打破传递性,我们假设潜在的潜在因果关系是线性高斯模型,其中高斯噪声的权重,平均值和方差受到额外观察到的变量的调节。在这些假设下,我们从理论上表明,潜在因果变量可以识别为微不足道的置换和缩放。基于这个理论结果,我们提出了一种新型方法,称为结构性因果变异自动编码器,该方法直接学习潜在因果变量,以及从潜在因果变量到观察到的映射。关于合成和实际数据的实验结果证明了可识别的结果以及所提出的学习潜在因果变量的能力。
translated by 谷歌翻译
深度神经网络(DNNS)的广泛应用要求越来越多的关注对其现实世界的鲁棒性,即DNN是否抵抗黑盒对抗性攻击,其中包括基于得分的查询攻击(SQA)是最威胁性的。由于它们的实用性和有效性:攻击者只需要在模型输出上进行数十个查询即可严重伤害受害者网络。针对SQA的防御需要对用户的服务目的而略有但巧妙的输出变化,这些用户与攻击者共享相同的输出信息。在本文中,我们提出了一种称为统一梯度(UNIG)的现实世界防御,以统一不同数据的梯度,以便攻击者只能探究不同样本相似的较弱的攻击方向。由于这种普遍的攻击扰动的验证与投入特定的扰动相比,Unig通过指示攻击者一个扭曲且信息不足的攻击方向来保护现实世界中的DNN。为了增强Unig在现实世界应用中的实际意义,我们将其实现为Hadamard产品模块,该模块具有计算效率且很容易插入任何模型。根据对5个SQA和4个防御基线的广泛实验,Unig显着改善了现实世界的鲁棒性,而不会伤害CIFAR10和Imagenet上的清洁准确性。例如,Unig在2500 Query Square攻击下保持了77.80%精度的CIFAR-10模型,而最先进的对手训练的模型仅在CIFAR10上具有67.34%的速度。同时,Unig在清洁精度和输出的修改程度上大大超过了所有基准。代码将发布。
translated by 谷歌翻译
在本文中,我们提出了一个新颖的统一框架,用于突出显示多片的检测和去除,包括合成图像,面部图像,自然图像和文本图像。该框架由三个主要组件组成,突出显示了特征提取器模块,突出显示粗卸下模块和凸显的精炼拆卸模块。首先,高光功能提取器模块可以将突出显示功能和非高光功能与原始突出显示图像直接分开。然后,使用粗大的拆卸网络获得了突出显示的拆卸图像。为了进一步提高突出显示的效果,最终使用基于上下文突出显示注意机制的精制突出显示模块获得了精制的突出显示图像。在多个场景中的广泛实验结果表明,所提出的框架可以获得突出显示的出色视觉效果,并获得最新的结果,从而获得了几种定量评估指标。我们的算法首次在视频重点删除中首次应用,并有令人鼓舞的结果。
translated by 谷歌翻译
对标签噪声的学习是一个至关重要的话题,可以保证深度神经网络的可靠表现。最近的研究通常是指具有模型输出概率和损失值的动态噪声建模,然后分离清洁和嘈杂的样本。这些方法取得了显着的成功。但是,与樱桃挑选的数据不同,现有方法在面对不平衡数据集时通常无法表现良好,这是现实世界中常见的情况。我们彻底研究了这一现象,并指出了两个主要问题,这些问题阻碍了性能,即\ emph {类间损耗分布差异}和\ emph {由于不确定性而引起的误导性预测}。第一个问题是现有方法通常执行类不足的噪声建模。然而,损失分布显示在类失衡下的类别之间存在显着差异,并且类不足的噪声建模很容易与少数族裔类别中的嘈杂样本和样本混淆。第二个问题是指该模型可能会因认知不确定性和不确定性而导致的误导性预测,因此仅依靠输出概率的现有方法可能无法区分自信的样本。受我们的观察启发,我们提出了一个不确定性的标签校正框架〜(ULC)来处理不平衡数据集上的标签噪声。首先,我们执行认识不确定性的班级特异性噪声建模,以识别可信赖的干净样本并精炼/丢弃高度自信的真实/损坏的标签。然后,我们在随后的学习过程中介绍了不确定性,以防止标签噪声建模过程中的噪声积累。我们对几个合成和现实世界数据集进行实验。结果证明了提出的方法的有效性,尤其是在数据集中。
translated by 谷歌翻译