在本文中,我们介绍了一种基于属性的交互式图像搜索,它可以利用人在环的反馈来迭代地改进图像搜索结果。我们研究主动图像搜索,其中人类反馈是以视觉形式进行的,而不使用先前工作中使用的相对属性注释,这些注释通常在许多数据集中找不到。为了优化图像选择策略,训练深度加固模型可以容忍哪些图像是信息性的,而不是依赖于先前工作中典型地利用的手工测量。此外,我们扩展了最近引入的条件相似性网络以结合全局相似性内部视觉嵌入,当用户探索学习的相似性嵌入时,这导致更自然的转换。我们的实验证明了我们的方法的有效性,在主动图像搜索和图像属性表示任务上产生了令人信服的结果。
translated by 谷歌翻译
大多数现有的工作都是以图像中的自然语言短语为基础,假设所讨论的短语与图像相关。在本文中,我们讨论了一个更加真实的自然语言背景任务版本,我们必须确定该短语是否与图像相关并将该词组本地化。这也可以被视为对开放式词汇表的对象检测的概括,主要是引入少量和零射击检测的元素。我们为此任务提出了一个短语R-CNN网络,它扩展了更快的R-CNN以关联图像区域和短语。通过使用规范相关分析(CCA)仔细初始化我们网络的分类层,我们鼓励在相似短语之间进行推理时更加清晰的解决方案,导致与两个流行的短语接地数据,Flickr30K实体和引用游戏的天真适应相比,性能超过两倍,测试时间短语词汇分别为5K和39K。
translated by 谷歌翻译
网站活跃用户群的大小直接影响其价值。因此,监控和影响用户返回站点的可能性非常重要。对此的重要性在于预测用户何时返回。解决该问题的方法的当前状态有两种:(1)基于递归神经网络(RNN)的解决方案和(2)生存分析方法。我们观察到这两种技术在应用于此问题时都受到严重限制。生存模型只能包含用户的聚合表示,而不是直接从用户操作的原始时间序列中自动学习表示。 RNN可以自动学习功能,但不能通过非返回用户的示例直接训练,这些用户的返回时间没有目标值。我们开发了一种新型RNN生存模型,该模型消除了现有技术方法的局限性。我们证明,该模型可以成功应用于大型电子商务数据集的返回时间预测,与单独应用的方法相比,它具有区分返回和非返回用户的卓越能力。
translated by 谷歌翻译
We address the problem of text-based activity retrieval in video. Given a sentence describing an activity, our task is to retrieve matching clips from an untrimmed video. To capture the inherent structures present in both text and video, we introduce a multilevel model that integrates vision and language features earlier and more tightly than prior work. First, we inject text features early on when generating clip proposals, to help eliminate unlikely clips and thus speed up processing and boost performance. Second, to learn a fine-grained similarity metric for retrieval, we use visual features to modulate the processing of query sentences at the word level in a recurrent neural network. A multi-task loss is also employed by adding query re-generation as an auxiliary task. Our approach significantly outperforms prior work on two challenging benchmarks: Charades-STA and ActivityNet Captions.
translated by 谷歌翻译
在线时尚数据中的服装由许多不同类型的项目组成(例如,顶部,底部,鞋子),这些项目与另一个人具有某种风格关系。用于构建服装的表示需要一种方法,该方法可以学习相似性的概念(例如,当两个顶部可互换时)和兼容性(可以在一个装备中一起出现的可能不同类型的项目)。本文提出了一种学习表示项目类型的图像嵌入的方法,并在端到端模型中共同学习项目相似性和兼容性的概念。为了评估学习的表示,我们在Polyvore网站上抓取了用户创建的68,306套服装。使用我们的数据集,Ourapproach比最先进的装备兼容性预测和填空任务获得3-5%的改进,以及已建立的较小数据集,同时支持各种有用的查询。
translated by 谷歌翻译
本文介绍了一种在图像中对短语进行接地的方法,这种方法在单个端到端模型中共同连接多个文本条件嵌入。为了将文本短语区分为语义上不同的子空间,我们提出了一个概念权重分支,它自动将短语分配给嵌入,而先前的工作预定义了这样的分配。我们提出的解决方案简化了单个嵌入的表示要求,并允许代表性不足的概念在将它们提供给特定于概念的层之前利用共享表示。综合实验验证了我们的方法在三个词汇表地理数据集,Flickr30K实体,ReferIt游戏和视觉基因组中的有效性,我们获得了(相应)4%,3%和4%的基础地区短语嵌入基线的接地性能改善。
translated by 谷歌翻译
声学数据提供从生物学和通信到海洋和地球科学等领域的科学和工程见解。我们调查了机器学习(ML)的进步和变革潜力,包括声学领域的深度学习。 ML是用于自动检测和利用模式印度的广泛的统计技术家族。相对于传统的声学和信号处理,ML是数据驱动的。给定足够的训练数据,ML可以发现特征之间的复杂关系。通过大量的训练数据,ML candiscover模型描述复杂的声学现象,如人类语音和混响。声学中的ML正在迅速发展,具有令人瞩目的成果和未来的重大前景。我们首先介绍ML,然后在五个声学研究领域强调MLdevelopments:语音处理中的源定位,海洋声学中的源定位,生物声学,地震探测和日常场景中的环境声音。
translated by 谷歌翻译
多模态运动(例如陆地,航空和水上运动)越来越受到机器人研究的兴趣,因为它改善了机器人的环境适应性,运动多功能性和操作灵活性。在地面多个运动机器人中,混合机器人的优势源于其多种(两种或更多种)运动模式,其中机器人可以根据遇到的地形条件进行选择。然而,在改善多个运动模式之间的运动模式转换的自主性方面存在许多挑战。这项工作提出了一种实现atrack-legged四足机器人步骤协商的自主运动模式转换的方法。通过提出的比较滚动和行走运动模式的能量性能的标准,实现了决策过程的自主性。为了实现能源评估目的,提出了两个攀登阶段以实现平稳的步骤谈判行为。模拟显示自主运动模式转换被实现用于具有不同高度的步骤的协商。所提出的方法足够通用,可以在对其运动能量性能进行一些预先研究之后用于其他混合机器人。
translated by 谷歌翻译
认识到作为诗歌或散文的一段文字对于大多数人来说通常都很容易;但是,只有专家可以确定哪个仪表是poembelongs。在本文中,我们建立了回归神经网络(RNN)模型,可以根据纯文本中的米来对诗歌进行分类。输入文本在字符级别进行编码,并直接输入到模型而不进行特征处理。这是机器理解和语言合成的一个进步,尤其是阿拉伯语。在16个阿拉伯语和4米英语的诗歌中,网络能够对诗歌进行错误的分类,总体准确率分别为96.38%和82.31%。用于进行这项研究的诗集数据量很大,超过150万节经文,并且来自不同的非技术资源,几乎阿拉伯和英国文学网站,以及不同的异构和非结构化格式。现在,这些数据集以干净,结构化和文档化的格式公开提供,供其他未来研究使用。据作者所知,这项研究是第一个通过机器学习方法对诗计进行分类,特别是在RNN无特征方法中。此外,该数据集是第一个公开可用的数据集,可用于未来的计算研究。
translated by 谷歌翻译
我们介绍了Bee $ ^ + $,一种95毫克四翼微型机器人,具有改进的可控性和开环响应特性,相对于具有相同尺寸和相似重量的最先进的双翼微型机器人所表现的那些(即, 75毫克哈佛RoboBee和类似的原型)。推动Bee $ ^ + $发展的关键创新是引入极轻(28毫克)孪晶单晶片致动器,这可以设计出一种独立襟翼四翼的新型微机械机构。与两翼RoboBee类飞行器相比,所提出的设计的第一个主要优点是,通过将执行器的数量从两个增加到四个,直接控制输入的数量从三个增加(滚动扭矩,俯仰扭矩和推力 - 当采用简单的正弦激励时,力)到四(滚动扭矩,俯仰扭矩,偏航扭矩和推力)。 Bee $ ^ + $的第二个优点是它的四翼配置和摆动模式自然地抑制了通常影响双翼微型机器人的偏航自由度的旋转扰动。此外,与其他微型机器人相比,Bee $ ^ + $的设计大大降低了相关制造工艺的复杂性,因为单晶片执行器非常容易构建。最后,我们假设,由于相对低的负荷影响它们的扑动机制,所以Beee $ ^ + $ s的预期寿命必须远高于双翼对应物的寿命.Bee $ ^ + $的功能和基本功能是通过一组简单的对照实验证明。我们预计这个新平台可以实现高性能控制器,用于执行低于100毫克的高速特技飞行操作,以及为实现亚克力级别的完全自治而寻求多样化研究。
translated by 谷歌翻译