多项研究表明,从孕妇中期超声检查(USG)检查获得标准化的胎儿脑生物特征?获得这些测量值是高度主观的,专业驱动的,需要多年的培训经验,从而限制了所有怀孕母亲的优质产前护理。在这项研究中,我们提出了一种深度学习方法(DL)方法,以通过准确和自动化的卡钳放置(每次生物测量法)将其作为地标建模,从而从跨炉平面(TC)的2D USG图像(TC)计算3个关键的胎儿脑生物特征。检测问题。我们利用了临床相关的生物识别约束(卡尺点之间的关系)和与域相关的数据增强,以提高U-NET DL模型的准确性(经过训练/测试:596张图像,473个受试者/143张图像,143个受试者)。我们进行了多个实验,证明了DL主链,数据增强,推广性和基准测试,通过广泛的临床验证(DL与7位经验丰富的临床医生)对最新的最新方法进行了测试。在所有情况下,单个卡尺点和计算生物特征的放置的平均误差都与临床医生之间的错误率相当。所提出的框架的临床翻译可以帮助新手用户在可靠和标准化的胎儿大脑超声图评估中的新手使用者。
translated by 谷歌翻译
Speech to text models tend to be trained and evaluated against a single target accent. This is especially true for English for which native speakers from the United States became the main benchmark. In this work, we are going to show how two simple methods: pre-trained embeddings and auxiliary classification losses can improve the performance of ASR systems. We are looking for upgrades as universal as possible and therefore we will explore their impact on several models architectures and several languages.
translated by 谷歌翻译
Arbitrary Style Transfer is a technique used to produce a new image from two images: a content image, and a style image. The newly produced image is unseen and is generated from the algorithm itself. Balancing the structure and style components has been the major challenge that other state-of-the-art algorithms have tried to solve. Despite all the efforts, it's still a major challenge to apply the artistic style that was originally created on top of the structure of the content image while maintaining consistency. In this work, we solved these problems by using a Deep Learning approach using Convolutional Neural Networks. Our implementation will first extract foreground from the background using the pre-trained Detectron 2 model from the content image, and then apply the Arbitrary Style Transfer technique that is used in SANet. Once we have the two styled images, we will stitch the two chunks of images after the process of style transfer for the complete end piece.
translated by 谷歌翻译
在动态地形和环境中,最佳的运动和有效遍历外星漫游器是行星科学和地球物理系统领域的重要问题陈述。为行星流浪者的悬架机理设计最高级有效的架构是迈向健壮的流浪者的关键步骤。本文重点介绍了摇杆转型机制,这是一种与外国地形相关的标准悬架方法。在审查了可用的先前文献并利用各种优化和全局最小化算法之后,本文提供了一项有关流浪者悬架机制的机械设计优化的新研究。本文对模拟退火,遗传算法,群智能技术,盆地希望和差异进化进行了广泛的测试,同时彻底评估了每个相关的超级参数,以找到效用驱动的解决方案。我们还评估了上述任务的双重退火和子公司算法,同时保持了道德研究的无偏测试角度。计算效率和整体适应性被认为是评估相关算法的关键磁性参数,还重点是可变输入种子,以找到最合适的效用驱动策略。在经验上获得了模拟退火,成为表现最佳的启发式策略,其适合度为760,其优于其他算法,并在各种输入种子和个体性能指标上提供了一致的性能。
translated by 谷歌翻译
语法误差校正(GEC)系统执行序列到序列任务,其中GEC系统校正了包含语法错误的输入单词序列,以输出语法正确的单词序列。随着深度学习方法的出现,自动化的GEC系统变得越来越流行。例如,GEC系统通常用于英语学习者的语音转录作为评估和反馈形式 - 这些强大的GEC系统可用于自动测量候选人流利度的一个方面。 \ textit {edits}的计数从候选人的输入句子(或论文)到GEC系统的语法校正输出句子,这表明候选人的语言能力,其中更少的编辑表明更好的流利度。因此,编辑计数可以被视为\ textit {fluency评分},零表示完美的流利度。但是,尽管基于深度学习的GEC系统非常强大和准确,但它们容易受到对抗性攻击:对手可以在系统的输入下引入一个小的,特定的更改,该系统在输出时会导致大型,不需要的变化。在考虑将GEC系统应用于自动化语言评估时,对手的目的可能是通过对语法上不正确的输入句子进行小改动来作弊,该句子隐藏了GEC系统中的错误被不公正地获得了完美的流利程度。这项工作研究了一种简单的普遍替代攻击攻击,非母语的英语说话者实际上可以采用欺骗用于评估的GEC系统。
translated by 谷歌翻译
深度估计是在机器人手术和腹腔镜成像系统中进行图像引导干预的关键步骤。由于对于腹腔镜图像数据很难获得人均深度地面真相,因此很少将监督深度估计应用于手术应用。作为替代方案,已经引入了仅使用同步的立体图像对来训练深度估计器。但是,最近的工作集中在2D中的左右一致性上,而忽略了现实世界坐标中对象的宝贵固有3D信息,这意味着左右3D几何结构一致性尚未得到充分利用。为了克服这一限制,我们提出了M3Depth,这是一种自我监督的深度估计器,以利用3D几何结构信息隐藏在立体声对中,同时保持单眼推理。该方法还消除了在至少一个立体声图像中通过掩码看不见的边界区域的影响,以增强重叠区域中的左图和右图像之间的对应关系。密集实验表明,我们的方法在公共数据集和新获取的数据集上的以前的自我监督方法都大大优先,这表明在不同的样品和腹腔镜上都有良好的概括。
translated by 谷歌翻译
空间机器人应用程序(例如,拆除活动空间碎片)(ASDR)需要在启动之前进行代表性测试。在空间中模仿微重力环境的一种常用方法是基于空气的平台,例如欧洲航天局的轨道机器人技术和GNC Lab(ORGL)。这项工作为ORGL的浮动平台提供了控制架构,配备了八个基于螺线管 - 阀门的推进器和一个反应轮。控制体系结构由两个主要组成部分组成:一个轨迹规划师,该轨迹规划师找到了连接两个状态的最佳轨迹和一个遵循任何物理可行轨迹的轨迹追随者。首先在引入的仿真中评估控制器,在查找和跟随轨迹的轨迹中获得100%的成功率,以在蒙特卡罗测试中来源。单个轨迹也成功地是物理系统。在这项工作中,我们展示了控制器拒绝干扰并遵循数十厘米内的直线轨迹的能力。
translated by 谷歌翻译
逆文本归一化(ITN)用于将自动语音识别(ASR)系统的口语输出转换为书面形式。传统手工制作的ITN规则可以复杂地转录和维护。同时,神经建模方法需要与ASR系统相同或相似的域(内域数据)中的质量大规模口语写作示例。这两种方法都需要昂贵且复杂的注释。在本文中,我们提出了一种数据增强技术,该技术可有效地从室外文本数据中产生丰富的口语写入数字对,并以最少的人类注释。我们从经验上证明,使用我们的数据增强技术训练的ITN模型始终超过ITN模型,该模型仅使用14.44%的总体准确性,仅在所有数字表面(例如红衣主教,货币和分数)上使用内域数据进行训练。
translated by 谷歌翻译
跨视野地理位置化的现有工作基于将地面全景与空中图像相匹配的图像。在这项工作中,我们专注于地面视频,而不是图像,这些视频提供了对此任务很重要的其他上下文提示。没有针对此问题的现有数据集,因此我们提出了GAMA数据集,这是一个带有地面视频和相应空中图像的大型数据集。我们还提出了一种解决这个问题的新方法。在剪辑级,简短的视频剪辑与相应的空中图像匹配,后来用于获得长视频的视频级地理定位。此外,我们提出了一种分层方法,以进一步改善剪辑级地理定位。这是一个具有挑战性的数据集,未对齐和有限的视野,我们提出的方法的前1个召回率为19.4%和45.1% @1.0英里。代码和数据集可在以下链接中获得:https://github.com/svyas23/gama。
translated by 谷歌翻译
与单模式学习相比,大型数据集上的联合视觉和语言建模最近在多模式任务中表现出了良好的进步。但是,这些方法对现实世界扰动的鲁棒性尚未被研究。在这项工作中,我们对此类模型进行了首次广泛的鲁棒性研究,以针对针对视频和语言的各种现实世界的扰动。我们专注于文本到视频检索,并提出了两个大型基准数据集,即MSRVTT-P和YouCook2-P,它们利用了90个不同的视觉和35个不同的文本扰动。该研究揭示了一些有趣的发现:1)当文本受到干扰而不是视频扰动时,研究的模型更加可靠。 3)与跨注意时,使用两个分支编码器通常更健壮。我们希望这项研究能够作为基准,并指导强大的多模式学习的未来研究。
translated by 谷歌翻译