本文提供了对亚洲翻译研讨会(WAT2022)的“ Silo NLP”提交的系统描述。我们参加了指示多模式任务(英语 - >印地语,英语 - > Malayalam和英语 - >孟加拉语多模式翻译)。对于仅文本翻译,我们从刮擦和微调的MBART-50型号训练了变压器。对于多模式翻译,我们使用了相同的MBART架构和从图像提取的对象标签来用作与文本序列连接的视觉特征。我们的提交提交的许多任务包括英语 - >印地语多模式翻译(评估测试),英语 - > Malayalam纯文本和多模式翻译(评估测试),英语 - > Bengali - > Bengali多模式翻译(挑战测试)和英语 - > Bengali-> Bengali-> bengali->仅翻译(评估测试)。
translated by 谷歌翻译
通过有限元(FE)模型对工程需求参数(EDP)的计算昂贵估计,同时考虑地震和参数不确定性限制了基于性能的地震工程框架的使用。已经尝试用替代模型代替FE模型,但是,这些模型中的大多数仅是构建参数的函数。这需要重新训练替代物以前未见地震。在本文中,作者提出了一个基于机器学习的替代模型框架,该框架考虑了这两种不确定性,以预测看不见的地震。因此,地震的特征在于使用代表性地面运动套件的SVD计算的正顺序基础。这使人们能够通过随机采样这些权重并将其乘以基础来产生大量的地震。权重以及本构参数作为用EDP作为所需输出的机器学习模型的输入。测试了四个竞争机器学习模型,并观察到一个深神经网络(DNN)给出了最准确的预测。该框架通过使用它成功预测了使用棒模型代表的一层楼和三层建筑的峰值响应来验证该框架,并受到看不见的远场地面运动。
translated by 谷歌翻译
双耳音频为听众提供了沉浸式体验,可以增强增强和虚拟现实。然而,录制双耳音频需要专门设置,具有左耳和右耳的麦克风的假人头部。这种录制设置难以构建和设置,因此单声道音频已成为公共设备中的首选选择。为了获得与双耳音频相同的影响,最近的努力已经针对从场景的视觉输入上升降单声道音频到双耳音频。这种方法没有使用一个重要的提示来任务:不同声音产生对象来自麦克风的距离。在这项工作中,我们认为场景的深度映射可以作为诱导场景中不同对象的距离信息的代理,用于音频双耳的任务。我们提出了一种新颖的编码器解码器架构,具有分层关注机制来共同编码图像,深度和音频特征。我们在最先进的变压器网络上设计网络,用于图像和深度表示。我们凭经验展示了所提出的方法对于两个具有挑战性的公共数据集公平游戏和音乐 - 立体声舒适地表现出最先进的方法。我们还展示了定性结果,该方法能够专注于任务所需的正确信息。项目详细信息可用于\ url {https://krantiparida.github.io/projects/bomobinaural.html}
translated by 谷歌翻译