我们研究了数据驱动的深度学习方法的潜力,即从观察它们的混合物中分离两个通信信号。特别是,我们假设一个信号之一的生成过程(称为感兴趣的信号(SOI)),并且对第二个信号的生成过程不了解,称为干扰。单通道源分离问题的这种形式也称为干扰拒绝。我们表明,捕获高分辨率的时间结构(非平稳性),可以准确地同步与SOI和干扰,从而带来了可观的性能增长。有了这个关键的见解,我们提出了一种域信息神经网络(NN)设计,该设计能够改善“现成” NNS和经典检测和干扰拒绝方法,如我们的模拟中所示。我们的发现突出了特定于交流领域知识的关键作用在开发数据驱动的方法方面发挥了作用,这些方法具有前所未有的收益的希望。
translated by 谷歌翻译
我们研究了单通道源分离(SCSS)的问题,并专注于环化信号,这些信号特别适用于各种应用领域。与经典的SCSS方法不同,我们考虑了一个仅可用源的示例而不是模型的设置,从而激发了数据驱动的方法。对于具有基本环化高斯成分的源模型,我们为任何基于模型或数据驱动的分离方法建立了可达到的均方误差(MSE)的下限。我们的分析进一步揭示了最佳分离和相关实施挑战的操作。作为一种计算吸引力的替代方案,我们建议使用U-NET体系结构进行深度学习方法,该方法与最低MSE估计器具有竞争力。我们在模拟中证明,有了合适的域信息架构选择,我们的U-NET方法可以通过大幅减少的计算负担来达到最佳性能。
translated by 谷歌翻译
我们介绍了Twhin-Bert,这是一种多语言语言模型,该模型在流行的社交网络Twitter上训练了内域数据。Twhin-bert与先前的预训练的语言模型有所不同,因为它不仅接受了基于文本的自学训练,而且还具有基于Twitter异质信息网络(TWHIN)中丰富社交活动的社会目标。我们的模型接受了70亿条推文的培训,涵盖了100多种不同的语言,为简短,嘈杂,用户生成的文本提供了有价值的表示形式。我们对各种多语言社会建议和语义理解任务进行评估,并证明了对既定的预训练的语言模型的大幅改进。我们将自由开放源代码Twhin-Bert和我们为研究社区提供的精心策划标签预测和社会参与基准数据集。
translated by 谷歌翻译
冰雹风险评估对于估计和减少对农作物,果园和基础设施的破坏是必要的。此外,它有助于估计和减少企业,尤其是保险公司的损失。但是冰雹预测具有挑战性。用于此目的的设计模型的数据是树维的地理空间时间序列。关于可用数据集的分辨率,冰雹是一个非常本地的事件。同样,冰雹事件很少见 - 观测中只有1%的目标标记为“冰雹”。现象和短期冰雹预测的模型正在改善。将机器学习模型引入气象学领域并不是什么新鲜事。还有各种气候模型反映了未来气候变化的可能情况。但是,没有用于数据驱动的机器学习模型来预测给定区域的冰雹频率变化。后一项任务的第一种可能方法是忽略空间和时间结构,并开发一种能够将气象变量的给定垂直轮廓分类为有利于冰雹形成的模型。尽管这种方法肯定忽略了重要的信息,但它的加权非常轻,很容易扩展,因为它将观察值视为彼此独立的。更高级的方法是设计能够处理地理空间数据的神经网络。我们在这里的想法是将负责处理空间数据处理的卷积层与能够使用时间结构工作的复发神经网络块相结合。这项研究比较了两种方法,并引入了一个适合预测冰雹频率变化的任务的模型。
translated by 谷歌翻译
气候变化增加了损害电力系统可靠性并导致多次设备故障的极端天气事件(风暴,大雨,野火)的数量。实时和准确检测潜在线路故障是减轻极端天气影响并激活紧急控制的第一步。功率平衡方程非线性,极端事件中的发电不确定性增加,缺乏电网可观察性会损害传统数据驱动的失败检测方法的效率。同时,基于神经网络的现代化的机器学习方法需要大量数据来检测事故,尤其是在改变时间的环境中。本文提出了一个具有物理信息的线路故障检测器(字段),该探测器利用网格拓扑信息来减少样本和时间复杂性并提高定位准确性。最后,我们说明了与最先进的方法相比,与各种测试用例相比,我们的方法的优越性实证性能。
translated by 谷歌翻译
交替的电流(AC)偶然受限的最佳功率流(CC-OPF)问题解决了发电不确定性下发电和交付的经济效率。由于可再生能源量大量,后者是现代电网的内在固有的。尽管取得了学术上的成功,但AC CC-OPF问题是高度非线性和计算要求的,这限制了其实际影响。为了改善AC-OPF问题的复杂性/准确性权衡,本文提出了一种快速数据驱动的设置,该设置使用稀疏和混合的高斯流程(GP)框架,以模拟具有输入不确定性的功率流程方程。我们提倡通过数值研究对拟议方法的效率,而与最新方法相比,多个IEEE测试用例的效率快两倍,更准确。
translated by 谷歌翻译
学习贝叶斯网络是一个NP硬性问题,并且随着节点的数量增加,学习贝叶斯网络结构的经典算法效率低下。近年来,开发了一些用于学习大量节点的贝叶斯网络的方法和算法(超过50个)。但是,这些解决方案的缺点,例如,它们仅操作一种类型的数据(离散或连续),或者已经创建了其算法来满足数据的特定性质(医学,社交等)。本文介绍了一种用于学习具有大量节点(超过100个)的大型贝叶斯网络的大bravebn算法。该算法利用了勇敢的系数,该系数测量了几组实例的相互发生。为了形成这些组,我们根据共同信息(MI)度量使用最近的邻居方法。在本文的实验部分中,我们将BigBraveBN与其他现有解决方案的性能与多个离散和连续数据集进行了比较。实验部分还代表了对实际数据的测试。上述实验结果证明了Bigbravebn算法在贝叶斯网络的结构学习中的效率。
translated by 谷歌翻译
近年来,电力发电已导致美国超过四分之一的温室气体排放。将大量的可再生能源整合到电网中可能是减少电网中碳排放并减缓气候变化的最易于使用的方法。不幸的是,风和太阳能等最容易获得的可再生能源是高度波动的,因此给电网操作带来了很多不确定性,并挑战了现有的优化和控制政策。偶然受限的交流电(AC)最佳功率流(OPF)框架找到了最低成本生成的调度,以保持较低的概率将电网操作保持在安全限制之内。不幸的是,AC-OPF问题的偶然性约束扩展是非登记,计算挑战性的,需要了解系统参数以及有关可再生分布行为的其他假设。已知的线性和凸近似于上述问题,尽管可以进行操作,但对于操作实践来说太保守了,并且不考虑系统参数的不确定性。本文提出了一种基于高斯流程(GP)回归以缩小此差距的替代数据驱动方法。 GP方法学习了一个简单但非凸的数据驱动的近似值,可以包含不确定性输入的交流功率流程。然后,通过考虑输入和参数不确定性,将后者用于有效地确定CC-OPF的解。在众多IEEE测试案例中,说明了使用不同近似值的GP不确定性传播的拟议方法的实际效率。
translated by 谷歌翻译
目前,最新的表格数据深度学习模型与基于决策树(GBDT)的传统ML模型竞争。与GBDT不同,深层模型可以从训练预处理中受益,这是视觉和NLP的DL的主力。对于表格问题,提出了几种预处理的方法,但是尚不完全清楚训练是否提供一致的明显改进以及应使用哪种方法,因为这些方法通常不相互比较或比较仅限于最简单的MLP体系结构。在这项工作中,我们旨在确定可以将可以普遍应用于不同数据集和体系结构的表格DL模型的最佳实践。在我们的发现中,我们表明,在预训练阶段使用对象目标标签对下游性能是有益的,并提倡几个目标意识到的预处理目标。总体而言,我们的实验表明,正确进行预处理可显着提高表格DL模型的性能,这通常会导致其优越性比GBDT。
translated by 谷歌翻译
复制检测模式(CDP)是一项有吸引力的技术,可让制造商捍卫其产品免受伪造。CDP保护机制背后的主要假设是,由于数据处理不平等,无法复制或克隆工业打印机上的最小符号大小(1x1)的代码。但是,以前的作品表明,基于机器的攻击可以产生高质量的假货,从而基于传统的基于功能的身份验证系统的身份验证准确性降低。虽然深度学习(DL)可以用作身份验证系统的一部分,但据我们所知,以前的作品都没有研究基于DL的身份验证系统,反对基于ML的攻击具有1x1符号的CDP攻击尺寸。在这项工作中,我们研究了假设有监督学习(SL)设置的表现。
translated by 谷歌翻译