智能论文笔记

Explainable and High-Performance Hate and Offensive Speech Detection

Marzieh Babaeianjelodar , Gurram Poorna Prudhvi , Stephen Lorenz , Keyu Chen , Sumona Mondal , Soumyabrata Dey , Navin Kumar

分类：自然语言处理 | 机器学习

2022-06-26

信息通过社交媒体平台的传播可以创造可能对弱势社区的环境和社会中某些群体的沉默。为了减轻此类情况，已经开发了几种模型来检测仇恨和冒犯性言论。由于在社交媒体平台中检测仇恨和冒犯性演讲可能会错误地将个人排除在社交媒体平台之外，从而减少信任，因此有必要创建可解释和可解释的模型。因此，我们基于在Twitter数据上培训的XGBOOST算法建立了一个可解释且可解释的高性能模型。对于不平衡的Twitter数据，XGBoost在仇恨言语检测上的表现优于LSTM，Autogluon和ULMFIT模型，F1得分为0.75，而0.38和0.37分别为0.37和0.38。当我们将数据放到三个单独的类别的大约5000个推文中时，XGBoost的性能优于LSTM，Autogluon和Ulmfit；仇恨言语检测的F1分别为0.79和0.69、0.77和0.66。 XGBOOST在下采样版本中的进攻性语音检测中的F1得分分别为0.83和0.88、0.82和0.79，XGBOOST的表现也比LSTM，Autogluon和Ulmfit更好。我们在XGBoost模型的输出上使用Shapley添加说明（SHAP），以使其与Black-Box模型相比，与LSTM，Autogluon和Ulmfit相比，它可以解释和解释。

translated by 谷歌翻译

生成视频数据的表示对于推进机器感知领域至关重要。大多数当前的技术都依赖于手工注册的数据，这些数据可能很难使用，生成昂贵且难以扩展。在这项工作中，我们提出了一种基于对比度学习的新颖学习方法，熔岩能够以一种自我监督的方式学习联合语言，音频和视频表示。我们使用变压器编码器在动力学700数据集上预先训练熔岩来学习每种模式的表示形式。然后，我们证明，熔岩在使用未标记的数据的一小部分时，与当前最新的自我监督和弱监督预审技术进行了竞争性能。

translated by 谷歌翻译

本文介绍了电力系统运营商的域知识如何集成到强化学习（RL）框架中，以有效学习控制电网拓扑以防止热级联的代理。由于大搜索/优化空间，典型的基于RL的拓扑控制器无法表现良好。在这里，我们提出了一个基于演员 - 评论家的代理，以解决问题的组合性质，并使用由RTE，法国TSO开发的RL环境训练代理。为了解决大型优化空间的挑战，通过使用网络物理修改环境以增强代理学习来纳入训练过程中的基于奖励调整的基于课程的方法。此外，采用多种方案的并行训练方法来避免将代理偏置到几种情况，并使其稳健地对网格操作中的自然变异性。如果没有对培训过程进行这些修改，则RL代理失败了大多数测试场景，说明了正确整合物理系统的域知识以获得真实世界的RL学习的重要性。该代理通过RTE测试2019年学习，以运行电力网络挑战，并以精确度和第1位的速度授予第2位。开发的代码是公共使用开放的。

translated by 谷歌翻译

由于难以获得地面真理标签，从虚拟世界数据集学习对于像语义分割等现实世界的应用非常关注。从域适应角度来看，关键挑战是学习输入的域名签名表示，以便从虚拟数据中受益。在本文中，我们提出了一种新颖的三叉戟架构，该架构强制执行共享特征编码器，同时满足对抗源和目标约束，从而学习域不变的特征空间。此外，我们还介绍了一种新颖的训练管道，在前向通过期间能够自我引起的跨域数据增强。这有助于进一步减少域间隙。结合自我培训过程，我们在基准数据集（例如GTA5或Synthia适应城市景观）上获得最先进的结果。Https://github.com/hmrc-ael/trideadapt提供了代码和预先训练的型号。

translated by 谷歌翻译