Twitter也许是社交媒体更适合研究。它只需要几个步骤来获取信息,并且有很多库可以帮助这方面。尽管如此,知道特定事件是否在Twitter上表达是一个具有挑战性的任务,需要相当多的推文集合。该提案旨在促进研究员对自从2015年12月以来推出的Twitter采集的加工信息收集到Twitter上采矿活动的过程。事件可能与自然灾害,健康问题和人民的流动相关,等等可以与图书馆一起追求的研究。在这一贡献中提出了不同的应用程序,以说明图书馆的能力:对推文中发现的主题的探索性分析,这是西班牙语方言中的相似性研究以及不同国家的移动性报告。总之,呈现的Python库应用于不同的域,并在以阿拉伯语,英语,西班牙语和俄语的单词和双克单词的频率下检索一系列信息。以及与200多个国家或地区的地点之间的旅行数量有关的移动性信息。
translated by 谷歌翻译
Spanish is one of the most spoken languages in the globe, but not necessarily Spanish is written and spoken in the same way in different countries. Understanding local language variations can help to improve model performances on regional tasks, both understanding local structures and also improving the message's content. For instance, think about a machine learning engineer who automatizes some language classification task on a particular region or a social scientist trying to understand a regional event with echoes on social media; both can take advantage of dialect-based language models to understand what is happening with more contextual information hence more precision. This manuscript presents and describes a set of regionalized resources for the Spanish language built on four-year Twitter public messages geotagged in 26 Spanish-speaking countries. We introduce word embeddings based on FastText, language models based on BERT, and per-region sample corpora. We also provide a broad comparison among regions covering lexical and semantical similarities; as well as examples of using regional resources on message classification tasks.
translated by 谷歌翻译
精确预测加工循环时间在制造业中很重要。通常,计算机辅助制造(CAM)软件使用基本的运动设置使用来自刀具路径文件的命令进给的加工时间。通常,该方法不考虑刀具路径几何形状或刀具路公差,因此估计大幅度的加工循环时间。删除对机器特异性知识的需求,本文通过为每个机床轴构建神经网络模型提出了一种数据驱动的进给和加工周期时间预测方法。在本研究中,使用由指令的进给,标称加速,刀具路径几何和测量的进料组成的数据集来训练神经网络模型。在商业加工中心上使用代表性工业薄壁结构组件的验证试验表明,该方法估计了90%以上的加工时间。该方法表明,神经网络模型具有了解复杂机床系统的行为和预测循环时间的能力。进一步整合这些方法在工业4.0中的数字双胞胎的植入中至关重要。
translated by 谷歌翻译