我们根据修辞结构理论(RST)提出了一种有效的句子级语篇分析的神经框架。我们的框架包括一个话语分段器,用于识别文本中的基本话语单元(EDU),以及一个以低调的方式构建话语树的话语分析器。分段器和解析器都基于PointerNetworks并在线性时间内运行。我们的分段器得出$ F_1 $得分为95.4,我们的解析器在累计标签(关系)指标上获得了$ F_1 $ 81.7分,超过以前的方法,并且在两项任务上都达成了人类协议(98.3和83.0 $) F_1 $)。
translated by 谷歌翻译
我们解决了电子商务搜索环境中的个性化问题。具体而言,我们开发了个性化排名功能,这些功能使用会话间文本来增强针对转换和相关性优化的通用排名。我们使用从历史会话中的项目共同点击和使用项目标题和价格的基于内容的功能中学习的潜在特征的组合。在现有文献中已经广泛讨论了搜索中的个性化。我们工作的新颖之处在于结合和比较基于内容和内容不可知的特征,并表明它们相互补充,以便在排名中得到显着改善。此外,我们的技术不需要明确的重新排序步骤,不依赖于从长期搜索行为中学习用户配置文件,也不涉及查询项目用户功能的复杂建模。我们的方法使用轻量级项目嵌入来捕获项目共同点击倾向。我们通过实验证明,我们的技术在平均倒数等级(MRR)方面明显优于通用排名。我们还提供了eBay搜索引擎上项目嵌入所捕获的语义相似性的轶事证据。
translated by 谷歌翻译
印度语言的情感分析(SAIL)-Code混合工具竞赛旨在识别印度语言对(Hi-En,Ben-Hi-En)的代码混合数据集的句子级别情感极性。因此,Hi-En数据集分别称为HI-EN和Ben-Hi-En数据集,如BN-EN。为此,我们提交了四种用于代码混合HI-EN和BN-ENdatasets的情感分析的模型。第一个模型是一个集合投票分类器,由三个分类器组成 - 线性SVM,逻辑回归和随机森林,而第二个是线性SVM。两个模型都使用了字符n-gram的TF-IDF特征向量,其中n的范围是2到6.我们使用scikit-learn(sklearn)机器学习库来实现这两种方法。从投票分类器获得Run1,Run2使用线性SVM模型生成结果。在四个提交的输出中,Run2在两个数据集中都优于Run1。我们在HI-EN的比赛中获得了第一名,其得分为0.569,而BN-EN的得分为0.526。
translated by 谷歌翻译