尽管最近的研究集中在量化单词用法上以找到叙事情感弧的整体形状,但叙事中叙事的某些特征仍有待探索。在这里,我们通过找到单词用法中波动开始相关的文本长度来表征亚叙事的叙事时间尺度。我们代表30,000多个项目Gutenberg书籍作为时间序列使用OusiOmetrics,这是一个具有基本含义的功率破坏者框架,本身是对价价 - 宽松义务框架的重新解释,这些框架源自语义差异。我们使用经验模式分解将每本书的力量和危险时间序列分解为组成振荡模式和非振荡趋势的总和。通过将原始力量和危险时间序列的分解与从洗牌文本中得出的分解,我们发现较短的书籍仅显示出一般趋势,而较长的书籍除了一般趋势外,还具有波动,类似于子图在一个中的弧线中的弧线。总体叙事弧。这些波动通常有几千个单词的时期,无论书籍长度或库分类代码如何,但根据书的内容和结构而有所不同。我们的方法提供了一种数据驱动的denoisising方法,可用于各种长度的文本,与使用大型窗口尺寸的更传统的方法相反,该方法可能会无意中平滑相关信息,尤其是对于较短的文本而言。
translated by 谷歌翻译
单词是基本的语言单位,通过含义将思想和事物联系起来。但是,单词在文本序列中并未独立出现。句法规则的存在导致相邻单词之间的相关性。此外,单词不是均匀分布的,而是遵循幂定律,因为带有纯语义内容的术语似乎比指定语法关系的术语要少得多。使用序数模式方法,我们对11种主要语言的词汇统计连接进行了分析。我们发现,语言用来表达单词关系的各种举止产生了独特的模式分布。值得注意的是,我们发现这些关系可以用马尔可夫2的模型建模,并且该结果对所有研究的语言都有普遍有效。此外,模式分布的波动可以使我们能够确定文本及其作者的历史时期。综上所述,这些结果强调了时间序列分析和信息理论方法的相关性,以理解自然语言的统计相关性。
translated by 谷歌翻译
To understand the growing phenomena of new vocabulary on nationwide online social media, we analyzed monthly word count time series extracted from approximately 1 billion Japanese blog articles from 2007 to 2019. In particular, we first introduced the extended logistic equation by adding one parameter to the original equation and showed that the model can consistently reproduce various patterns of actual growth curves, such as the logistic function, linear growth, and finite-time divergence. Second, by analyzing the model parameters, we found that the typical growth pattern is not only a logistic function, which often appears in various complex systems, but also a nontrivial growth curve that starts with an exponential function and asymptotically approaches a power function without a steady state. Furthermore, we observed a connection between the functional form of growth and the peak-out. Finally, we showed that the proposed model and statistical properties are also valid for Google Trends data (English, French, Spanish, and Japanese), which is a time series of the nationwide popularity of search queries.
translated by 谷歌翻译
情感是引人入胜的叙事的关键部分:文学向我们讲述了有目标,欲望,激情和意图的人。情绪分析是情感分析更广泛,更大的领域的一部分,并且在文学研究中受到越来越多的关注。过去,文学的情感维度主要在文学诠释学的背景下进行了研究。但是,随着被称为数字人文科学(DH)的研究领域的出现,在文学背景下对情绪的一些研究已经发生了计算转折。鉴于DH仍被形成为一个领域的事实,这一研究方向可以相对较新。在这项调查中,我们概述了现有的情感分析研究机构,以适用于文献。所评论的研究涉及各种主题,包括跟踪情节发展的巨大变化,对文学文本的网络分析以及了解文本的情感以及其他主题。
translated by 谷歌翻译
大型语言数据集的可用性使数据驱动的方法能够研究语言改变。 Google Books Corpus Unigram频率数据集用于以八种语言调查排名动态。我们观察了1900年至2008年的Unigrams的等级变化,并将其与我们为分析开发的赖特 - 费舍尔灵感的模型进行了比较。该模型模拟中性进化过程,限制没有消失并添加单词。这项工作解释了模型的数学框架 - 用多项式过渡概率写作马尔可夫链 - 以展示单词频率如何变化。从我们的数据和我们的模型中的观察开始,Word Rank稳定性显示出两种类型的特点:(1)排名的增加/减少是单调,或(2)排名保持不变。基于我们的模型,高级词语往往更稳定,而低级词语往往更易挥发。有些词语以两种方式在两种方面发生变化:(a)通过累积小/减少等级和(b)的累积,通过增加/减少等级的冲击。我们所展示的所有语言中的大多数单词都是排名稳定,但并不像中立模型一样稳定。观察到的秒表和斯沃拉斯图单词在八种语言中排名稳定,这表明既定语言的语言符合性。这些签名提示所有语言的Unigram频率都以与纯粹中立的进化过程不一致的方式发生了变化。
translated by 谷歌翻译
$ \ Texit {Fermi} $数据中的银河系中多余(GCE)的两个领先假设是一个未解决的微弱毫秒脉冲条件(MSP)和暗物质(DM)湮灭。这些解释之间的二分法通常通过将它们建模为两个单独的发射组分来反映。然而,诸如MSP的点源(PSS)在超微弱的极限中具有统计变质的泊松发射(正式的位置,预期每个来源平均贡献远低于一个光子),导致可能提出问题的歧义如排放是否是PS样或性质中的泊松人。我们提出了一种概念上的新方法,以统一的方式描述PS和泊松发射,并且刚刚从此获得的结果中获得了对泊松组件的约束。为了实现这种方法,我们利用深度学习技术,围绕基于神经网络的方法,用于直方图回归,其表达量数量的不确定性。我们证明我们的方法对许多困扰先前接近的系统,特别是DM / PS误操作来稳健。在$ \ texit {fermi} $数据中,我们发现由$ \ sim4 \ times 10 ^ {-11} \ \ text {counts} \ {counts} \ text {counts} \ text {counts} \ \ text {cm} ^ { - 2} \ \ text {s} ^ { - 1} $(对应于$ \ sim3 - 4 $每pL期望计数),这需要$ n \ sim \ mathcal {o}( 10 ^ 4)$源来解释整个过剩(中位数价值$ n = \文本{29,300} $横跨天空)。虽然微弱,但这种SCD允许我们获得95%信心的Poissonian比赛的约束$ \ eta_p \ leq 66 \%$。这表明大量的GCE通量是由于PSS 。
translated by 谷歌翻译
语言在句法结构上有很大差异。世界上约40%的语言具有主语对象顺序,约40%的语言具有对象 - 对象 - 动词顺序。广泛的工作试图解释跨语言的单词顺序变化。但是,现有的方法无法用单个语言的单词顺序解释频率分布和演变。我们建议,单词顺序的变化反映了平衡依赖性区域和信息局部性的竞争压力的不同方式,当元素在语法上相关或彼此之间有上下文信息时,语言偏爱将它们放在一起。使用来自17个语言家族的80种语言的数据和系统发育建模,我们证明了语言的发展以平衡这些压力,因此单词顺序变化伴随着句法结构的频率分布的变化,这些句法结构的频率分布会说话,以维持整体效率。因此,单词顺序的可变性反映了语言解决这些进化压力的不同方式。我们确定了该关节优化产生的相关特征,尤其是对同一动词共同表达对象和对象的频率。我们的发现表明,跨语言的句法结构和用法共同适应有限的认知资源,以支持有效的沟通。
translated by 谷歌翻译
情感动态是一种测量个人情绪随着时间的推移如何变化的框架。这是一个有力的工具,了解我们如何与世界互动。在本文中,我们介绍了一个框架,通过一个人的话语跟踪情感动态。具体而言,我们介绍了许多通过心理学工作的发动机情感动态(UED)指标。我们使用这种方法来追踪电影角色的情绪弧。我们分析了数千个这样的字符弧,以测试假设,以告知我们更广泛地了解故事。值得注意的是,我们表明人物倾向于使用越来越多的负面词,并且彼此越来越情绪不全,直到叙事长度的约90%。UED还具有行为研究,社会科学和公共卫生的应用。
translated by 谷歌翻译
The celebrated proverb that "speech is silver, silence is golden" has a long multinational history and multiple specific meanings. In written texts punctuation can in fact be considered one of its manifestations. Indeed, the virtue of effectively speaking and writing involves - often decisively - the capacity to apply the properly placed breaks. In the present study, based on a large corpus of world-famous and representative literary texts in seven major Western languages, it is shown that the distribution of intervals between consecutive punctuation marks in almost all texts can universally be characterised by only two parameters of the discrete Weibull distribution which can be given an intuitive interpretation in terms of the so-called hazard function. The values of these two parameters tend to be language-specific, however, and even appear to navigate translations. The properties of the computed hazard functions indicate that among the studied languages, English turns out to be the least constrained by the necessity to place a consecutive punctuation mark to partition a sequence of words. This may suggest that when compared to other studied languages, English is more flexible, in the sense of allowing longer uninterrupted sequences of words. Spanish reveals similar tendency to only a bit lesser extent.
translated by 谷歌翻译
文化领域代表了一个有用的概念,该概念在社会科学领域进行了交叉侵占。了解人类如何在社会中组织和联系他们的思想和行为有助于了解他们对不同问题的行为和态度。但是,塑造文化领域的共同特征的选择是任意的。所需的方法是一种可以利用大量在线数据(尤其是通过社交媒体)来识别没有临时假设,偏见或偏见的文化区域的方法。在这项工作中,我们通过引入一种基于微博帖子对大型数据集的自动分析来推断文化区域的方法来朝着这个方向迈出关键一步。我们的方法是基于以下原则:从人们之间讨论的主题可以推断出文化隶属关系。具体来说,我们衡量了美国社交媒体产生的书面话语中的区域差异。从地理标记的推文中内容词的频率分布,我们找到了“用法”区域热点,从那里我们得出了区域变化的主要成分。通过在这个较低维空间中数据的层次聚类,我们的方法得出了清晰的文化领域和定义它们的讨论主题。我们获得了一个明显的南北分离,主要受非裔美国人文化的影响,并进一步连续(东西方)和不连续的(城市农村)分裂,这些师为当今美国的文化领域提供了全面的了解。
translated by 谷歌翻译
人类语言中发现的最强大的模式之一是ZIPF的缩写定律,即更短的单词的趋势。自ZIPF开创性研究以来,该定律被视为压缩的体现,即形式的长度最小化 - 自然交流的普遍原则。尽管对语言进行优化的说法已经变得时尚,但衡量语言优化程度的尝试却相当稀缺。在这里,我们证明压缩在无例外的大量语言中表现出来,并且独立于测量单位。这两个单词长度都可以在书面语言的字符以及口语的持续时间中检测到。此外,为了衡量优化程度,我们得出了一个随机基线的简单公式,并提出了两个分数归一化的分数,即,它们相对于最小值和随机基线都进行了归一化。我们分析了这些和其他分数的理论和统计优势和缺点。利用最佳分数,我们首次量化了语言中单词长度的最佳程度。这表明当单词长度以字符测量时,语言平均被优化至62%或67%(取决于源),当单词长度及时测量时,平均而言,平均而言,平均而言,平均而言,平均而言,平均而言,平均至65%。通常,口语持续时间比字符中的书面单词长度更优化。除了这里报告的分析外,我们的工作还铺平了衡量其他物种发声或手势的最佳程度的方法,并将其与书面,口语或签名的人类语言进行比较。
translated by 谷歌翻译
监视自动实时流处理系统的行为已成为现实世界应用中最相关的问题之一。这种系统的复杂性已在很大程度上依赖于高维输入数据和数据饥饿的机器学习(ML)算法。我们提出了一个灵活的系统,功能监视(FM),该系统在此类数据集中检测数据漂移,并具有较小且恒定的内存足迹和流应用程序中的小计算成本。该方法基于多变量统计测试,并且是由设计驱动的数据(从数据中估算了完整的参考分布)。它监视系统使用的所有功能,同时每当发生警报时提供可解释的功能排名(以帮助根本原因分析)。系统的计算和记忆轻度是由于使用指数移动直方图而导致的。在我们的实验研究中,我们用其参数分析了系统的行为,更重要的是显示了它检测到与单个特征无直接相关的问题的示例。这说明了FM如何消除添加自定义信号以检测特定类型问题的需求,并且监视功能可用空间通常足够。
translated by 谷歌翻译
我们对基于上下文化的基于嵌入的方法的(可能错误的)输出进行了定性分析,以检测直接性语义变化。首先,我们引入了一种合奏方法优于先前描述的上下文化方法。该方法被用作对5年英语单词预测的语义变化程度进行深入分析的基础。我们的发现表明,上下文化的方法通常可以预测单词的高变化分数,这些单词在术语的词典意义上没有经历任何实际的历时语义转移(或至少这些转移的状态值得怀疑)。详细讨论了此类具有挑战性的案例,并提出了它们的语言分类。我们的结论是,预训练的情境化语言模型容易产生词典感官和上下文方差变化的变化,这自然源于它们的分布性质,但与基于静态嵌入的方法中观察到的问题类型不同。此外,他们经常将词汇实体的句法和语义方面合并在一起。我们为这些问题提出了一系列可能的未来解决方案。
translated by 谷歌翻译
系统发育比较方法在我们的领域是新的,并且对于大多数语言学家来说,至少有一点谜团。然而,导致他们在比较生物学中发现的道路与平衡抽样的方法论历史如此类似,这只是一个历史的事故,即他们没有被典型的专家发现。在这里,我们澄清了系统发育比较方法背后的基本逻辑及其对重点采样的深刻智力传统的基本相关性。然后我们介绍将在日常类型的研究中使用类型的概念,方法和工具,使类型学家能够在日常类型的研究中使用这些方法。系统发育比较方法和平衡采样的关键共性是他们试图因系谱而应对统计非独立性。虽然采样永远不会实现独立性,但需要大多数比较数据被丢弃,系统发育比较方法在保留和使用所有数据的同时实现独立性。我们讨论了系统发育信号的基本概念;关于树木的不确定性;典型的类型学平均值和比例对族谱敏感;跨语言家庭的比较;和体现的影响。广泛的补充材料说明了实际分析的计算工具,我们说明了与帕马尼云根腭膜对比的类型学案例研究讨论的方法。
translated by 谷歌翻译
评论是源代码的重要组成部分,是文档的主要来源。这引起了人们对使用大量注释的兴趣训练或评估消耗或生产它们的工具,例如生成甲骨文,甚至是从注释中生成代码,或自动生成代码摘要。这项工作大部分对评论的结构和质量做出了强烈的假设,例如假设它们主要由适当的英语句子组成。但是,我们对这些用例的现有评论的实际质量知之甚少。评论通常包含在其他类型的文本中看不到的独特结构和元素,并且从中过滤或提取信息需要额外的谨慎。本文探讨了来自GitHub的840个最受欢迎的开源项目和Srilab数据集的8422个项目的Python评论的内容和质量,并且Na \“ Ive vs.深入过滤的影响都可以使用现有注释来用于使用现有注释。培训和评估产生评论的系统。
translated by 谷歌翻译
Gutenberg文学英语语料库(Glec,Jacobs,2018a)为数字人文,计算语言学或神经认知诗学提供了丰富的文本数据来源。在这项研究中,我们解决了GLEC中不同文学类别的差异,以及作者之间的差异。我们报告了三项研究的结果,提供i)GLEC(即儿童和青年,散文,小说,戏剧,诗歌,故事)及其> 100作者,II)语义复杂性的新措施的主题和情绪分析作为Glec(例如,Jane Austen的六个小说)的工程的文学,创造力和书籍美容的指标,以及使用语义复杂性的新功能的文本分类和作者认可的两个实验。关于两种新型措施的数据估算文本的文献,文字术语和逐步距离(Van Cranenburgh等,2019)透露,戏剧是Glec中最具文学的文学,其次是诗歌和小说。计算文本创造力的新索引(Gray等,2016)揭示了诗歌和戏剧,作为最具创造力的作者,最具创造力的作者(米尔顿,教皇,Keats,Byron或Wordsworth)。我们还为Glec的作品计算了一种新颖的言语艺术感知的美丽指数,并预测Emma是奥斯汀的大小是最美丽的小说。最后,我们证明了这些语义复杂性的这些新颖的措施是文本分类和作者认可的重要特征,以及整体预测准确性在.75到.97范围内的整体预测精度。我们的数据为阅读心理学的未来计算和实验研究以及提供了多种基准和基准,用于分析和验证其他书籍语料库的途径。
translated by 谷歌翻译
在美国卡通系列的辛普森一家美国卡通系列中,真实世界事件对虚构媒体的影响尤为明显。虽然在表演的对话和视觉噱头中,通常存在非常直接的流行文化引用,但语气或情绪的微妙变化可能不那么明显。我们的目标是使用自然语言处理来试图在纽约举行9月11日恐怖袭击之前和之后搜索词频,主题和情绪的变化。没有看到明确的趋势变化,在2000年至2002年期间的相关期间随着时间的推移,稍微减少了平均情绪,但剧本仍然保持了整体积极价值,表明辛普森一家的喜剧性质并没有特别显着。需要探索其他社会问题,甚至特定的性格统计数据在此处都需要在此处加强调查结果。
translated by 谷歌翻译
近年来,超级人性药物的研究与发展取得了显着发展,各种军事和商业应用程序越来越多。几个国家的公共和私人组织一直在投资超人员,旨在超越其竞争对手并确保/提高战略优势和威慑。对于这些组织而言,能够及时可靠地识别新兴技术至关重要。信息技术的最新进展使得分析大量数据,提取隐藏的模式并为决策者提供新的见解。在这项研究中,我们专注于2000 - 2020年期间有关高人物的科学出版物,并采用自然语言处理和机器学习来通过识别12个主要潜在研究主题并分析其时间演变来表征研究格局。我们的出版物相似性分析揭示了在研究二十年中表明周期的模式。该研究对研究领域进行了全面的分析,以及研究主题是算法提取的事实,可以从练习中删除主观性,并可以在主题和时间间隔之间进行一致的比较。
translated by 谷歌翻译
历史流程表现出显着的多样性。尽管如此,学者们长期以来一直试图识别模式,并将历史行动者分类和对一些成功的影响。随机过程框架提供了一种结构化方法,用于分析大型历史数据集,允许检测有时令人惊讶的模式,鉴定内源性和外源对过程的相关因果作用者,以及不同历史案例的比较。随机过程的数据,分析工具和组织理论框架的组合使历史和考古中的传统叙事方法补充了传统的叙事方法。
translated by 谷歌翻译
The number of scientific publications continues to rise exponentially, especially in Computer Science (CS). However, current solutions to analyze those publications restrict access behind a paywall, offer no features for visual analysis, limit access to their data, only focus on niches or sub-fields, and/or are not flexible and modular enough to be transferred to other datasets. In this thesis, we conduct a scientometric analysis to uncover the implicit patterns hidden in CS metadata and to determine the state of CS research. Specifically, we investigate trends of the quantity, impact, and topics for authors, venues, document types (conferences vs. journals), and fields of study (compared to, e.g., medicine). To achieve this we introduce the CS-Insights system, an interactive web application to analyze CS publications with various dashboards, filters, and visualizations. The data underlying this system is the DBLP Discovery Dataset (D3), which contains metadata from 5 million CS publications. Both D3 and CS-Insights are open-access, and CS-Insights can be easily adapted to other datasets in the future. The most interesting findings of our scientometric analysis include that i) there has been a stark increase in publications, authors, and venues in the last two decades, ii) many authors only recently joined the field, iii) the most cited authors and venues focus on computer vision and pattern recognition, while the most productive prefer engineering-related topics, iv) the preference of researchers to publish in conferences over journals dwindles, v) on average, journal articles receive twice as many citations compared to conference papers, but the contrast is much smaller for the most cited conferences and journals, and vi) journals also get more citations in all other investigated fields of study, while only CS and engineering publish more in conferences than journals.
translated by 谷歌翻译