在世界上语言中编码的文化多样性有风险,因为在越来越多的全球化的背景下,许多语言在过去几十年中濒临灭绝。为了保留这种多样性,首先是必要了解推动语言灭绝的东西,以及哪些机制可能能够共存。在这里,我们使用理论和数据驱动的角度研究语言转换机制。使用Twitter和人口普查数据对多语种社团进行大规模实证分析,产生了广泛的语言共存空间模式。它根据语言扬声器的混合来分离,在不相交语言域的边界上进行多种语言。要了解这些不同的国家如何出现,特别是变得稳定,我们提出了一种在学习其他语言时达到语言共存的模型,并且当双语有利于使用濒危语言时。在比例框架中进行的模拟突出了人们流动性引起的空间相互作用的重要性,以解释混合状态的稳定性或两个语言区域之间的边界的存在。此外,我们发现语言的历史至关重要,了解他们现在的状态。
translated by 谷歌翻译
一种拟议的语言变化机制涉及在语言联系的情况下由第二语言(L2)学习者发挥的作用。如果在语音社区中存在足够多的L2扬声器,则与第一语言(L1)扬声器的数量相关,那么呈现L2采集困难的那些功能可能易于从语言中消失。本文提出了基于加强学习和非线性动力学的这种接触情况的数学模型。完全表征,描述了L1和L2扬声器的混合群的完整随机模型的确定性降低的均衡。语言是否改变了响应L2学习者的引入,结果取决于三个因素:L2学习者的总体比例在人口中,有问题的语言变异的相对优势,以及难度扬声器的力量在获取语言作为L2。这些因素是由描述从两个扬声器群体的损耗来保留L2困难特征的相转变的数学公式。这提供了可以针对经验数据测试的预测。在这里,借助于两种情况研究,南非荷兰语的形态调平以及非洲秘鲁西班牙语中的零类对象的侵蚀来评估该模型;该模型被发现与两种情况的历史发展一致。
translated by 谷歌翻译
文化领域代表了一个有用的概念,该概念在社会科学领域进行了交叉侵占。了解人类如何在社会中组织和联系他们的思想和行为有助于了解他们对不同问题的行为和态度。但是,塑造文化领域的共同特征的选择是任意的。所需的方法是一种可以利用大量在线数据(尤其是通过社交媒体)来识别没有临时假设,偏见或偏见的文化区域的方法。在这项工作中,我们通过引入一种基于微博帖子对大型数据集的自动分析来推断文化区域的方法来朝着这个方向迈出关键一步。我们的方法是基于以下原则:从人们之间讨论的主题可以推断出文化隶属关系。具体来说,我们衡量了美国社交媒体产生的书面话语中的区域差异。从地理标记的推文中内容词的频率分布,我们找到了“用法”区域热点,从那里我们得出了区域变化的主要成分。通过在这个较低维空间中数据的层次聚类,我们的方法得出了清晰的文化领域和定义它们的讨论主题。我们获得了一个明显的南北分离,主要受非裔美国人文化的影响,并进一步连续(东西方)和不连续的(城市农村)分裂,这些师为当今美国的文化领域提供了全面的了解。
translated by 谷歌翻译
历史流程表现出显着的多样性。尽管如此,学者们长期以来一直试图识别模式,并将历史行动者分类和对一些成功的影响。随机过程框架提供了一种结构化方法,用于分析大型历史数据集,允许检测有时令人惊讶的模式,鉴定内源性和外源对过程的相关因果作用者,以及不同历史案例的比较。随机过程的数据,分析工具和组织理论框架的组合使历史和考古中的传统叙事方法补充了传统的叙事方法。
translated by 谷歌翻译
语言是协调问题的强大解决方案:他们提供了稳定的,有关我们所说的单词如何对应于我们头脑中的信仰和意图的共同期望。然而,在变量和非静止社会环境中的语言使用需要语言表征来灵活:旧词在飞行中获取新的临时或合作伙伴特定含义。在本文中,我们介绍了柴(通过推理的连续分层适应),一个分层贝叶斯的协调理论和会议组织,旨在在这两个基本观察之间调和长期张力。我们认为,沟通的中央计算问题不仅仅是传输,如在经典配方中,而是在多个时间尺度上持续学习和适应。合作伙伴特定的共同点迅速出现在数型互动中的社会推论中,而社群范围内的社会公约是稳定的前锋,这些前锋已经抽象出与多个合作伙伴的互动。我们展示了新的实证数据,展示了我们的模型为多个现象提供了对先前账户挑战的计算基础:(1)与同一合作伙伴的重复互动的更有效的参考表达的融合(2)将合作伙伴特定的共同基础转移到陌生人,并(3)交际范围的影响最终会形成。
translated by 谷歌翻译
大型语言数据集的可用性使数据驱动的方法能够研究语言改变。 Google Books Corpus Unigram频率数据集用于以八种语言调查排名动态。我们观察了1900年至2008年的Unigrams的等级变化,并将其与我们为分析开发的赖特 - 费舍尔灵感的模型进行了比较。该模型模拟中性进化过程,限制没有消失并添加单词。这项工作解释了模型的数学框架 - 用多项式过渡概率写作马尔可夫链 - 以展示单词频率如何变化。从我们的数据和我们的模型中的观察开始,Word Rank稳定性显示出两种类型的特点:(1)排名的增加/减少是单调,或(2)排名保持不变。基于我们的模型,高级词语往往更稳定,而低级词语往往更易挥发。有些词语以两种方式在两种方面发生变化:(a)通过累积小/减少等级和(b)的累积,通过增加/减少等级的冲击。我们所展示的所有语言中的大多数单词都是排名稳定,但并不像中立模型一样稳定。观察到的秒表和斯沃拉斯图单词在八种语言中排名稳定,这表明既定语言的语言符合性。这些签名提示所有语言的Unigram频率都以与纯粹中立的进化过程不一致的方式发生了变化。
translated by 谷歌翻译
“轨迹”是指由地理空间中的移动物体产生的迹线,通常由一系列按时间顺序排列的点表示,其中每个点由地理空间坐标集和时间戳组成。位置感应和无线通信技术的快速进步使我们能够收集和存储大量的轨迹数据。因此,许多研究人员使用轨迹数据来分析各种移动物体的移动性。在本文中,我们专注于“城市车辆轨迹”,这是指城市交通网络中车辆的轨迹,我们专注于“城市车辆轨迹分析”。城市车辆轨迹分析提供了前所未有的机会,可以了解城市交通网络中的车辆运动模式,包括以用户为中心的旅行经验和系统范围的时空模式。城市车辆轨迹数据的时空特征在结构上相互关联,因此,许多先前的研究人员使用了各种方法来理解这种结构。特别是,由于其强大的函数近似和特征表示能力,深度学习模型是由于许多研究人员的注意。因此,本文的目的是开发基于深度学习的城市车辆轨迹分析模型,以更好地了解城市交通网络的移动模式。特别是,本文重点介绍了两项研究主题,具有很高的必要性,重要性和适用性:下一个位置预测,以及合成轨迹生成。在这项研究中,我们向城市车辆轨迹分析提供了各种新型模型,使用深度学习。
translated by 谷歌翻译
这本数字本书包含在物理模拟的背景下与深度学习相关的一切实际和全面的一切。尽可能多,所有主题都带有Jupyter笔记本的形式的动手代码示例,以便快速入门。除了标准的受监督学习的数据中,我们将看看物理丢失约束,更紧密耦合的学习算法,具有可微分的模拟,以及加强学习和不确定性建模。我们生活在令人兴奋的时期:这些方法具有从根本上改变计算机模拟可以实现的巨大潜力。
translated by 谷歌翻译
$ \ Texit {Fermi} $数据中的银河系中多余(GCE)的两个领先假设是一个未解决的微弱毫秒脉冲条件(MSP)和暗物质(DM)湮灭。这些解释之间的二分法通常通过将它们建模为两个单独的发射组分来反映。然而,诸如MSP的点源(PSS)在超微弱的极限中具有统计变质的泊松发射(正式的位置,预期每个来源平均贡献远低于一个光子),导致可能提出问题的歧义如排放是否是PS样或性质中的泊松人。我们提出了一种概念上的新方法,以统一的方式描述PS和泊松发射,并且刚刚从此获得的结果中获得了对泊松组件的约束。为了实现这种方法,我们利用深度学习技术,围绕基于神经网络的方法,用于直方图回归,其表达量数量的不确定性。我们证明我们的方法对许多困扰先前接近的系统,特别是DM / PS误操作来稳健。在$ \ texit {fermi} $数据中,我们发现由$ \ sim4 \ times 10 ^ {-11} \ \ text {counts} \ {counts} \ text {counts} \ text {counts} \ \ text {cm} ^ { - 2} \ \ text {s} ^ { - 1} $(对应于$ \ sim3 - 4 $每pL期望计数),这需要$ n \ sim \ mathcal {o}( 10 ^ 4)$源来解释整个过剩(中位数价值$ n = \文本{29,300} $横跨天空)。虽然微弱,但这种SCD允许我们获得95%信心的Poissonian比赛的约束$ \ eta_p \ leq 66 \%$。这表明大量的GCE通量是由于PSS 。
translated by 谷歌翻译
经常性神经网络(RNNS)是强大的动态模型,广泛用于机器学习(ML)和神经科学。之前的理论作品集中在具有添加剂相互作用的RNN上。然而,门控 - 即乘法 - 相互作用在真神经元中普遍存在,并且也是ML中最佳性能RNN的中心特征。在这里,我们表明Gating提供灵活地控制集体动态的两个突出特征:i)时间尺寸和ii)维度。栅极控制时间尺度导致新颖的稳定状态,网络用作灵活积分器。与以前的方法不同,Gating允许这种重要功能而没有参数微调或特殊对称。门还提供一种灵活的上下文相关机制来重置存储器跟踪,从而补充存储器功能。调制维度的栅极可以诱导新颖的不连续的混沌转变,其中输入将稳定的系统推向强的混沌活动,与通常稳定的输入效果相比。在这种转变之上,与添加剂RNN不同,关键点(拓扑复杂性)的增殖与混沌动力学的外观解耦(动态复杂性)。丰富的动态总结在相图中,从而为ML从业者提供了一个原理参数初始化选择的地图。
translated by 谷歌翻译
We review clustering as an analysis tool and the underlying concepts from an introductory perspective. What is clustering and how can clusterings be realised programmatically? How can data be represented and prepared for a clustering task? And how can clustering results be validated? Connectivity-based versus prototype-based approaches are reflected in the context of several popular methods: single-linkage, spectral embedding, k-means, and Gaussian mixtures are discussed as well as the density-based protocols (H)DBSCAN, Jarvis-Patrick, CommonNN, and density-peaks.
translated by 谷歌翻译
The shift of public debate to the digital sphere has been accompanied by a rise in online hate speech. While many promising approaches for hate speech classification have been proposed, studies often focus only on a single language, usually English, and do not address three key concerns: post-deployment performance, classifier maintenance and infrastructural limitations. In this paper, we introduce a new human-in-the-loop BERT-based hate speech classification pipeline and trace its development from initial data collection and annotation all the way to post-deployment. Our classifier, trained using data from our original corpus of over 422k examples, is specifically developed for the inherently multilingual setting of Switzerland and outperforms with its F1 score of 80.5 the currently best-performing BERT-based multilingual classifier by 5.8 F1 points in German and 3.6 F1 points in French. Our systematic evaluations over a 12-month period further highlight the vital importance of continuous, human-in-the-loop classifier maintenance to ensure robust hate speech classification post-deployment.
translated by 谷歌翻译
语言在句法结构上有很大差异。世界上约40%的语言具有主语对象顺序,约40%的语言具有对象 - 对象 - 动词顺序。广泛的工作试图解释跨语言的单词顺序变化。但是,现有的方法无法用单个语言的单词顺序解释频率分布和演变。我们建议,单词顺序的变化反映了平衡依赖性区域和信息局部性的竞争压力的不同方式,当元素在语法上相关或彼此之间有上下文信息时,语言偏爱将它们放在一起。使用来自17个语言家族的80种语言的数据和系统发育建模,我们证明了语言的发展以平衡这些压力,因此单词顺序变化伴随着句法结构的频率分布的变化,这些句法结构的频率分布会说话,以维持整体效率。因此,单词顺序的可变性反映了语言解决这些进化压力的不同方式。我们确定了该关节优化产生的相关特征,尤其是对同一动词共同表达对象和对象的频率。我们的发现表明,跨语言的句法结构和用法共同适应有限的认知资源,以支持有效的沟通。
translated by 谷歌翻译
近几十年来,随着数据的可用,统计语言学已大大提高。这使研究人员能够研究语言的统计特性如何随时间变化。在这项工作中,我们使用来自Twitter的数据来探索英语和西班牙语,考虑到不同尺度的排名多样性:时间(从3到96小时),空间(从3公里到3000+km Radii)和语法(从字母组到五角形到Pentagrams) )。我们发现所有三个量表都是相关的。但是,最大的变化来自语法量表的变化。在最低的语法量表(会标)上,排名多样性曲线最相似,独立于其他量表,语言和国家的价值。随着语法量表的增长,等级多样性曲线的变化更大,具体取决于时间和空间量表以及语言和国家。我们还研究了Twitter特定令牌的统计数据:表情符号,主题标签和用户提及。这些特殊类型的令牌表现出一种sigmoid的行为作为等级多样性函数。我们的结果有助于量化似乎普遍存在的语言统计数据的各个方面,这可能导致变化。
translated by 谷歌翻译
This chapter sheds light on the synaptic organization of the brain from the perspective of computational neuroscience. It provides an introductory overview on how to account for empirical data in mathematical models, implement them in software, and perform simulations reflecting experiments. This path is demonstrated with respect to four key aspects of synaptic signaling: the connectivity of brain networks, synaptic transmission, synaptic plasticity, and the heterogeneity across synapses. Each step and aspect of the modeling and simulation workflow comes with its own challenges and pitfalls, which are highlighted and addressed in detail.
translated by 谷歌翻译
本次调查绘制了用于分析社交媒体数据的生成方法的研究状态的广泛的全景照片(Sota)。它填补了空白,因为现有的调查文章在其范围内或被约会。我们包括两个重要方面,目前正在挖掘和建模社交媒体的重要性:动态和网络。社会动态对于了解影响影响或疾病的传播,友谊的形成,友谊的形成等,另一方面,可以捕获各种复杂关系,提供额外的洞察力和识别否则将不会被注意的重要模式。
translated by 谷歌翻译
系统发育比较方法在我们的领域是新的,并且对于大多数语言学家来说,至少有一点谜团。然而,导致他们在比较生物学中发现的道路与平衡抽样的方法论历史如此类似,这只是一个历史的事故,即他们没有被典型的专家发现。在这里,我们澄清了系统发育比较方法背后的基本逻辑及其对重点采样的深刻智力传统的基本相关性。然后我们介绍将在日常类型的研究中使用类型的概念,方法和工具,使类型学家能够在日常类型的研究中使用这些方法。系统发育比较方法和平衡采样的关键共性是他们试图因系谱而应对统计非独立性。虽然采样永远不会实现独立性,但需要大多数比较数据被丢弃,系统发育比较方法在保留和使用所有数据的同时实现独立性。我们讨论了系统发育信号的基本概念;关于树木的不确定性;典型的类型学平均值和比例对族谱敏感;跨语言家庭的比较;和体现的影响。广泛的补充材料说明了实际分析的计算工具,我们说明了与帕马尼云根腭膜对比的类型学案例研究讨论的方法。
translated by 谷歌翻译
单词是基本的语言单位,通过含义将思想和事物联系起来。但是,单词在文本序列中并未独立出现。句法规则的存在导致相邻单词之间的相关性。此外,单词不是均匀分布的,而是遵循幂定律,因为带有纯语义内容的术语似乎比指定语法关系的术语要少得多。使用序数模式方法,我们对11种主要语言的词汇统计连接进行了分析。我们发现,语言用来表达单词关系的各种举止产生了独特的模式分布。值得注意的是,我们发现这些关系可以用马尔可夫2的模型建模,并且该结果对所有研究的语言都有普遍有效。此外,模式分布的波动可以使我们能够确定文本及其作者的历史时期。综上所述,这些结果强调了时间序列分析和信息理论方法的相关性,以理解自然语言的统计相关性。
translated by 谷歌翻译
在过去的几年中,计算机视觉的显着进步总的来说是归因于深度学习,这是由于大量标记数据的可用性所推动的,并与GPU范式的爆炸性增长配对。在订阅这一观点的同时,本书批评了该领域中所谓的科学进步,并在基于信息的自然法则的框架内提出了对愿景的调查。具体而言,目前的作品提出了有关视觉的基本问题,这些问题尚未被理解,引导读者走上了一个由新颖挑战引起的与机器学习基础共鸣的旅程。中心论点是,要深入了解视觉计算过程,有必要超越通用机器学习算法的应用,而要专注于考虑到视觉信号的时空性质的适当学习理论。
translated by 谷歌翻译
合作的任务执行是欧洲社会性的标志,通过代理与环境之间的本地交互通过动态发展的通信信号来实现。受社会昆虫的集体行为的启发,其动力学是由与环境相互作用的调节的,我们表明机器人集体可以通过捕获不稳定成功地对建筑工地进行成核,并合作地建立有组织的结构。相同的机器人集体还可以执行DE-构建,而行为参数的简单更改。这些行为属于沿一个轴的代理商相互作用(合作​​)定义的合作行为的二维相空间,而另一个轴则是代理 - 环境的相互作用(收集和沉积)。我们基于行为的机器人设计方法结合了本地规则的原则推导,使集体能够以鲁棒性解决动态变化的环境和丰富的复杂行为。
translated by 谷歌翻译