不同难度等级文本词汇特征的量化统计

三、不同难度等级文本词汇特征的量化统计

以往可读性研究大多通过使用广义的线性模型（Generalized Linear Model，GLM）或支持向量机（Support Vector Machine，SVM）的方法，将与文本难度相关的一些语言特征作为变量来测量文本难度，并在此基础上构建线性方程或分类模型。但基于支持向量机构建模型的方法不提供语言特征与文本难度等级之间的关系以及每个特征在文本难度测量中的权重（Sung et al. 2015），这使我们很难识别各个特征在文本中的重要性。因此，本文采用多元回归分析的研究方法，考察词汇多样性（词种数、TTR值、Mass值）、词频（最常用词数、常用词数、次常用词数、较不常用词数、不常用词数和罕用词数）、词汇密度（实词数、虚词数、实虚比、实词比）、词长（单音节、双音节、三音节、四音节及其以上）等四个词汇特征及其内部17个测量指标与不同难度等级文本的关系。

3.1 描述性统计

我们对词汇多样性、词频、词汇密度、词长及其内部17个测量指标的平均值和标准差进行了描述性统计，统计结果见表2。