五一七教育网
您的当前位置:首页词汇丰富性与英语写作质量的关系研究

词汇丰富性与英语写作质量的关系研究

来源:五一七教育网
EnglishTeachers

Vol.18No.8

词汇丰富性与英语写作质量的关系研究

唐桂芬沈联

【摘

要】从词汇密度、词汇复杂度和词汇多样性三个维度组成的8个主要指标入手,运用Lexi-calComplexityAnalyzer(LCA)和range32等分析工具,以网络智能批改系统的写作文本为研究对象,分析词汇丰富性与作文质量的相关性以及三个测量维度之间的相关性,比较不同分数段作文层级词汇的产出特点。研究得出,词汇多样性对作文得分影响低分组,但高、中、低分最显著,写作高分组学习者的学术英语词汇产出量明显大于中、组第二个1K基本词汇的应用能力都需要加强。

词汇多样性;作文质量;词频概貌【关键词】词汇丰富性;词汇复杂度;引言

词汇知识及运用是外语学习者语言输出质量的重要考查部分。常见的作文批阅系统无一例外地例如,对中将词汇产出能力作为评分的要素之一,

文中词汇表达高级水平作文的词汇常有如下评价:

学术词汇使用较丰富;文中词汇使用较丰富恰当,

灵活,高级词汇使用较丰富;能够使用一些复杂的词汇等。网络智能批改系统是否提供了更好的自主以及写作平台,在词汇运用方面有哪些辅助作用,词汇丰富性与语言产出质量之间有何关系是本文想探索和研究的问题。

一、研究背景研究现状(一)

国外学者率先对词汇丰富性与语言产出质量1986)(Linnarud,对之间的关系作了研究。林纳德

瑞典英语学习者和同龄本族语者写作中的词汇使用进行了研究,结果显示,瑞典英语学习者词汇多且高频词汇的使用样性和独特性都低于本族语者,

1995:139-155)(Engber,存在很大差异。恩伯尔对印第安大学学生所写的66篇限时作文的词汇丰富结果发现,词汇多样性与作文质量性进行了研究,

的相关系数:包括词汇错误数量相关性r=0.45,不包括词汇错误数量相关性r=0.57。

国内学者对词汇丰富性与作文质量关系也作38-44)了一些实证和描述性研究。鲍贵(2008:用Wordsmith,range和在线削尾器手段比较了不同水平英语学习者定时作文语料中的词汇丰富性发展模式,得出词汇复杂性能够区分不同组之间词汇使(2010:用差异,发展模式始终呈线性式。万丽芳40-46)对英语专业学生的研究表明,随着英语水平的提高,其作文中词汇的丰富性和多样性都有显著40-43)提高。王海华和周详(2012:从词汇多样性、词汇复杂性、词汇密度和词汇错误四个维度对非英语专业学生词汇丰富性在写作中的发展变化特点结果及其与写作质量的关系进行了动态跟踪研究,表明,时隔三个学期,学习者的二稿作文相比一稿(t=3.428,作文的词汇密度显著提高了P=0.001),复杂度在大学词表和低频词汇量的使用明显提高了,多样性也提高了,但不显著。张艳和陈纪梁34-40)比较(2012:介绍了词汇丰富性的研究历程,缺点。了各种测量手段的理论依据以及优、

综合以上研究不难发现,国内已有的理论或实证研究主要是对词汇产出进行了宏观维度的考查,

ENGLISHTEACHERS

31

2018年第

8

英语教师

研究角度和研究对象各有不同,但还存在几点不足:(1)既分析丰富性与作文质量的相关性,又比较不同水平词汇使用特点的研究较少;

(2)只研究三个维度各自对作文质量的影响,并没有分析三个维度之间的关系;

(3)以往研究都是针对限时写作环境的研究,基于非测试环境的开放性写作研究还没有;(4)以往得出的结论并不完全一致。笔者认为,考查词汇丰富性的测量指标应更全面,

研究对象也可以多样化,这样才能更充分地验证词汇在语言输出中的重要性,

更全面地指导词汇教学。因此,本文借助网络收集的写作文本,研究词汇丰富性指标与写作质量的关系,检验智能批改对词汇评估的有效性,探索不同分数段作文中高频词汇的使用差异。

(二)理论基础

劳弗和内申(Laufer&Nation,1995:309)把词汇丰富性评价手段分成研究者最欢迎的和较少使用的两类,前者包括词汇独特性(LexicalOriginality,简称LO)、词汇密度(LexicalDensity,简称LD)、词汇复杂度(LexicalSophistication,简称LS)、词汇多样性(LexicalVariation,简称LV)四个指标,后者包括语义变化(semanticvariation)、词汇质量(lexicalquality)和无错误T单位。他们比较了词汇测量术语的概念、使用场合和计算公式,指出了每个测量手段的不足,验证了词频概貌(LexicalFrequencyProfile,简称LFP)更具合理性。按照里德

(Read,2000:203)的界定,词汇丰富性是指词汇密度、复杂度、多样性和词汇错误特征四个维度的结合。陆晓飞(2012)融合了前人的研究,采用了词汇密度、词汇复杂度和词汇多样性三个维度组成的共25种测量指标,通过分析口语语料库(SECCL)研究了词汇丰富性与口语质量之间的相关性。

本文沿用陆晓飞(2012)的研究方法,从词汇密度、词汇复杂度和词汇多样性三个维度比较词汇丰富性,根据皮尔逊的相关性统计,选择了其25个指标中的8个主要指标。为了对教学有所启示,在分析不同水平作文中层级词汇使用特点时采用了劳弗和内申提出的词频概貌法。

32

ENGLISHTEACHERS

词汇密度:

文本的实词个数与总词数(实词+功能词)之比。实词是指动词、名词、形容词和副词,动词不包含情态动词和助动词。

词汇复杂度,包括两个指标:(1)LS1=复杂实词数/实词总数。根据BNC(英国国家语料库)和ANC(美国国家语料库)将首2000核心词汇以外的定义为复杂词汇。(2)

LS2=复杂实词类符数/总词汇类符数。

词汇多样性,包括5个指标:(1)总词汇多样性NumberofDifferentWords,简称NDW);(2)NDWexpectedrandom50),简称NDW-ER50,因为NDW会受到文本长度的影响,所以随机抽取50个单词的文本,计算词汇的多样性会更科学;(3)总词汇类符/形符(Type-TokenRatio,简称TTR);(4)MeanSegmentalTTR(50),简称MSTTR-50,文本长度越长,可能会因为新词逐渐减少导致TTR越来越小,为确保计算更准确,每50个词汇计算TTR,最后不足50词舍去,再计算平均TTR;(5)实词多样性LexicalWordVariation,简称LV),即总实词类符/总实词形符。

词频概貌:指文本中层级词汇的分布比例。本研究将词汇分为四个层级,

第一个层级和第二个层级是指首2000核心词汇,即第一个1K和第二个1K词汇;第三层级是指首2000词汇以外的复杂词汇,即836个词族的大学词表(UniversityWordList,简称UWL),该词表后来被570个词族的学术词表(AcademicWordList,简称AWL)所代替(转引自Laufer&Nation,1995:311);第四层级是指不在前三个层级的其他词汇(notinthelist),也称为低频词汇(Laufer&Nation1995:312)。

二、研究设计(一)研究问题

本文将从词汇密度、

词汇复杂度、词汇多样性三个维度研究词汇丰富性与写作质量之间的关系,分析不同水平作文中层级词汇的分布状态。主要回答以下3个问题:

(((EnglishTeachers

Vol.18No.8

1.词汇丰富性与写作质量有何关系?2.词汇密度、词汇复杂度和词汇多样性三个维度之间有何关系?

3.不同分数段作文中基本词汇和学术词汇使用呈现什么分布特点?

本文从宏观和微观两个角度分析词汇产出与写作质量的关系,既研究指标与写作质量的相关性,又研究指标维度之间的相关性。

(二)语料来源

电研究语料是某高校商学院国际贸易、物流、子商务、会计电算化、工商管理、金融六个专业的本科一年级学生(中级水平学习者)在网络智能批改题目选自系统自带系统完成的一篇科技类议论文。题库,写作要求如下:

Directions:Forthispart,youareallowed30min-utestowriteashortessayentitledModernTechnologyandHumanIntimacy.Youshouldwriteatleast120wordsfollowingtheoutlinegivenbelowinChinese.

1.有人认为现代科技拉近了人与人之间的距离;2.也有人认为现代科技反而把人与人之间的距离拉远了;

3.在我看来……

网络智能批改系统设定要求120~180词,满系统自动生成针对整分为100分。在学生提交后,

篇作文的系统评语,从词汇、句子、语法、结构、连贯性等多个维度进行评价,自动统计学生作文词句,平均句长、拼写错误数、四级词如单词数、句子数、汇数、六级词汇数等。学生可以参考点评进行无数完成期限为一周。次修改,

根据网络智能批改系统评分,选取三个分数段(不显示软件评分、只有姓作文各60篇,复制作文名)到word文档中,然后打印并提交给两位每年参经验丰富加全国大学英语四、六级作文评阅工作,的英语教师,让他们按照全国大学英语四级考试作文评阅标准的15分制进行人工评阅。如表1数据评分员评分与网络智能批改系显示,评分员之间、统评分之间的相关系数都高于0.886,P<0.001,说网络批阅明网络批阅和人工批阅相关性非常显著,信度较高。根据网络智能批改系统评分,将以上三个分数段作文标记为高分段(LevelA)、中分段(LevelC)基本统计(LevelB)和低分段三个组别,信息见表2。

表1:评分信度

网络智能批改系统

网络智能批改系统

评分员1评分员2

10.910**0.959**评分员10.910**10.886**评分员20.959**0.886**1

**在0.01水平注:(双侧)上显著相关

表2:研究语料基本信息统计

组别LevelALevelBLevelC

篇数606060

分组标准(百分制)80~9560~7940~59

平均得分87.66671.06650.916

形符数11777238388

类符数156812511151

词族87355

(三)研究工具

研究工具之一是宾夕法尼亚大学陆晓飞和艾

海洋共同研制的LexicalComplexityAnalyzer由25个包含词汇密度、(LCA)词汇复杂度分析器,

ENGLISHTEACHERS

33

2018年第

8

英语教师

以不同词汇测试指标其次,以作文得分为因变量,为预测变量,进行多元回归分析,得出三个维度8个指标对作文得分的综合预测力;再次,用range32检测不同得分组的作文在四个词汇级别的分布定性分析词汇丰富性的各个维度指标状况;最后,

可上传词汇复杂度和词汇多样性的测量指标构成,单篇文档或多达200篇的批量打包文档,处理后的以供后续分析。数据以excel工作表形式反馈,

研究工具之二是range32词频统计软件,从惠灵顿大学Nation的语言学网站下载。该软件可以形符数(token)、词族(family)、每个单词的使用频(frequency)参照词数和每个级别的词汇使用比例。汇量是高频词表,包括通用词表(GeneralServiceList,简称GSL)中的2000个核心词汇,也称为第(AWL)一个1K和第二个IK词汇,以及学术词表570个词汇,此处的词汇是指词族。

(四)数据处理

本研究数据为两类:学生在写作任务中的得LCA和range32计算得到的词汇丰富性指标分,

数值。将180篇作文打包上传至LCA网址,将所得通分析结果与作文得分一起导入SPSS19.0。首先,过皮尔逊双变量相关分析、共线性检验确认不存在共线性现象,选取8个主要指标,验证词汇丰富性指标与作文得分的相关性以及指标之间的相关性;

得出类符数(type)比较32种不同文本的词汇量,、与作文质量的关系。

结果分析三、

(一)词汇丰富性与写作质量的关系

本文按照Wolfe-Quinteroetal.(1998)相关等0.450臆r<0.650为级界定,r逸0.650为高度相关,0.250臆r<0.450为弱相关,0.100臆r<中度相关,

0.250为相关度很低,r<0.100为没有相关性。

表3显示的是作文的描述统计量,每个指标显极小值、平均数和标准差,以及与作文示了极大值、

得分的相关系数。如作文总长度在77.00到340.00平均长度是166.95词,标准差是37.181之间变化,

词,形符总数和类符总数分别与作文得分显著相关r=0.751,(r=0.675,P<0.001)。

表3:各指标描写性数据统计以及与作文得分的相关系数

指标TokensTypesLDLS1LS2NDWNDW-ER50

TTRMSTTRLV

Min.77.0046.000.460.080.0963.0031.40.460.610.56

Max.340.00176.000.0.310.29176.0042.300.0.831.00

Mean166.9594.1100.5520.1810.17396.51638.2480.5630.7510.800

SD37.18127.3040.0380.0520.04622.7022.4180.0460.0580.112

R0.6750.751-0.0680.2840.2820.7510.4860.2140.4850.273

P-value0.0000.0000.3680.0000.0000.0000.0000.0040.0000.000

显而易见,形符总数和类符总数都对作文得分有显著影响。根据写作要求,批阅系统已将词数作三个维度有7个指标与作文得分为评判标准之一。

相关系数从最低r=0.214到最高r=有显著关系,

0.751,MSTTR全部显示了或弱或强的相关性。(r=0.485)是因为对得分的影响大于TTR(r=0.214),作文样本大小影响了TTR的结果,即文本长度越类符/形符比越小,相关系数越低,因此采用长,

MSTTR可以更准确地计算类符/形符比。同理,总(NDW)(r=词汇多样性因为文本长短产生差异

34

ENGLISHTEACHERS

0.751),而随机抽取的50词文本NDW-ER50能更真实地比较词汇多样性差异。在8个指标中,唯一没有相关性的是词汇密度指标(LD的r=-0.068,P>0.100)。

(二)词汇密度、词汇复杂度和词汇多样性三个维度之间的关系

1.词汇密度

词汇密度指标无法体现词汇与作文质量的相关性。研究结果与恩伯尔(Engber,1995:153)、林纳德(Linnarud,1986)和陆晓飞(2012:198)的一致。鲍贵(2008)则得出了较为不同的结论:相邻水平组之间LD没有显著差异,但是水平差异大的组别之间差异明显,即高、低组之间的差异比高、中组之间或中、低组之间的差异更显著。本研究略去了中间组,

选取了高、低分组进行LD的比较,得出r=-0.063,P=0.494,结论没有变化,作文得分差异很大的组别之间仍旧没有显示LD的显著差异。

词汇密度是实词个数与总词数的比例,以往分析得出的结果是词汇密度对写作质量没有影响Engber,1986),本研究不仅显示了词汇密度没有明显影响,还显示了词汇密度与作文得分负相关。笔者认为有以下两个原因:

一是高分组作文为了句法的紧凑和语篇的衔接性,用了较多的功能词,导致了LD结果随着文本长度的增加而变小;二是本研究语料是开放式写作,完成期限较长,可以根据反馈评语反复修改,

词汇量较少的学习者特别想通过增加词汇来提高分数,很可能会用工具查出英语单词,且多为实词,而词汇量中等或较大的学生更有自信用已有的词汇知识去完成作业,而不是依赖工具。综上原因,词汇密度没有显示与作文质量显著正相关。

2.词汇复杂度

与词汇密度不同,

复杂实词数、复杂实词类符数所占比重分别对写作质量有影响,虽相关系数较弱(r=0.284,r=0.282),但影响仍较显著P<0.001。LS1和LS2高度相关(r=0.879),

LS1复杂EnglishTeachers

Vol.18No.8

实词总数比例和LS2复杂实词类符数比例密切相关,相关系数很高也在意料之中。

3.词汇多样性

总词汇多样性指标、类符/形符和实词多样性3个主要指标都与作文得分显著相关,研究结果与陆晓飞(2012:

200)的一致,其中总词汇多样性NDW)对写作得分影响最大,也与其结果一致。NDW-ER50与MSTTR也高度相关(r=0.859),每50个单位的文本中词汇多样性数值和平均50个文本的类符/形符比是正相关,且相关度极高。NDW-ER50与LV之间、MSTTR与LV之间的相关度分别是r=0.462和r=0.442,都达到了中度以上相关。虽然实词多样性(LV)与写作得分的相关性较弱,但也达到了r=0.273,P<0.001,产生了显著影响。

词汇复杂度和词汇多样性均与写作得分显著正相关,这说明网络智能批改系统对得分高的作文给出的“词汇使用丰富”等评价符合文本实际情况,进一步印证了词汇是任何语言输出形式最重要的来源。

4.三者的关系

如表4数据显示,词汇密度与词汇复杂度以及词汇多样性之间的相关系数从弱到无,最高r=0.287(LD与LS2),最低r=0.035(LD与NDW-ER50)。词汇复杂度与词汇多样性之间显示弱相关或低相关,最高r=0.361(LS1与NDW-ER50),最低r=0.134(LS2与MSTTR)。词汇密度是实词与文本总词数

(实词+功能词)的比例,复杂度是复杂实词的比例,而多样性主要是类符与形符的比例,

三者的意义有较大区别,因此互相呈现弱相关。经过多元回归分析建立预测模型,词汇密度、词汇复杂度和词汇多样性对作文得分的预测力分别是0.8%、10.4%、56.5%,即三个维度8个指标的共同预测力是56.9%,F=28.2,sig=0.000。该结果高于恩伯尔(Engber,1995)的43%,很可能因为写作环境和写作主题等使得词汇产出效果更好。

ENGLISHTEACHERS

35

((2018年第

8

英语教师

表4:词汇密度、词汇复杂度和词汇多样性之间的相关性

ScoreScoreLDLS1LS2/LD-0.068LS10.284**0.104LS20.282**0.287**0.879**NDW-ER500.486**0.0350.293**0.184*MSTTR0.485**0.0790.261**0.1340.859**LV0.273**-0.157*0.234**0.188*0.462**0.442**/NDW-ER50MSTTRLV**在0.01水平注:(双侧)上显著相关

*在0.05水平(双侧)上显著相关

(三)不同分数段作文中词汇复杂度的特点LS指标根据BNC区分了高频词和难词,为了进一步了解不同分数段作文中实词的复杂性特点,

表5:高、中、低分数段作文中词汇量的层级比较

词频概貌1K

指标tokens%types%familytokens%

2K

types%familytokens%

UWL

types%family

notinthelist

tokens%types%

LevelA83.1855.93538.004.1711.67143.007.8215.63183.004.8616.71

LevelB85.4161.71499.003.9412.471236.7011.19113.003.9614.63

LevelC85.4059.28454.003.11.65103.006.379.90.004.3519.09

本研究用range32分析了层级词汇在不同组别之间的分布差异。

中、低分数段作文中学习表5显示的数据是高、

包括类符比例、形符比例者使用词汇量的层级比较,

高、中、低分和词族。三组学习者在作文总类符数中,

61.71%和59.28%,中间组比例最高,高分组比例最12.47%和11.65%,中间组比例最高,低分组比例最

第二个1K词汇产出比例明显减少,三组在首2000但在第三个层级核心词汇使用比例上没有明显差异。

在570个词族(UWL)的词汇使用比例差异较大,低分组的113个和90个,说明高分组学习者使中、

丰富性和复杂性评估的重要标准,每一篇作文的批

高分组使用了183个,远远超过了组第一个1K词汇类符使用比例分别是55.93%、的UWL词族中,

这也是作文系统根据词汇低;第二个1K词汇类符使用比例分别是11.67%、用学术词汇的能力最强,

UWL层级词汇类符使用比例分别是15.63%、阅结果都会显示大学英语四级词汇和六级词汇各占低;

11.19%和9.98%,在notinthelist层级中,经过人工核实,受体裁高分组比例最高,低分组比例最低;多少。notinthelist层级词汇类符使用比例低分组最高。

ALI-如ALI,影响,三组学习者都使用了专有名词,

APPS,MOBILES,EMAILS,HI-TECH,QQ,三组学习者都使用了大量的第一个1K词汇,PAY,

36

ENGLISHTEACHERS

TV,WEIBO等新词汇,加上不限时和无修改次数等因素,他们在写作过程中借助工具使用了大量生僻词汇和低频词汇,

三组作文词汇中不在单词列表之内的低频词汇比例达到了15%或以上,如低分组作文中出现的profuse,

extricate,dross,ad-vent,meditate等词汇。笔者查阅作文文本后发现,低分组作文中仍有较多词汇拼写错误,

所以该组在notinthelist层级词汇类符使用比例最高也不足为奇了。

五、结论及对教学的启示

通过对180篇作文词汇特征的比较分析,考查了网络智能批改系统不限时写作环境下,词汇丰富性与写作质量的关系,主要得出以下几点结论:(1)词汇密度与作文得分没有相关性,受到文本长度的影响,低分作文的词汇密度甚至大于高分作文;(2)除词汇密度外,其余词汇测量指标与写作质量显著相关,相关性最强的是总词汇多样性(NDW)指标;(3)词汇复杂度与写作质量成正相关,学习者使用词汇越复杂,作文得分越高,高分组作文学术词汇(AWL)的产出能力最强;(4)词汇密度、词汇复杂度和词汇多样性三个维度共同对作文质量产生显著影响,且词汇多样性对作文质量产生的影响最大。

以上结果对外语教学和研究有以下启示:第一,英语写作方面的词汇教学应更有针对性,新生入学后,教师应注重第二个1K词汇和学术词汇的教学,通过设计多样化的练习来提高学生对这些词汇的运用频率,而不能笼统地强调所有的高频词汇。第二,就词汇丰富性而言,网络批阅对作文得分评估基本准确,可以用作写作练习的辅助途径。网络作文的评分要求之一是达到120~180词,是一个促动,学习者发现词数多少会影响分数,就会主动去获取单词。但笔者发现,超过180词的作文虽然有错误,但系统未能完全识别,说明词汇多样性指标对作文的显著影响在某种程度上掩盖了语法的不足。因此,

虽有人工智能的协助,但教师也要有的放矢地指出学生作文中需要修改之处。第三,

影EnglishTeachers

Vol.18No.8

响写作质量的还有其他因素,

如句型、篇章、体裁、思想等。低分组的学习者需要提高思辨能力,丰富作文内容,多样化地使用词汇。在机器无法完成的情况下,学生仍然需要教师的引导、同学的互助来搭建学习的

“脚手架”。本研究还存在一些不足之处,

如研究样本局限于一所学校,

研究的效度还有待提高。在以后的研究中,可以扩大样本量和学习者的研究范围,也可以针对作文修改次数,跟踪研究写作平台的修改建议对学习者修改行为的影响。引用文献

鲍贵.2008.二语学习者作文词汇丰富性发展多纬度研究[J].外语电化教学,(5):

38-44.王海华,

周详.2012.非英语专业大学生写作中词汇丰富性变化的历史研究[J].外语与外语教学,(3):40-43.

万丽芳.2010.中国英语专业大学生二语写作中词汇丰富性研究[J].外语界,(1):

40-46.张艳,陈纪梁.2012.言语产出中词汇丰富性的定量测量方法[J].外语测试与教学,(3):34-40.Engber,C.A.1995.Therelationshipoflexicalprofi-ciencytothequalityofESLcompositions[J].Jour-nalofSecondLanguageWriting,(2):139-155.Laufer,B.&Nation,P.1995.Vocabularysize&use:LexicalrichnessinL2writtenproduction[J].Ap-pliedLinguistics,(3):

309-312.Linnarud,M.1986.Lexisincomposition:aperfor-manceanalysisofSwedishlearners’writtenEng-lish[M].Lund,Sweden:CWKGleerup.

Lu,X.2012.TheRelationshipofLexicalRichnesstotheQualityofESLLearners’OralNarratives[J].TheModernLanguageJournal,(2):190-207.Read,J.2000.AssessingVocabulary[M].Oxford:Ox-fordUniversityPress,203.

作者信息:200000,上海,上海出版印刷高等专

科学校

ENGLISHTEACHERS

37

因篇幅问题不能全部显示,请点此查看更多更全内容