论文代写常见问题 | 论文代写在线留言欢迎光临第一论文网,权威的论文发表,论文代写平台,我们将竭诚为您服务!
您的位置: 第一论文网 -> 本科毕业论文 -> 文章内容

快速导航

赞助商链接

计算机技术在语言学中的应用探析

作者:第一论文网 更新时间:2017-8-13 10:02:14

王迎军

(河南油田信息化管理中心,河南南阳473132)

[摘要] 在语言学中,计算机技术更能大显身手。在过去的语言学研究中,语料库需要手工编纂整理,耗时耗力,而如今所有的数据采集处理汇总全部由计算机完成,人们只需要编写和维护程序就可以达到建立一个庞大语料库的目的。而作为批改等评分体系而言,则更具有准确性和高效性,国内外众多的大型英语类考试就应用了这一系统。文章通过对于自动评分系统的发展、自动评分系统构建、语言学原理技术等进行分析,模拟对自动评分系统的建立及其优缺点进行评判,分析自动评分系统的差距与不足以及发展前景。

[关键词] 发展;五大发展理念;继承与超越

[中图分类号] TP399 [文献标识码] A [文章编号] 1002-8129(2017)01-0069-03

1943 年,世界上第一台计算机在美国面世,它重达5 吨并且由7500 万个零部件组成。它十分笨重且无法进行过于复杂的计算。随着科技的日新月移,计算机越来越小巧化,越来越多功能化。现在的计算机技术不仅仅满足了人们进行复杂运算的需求,还可以进行更加深层复杂的算法计算,并向着人工智能的方向发展。计算机技术也更多地应用于语言学研究的领域。在语言学中,主要有以下几个方面的应用:

一、语料库

初期的语料库是一种收集了各种英语语言材料的数据库,这一收集整理工作很长时间以来是依靠人力完成的。而现在利用计算机技术,语言材料的收集整理有了全新的更加便捷的处理方式。布朗语料库被视为是第一代语料库的代表,它所包含的语言材料数目很小,大约只有一百万左右。20 世纪80 年代,第二代语料库诞生了,这一代的语料库的材料数目已经远大于第一代,而且还增加了各种不同的条目。到了20 世纪90 年代,语料库发展到第三代更加商用的语料库,通常包含有数十亿的词汇及材料,而且还在运用更加先进的技术对其进行完善。

二、机器翻译

机器翻译的研究已经历经近五十年,许多新理论、新方法、新技术不断出现。随着商用语料库的出现,机器翻译有了突破性的进展,发展出了统计学方法以及实例方法。虽然这个领域有长足进步,但机器翻译仍旧存在着很多的问题,这不仅是计算机领域所要进行的突破,更是语言学方面需要做出的努力。

三、自动作文评分系统

自动作文评分系统(AutoEssay Scoring System,AESS)是计算机领域在语言学方面的又一重要应用。写作任务是大范围语言测试的重要部分之一,几乎在所有层次所有类型的大规模语言考试中都能见到。它可以测试出受试者对于这一门语言的掌握情况。而对于写作任务的评分而言,一是需要大量的人力物力来支持,二是由于个体的差异会导致评分结果的主观性较强,信度和效度不高。而计算机技术的发展与应用,为解决上述的两个问题提供巨大的帮助。

上述内容是对于计算机技术在语言学方面应用的一个简单回顾,下面着重介绍计算机技术在自动作文评分系统中的应用。

Page 是自动作文评分系统领域的先驱,他在1966 年创造Project Essay Grader (PEG)系统,用以更加方便快捷地解决大范围语言考试中作文部分的评分任务。而当时的评价系统仅仅是通过对于特定文本特征分析来对作文进行评分,评分依据相对单一。直到1990 年后,这一领域的研究瓶颈才被突破。随着自然语言处理技术以及信息检索技术的发展,自动作文评分系统领域的研究重新换发活力。在20 世纪90 年代,EducationalTesting Service (ETS)开始研发第一代ETS。尽管作文的内容还尚未纳入评分系统的考核范围之内,且它只能判定20个词以内的句子,但它已经能够通过直接的评价手段来对作文进行评分。在20 世纪90 年代末,3 个全新的自动作文评分系统出现了:①Intelligent EssayAssessor (IEA)更加重视作文内容方面的评判。② ElectronicEssay Rater (E-rater) 是基于第一代ETS 的新的系统,它综合考量文章结构、句子结构以及文章内容。③ Intelligent Metric(IM) ,是第一个运用人工智能技术,将作文的风格及内容综合考虑并进行评分的系统。

大致了解了自动作文评分系统的发展之后,我们着重介绍一下自动作文评分系统中所运用到的计算机技术

Page 将作文评分划分为两个部分,一是对于内容的评分;二是对于语言特征的评分。前者更加重视文章所描述的具体内容而后者包括句法、写作机制、措辞及表达等。争论的焦点在于这两个方面应该综合起来进行考虑,不应该孤立地考量,将二者综合考虑这一观点已经被现在的大多数学者所接受。

自动作文评分系统综合运用了统计学方法、自然语言处理技术、信息检索技术以及文本聚类技术等。其中最重要的统计技术又包括了简单的关键字分析、特殊文本特征分析、潜在语义分析及文本归类技术。

(一) 特定文本特征分析技术

这一技术最初于1966 年被Page 用于PEG 系统当中。Page认为作文的特征是由文本特征所表现出来的,且这些文本特征可以被衡量。举例来说,在一段文字可以通过它的句子长度来表现,句子结构的复杂程度可以通过介词及关系代词等词汇的数量来量化考察。而作者的词汇水平可以通过检测文章中词汇长度的变化情况得出相应结果。为了实现AES 系统,Page 运用变量分析法,其中变量即为可被计算机直接量化并计算的特定的文本特征。

(二)潜伏语义分析技术

潜伏语义分析技术的中心思想十分简单,一方面段落的含义很大程度上决定于其中所包含的词汇,一旦一个词汇被替换掉,整个段落的意思都可能会发生改变。另一方面,两个段落的意思与两个段落间所包含的不同词汇有着很大的关系。简而言之即为:词义1+ 词义2+……+ 词义n= 段义。

潜伏语义分析是一个被用于文本索引及信息检索的复杂技术,它的稳健性很好且可以帮助找出不同文本中的词汇间的潜在关系。在潜伏语义分析技术中心,它将每一篇文章做一个特定的向量,列向量对应于文本特性而行向量对应于文本特征如词、句、段等。对文章评分贡献不大的词汇就会被舍去以降低研究范围、减小计算量。

(三)自然语言处理技术

这一技术最早被应用于E-rater 系统中,这一系统运用此技术来分析文章中的每个句子。举例来说,词性标注器赋予了每个单词以词性,尔后在文本分析器中分析句子结构,在分析仪中分析了文章的段落结构。运用了这项技术的评分系统中包含五个独立模块来完成评分。它们中的三个通过识别特征作为评分标准,它们是句法模块、段落模块及主题分析模块,分别用以分析句法复杂性、行文思路以及词汇能力。第四个模块是选择分配各个特征所占据的权重,最后一个模块用以综合计算最终的分数。

(四)文本归类技术

这一技术主要用于对文章中所出现的词汇、句法等元素进行分类提取,并建立出相应的语料库,用于为评分系统提供一个基本数据库来提取要素并进行比对分析,再结合其他方法进行最终的评分。

随着计算机技术的发展,自动作文评分系统逐渐走向完善,随着技术的提升以及语言学方面通过语篇分析得到的要素提取,自动作文评分系统也越来越广泛地为大范围的语言测试提供了可靠的分数测评。尽管如此,自动作文评分系统同人工评分仍有着不小的差距,怎样减小个体的误差,更准确更具针对性的进行评分,这是下一步自动作文评分系统的发展方向,相信随着人工智能技术的日益进步,未来的自动作文评分系统会更加完备,能够早日让人类放心地将作文批改的任务完全交付于计算机。