英语论文网

留学生硕士论文 英国论文 日语论文 澳洲论文 Turnitin剽窃检测 英语论文发表 留学中国 欧美文学特区 论文寄售中心 论文翻译中心 我要定制

Bussiness ManagementMBAstrategyHuman ResourceMarketingHospitalityE-commerceInternational Tradingproject managementmedia managementLogisticsFinanceAccountingadvertisingLawBusiness LawEducationEconomicsBusiness Reportbusiness planresearch proposal

英语论文题目英语教学英语论文商务英语英语论文格式商务英语翻译广告英语商务英语商务英语教学英语翻译论文英美文学英语语言学文化交流中西方文化差异英语论文范文英语论文开题报告初中英语教学英语论文文献综述英语论文参考文献

ResumeRecommendation LetterMotivation LetterPSapplication letterMBA essayBusiness Letteradmission letter Offer letter

澳大利亚论文英国论文加拿大论文芬兰论文瑞典论文澳洲论文新西兰论文法国论文香港论文挪威论文美国论文泰国论文马来西亚论文台湾论文新加坡论文荷兰论文南非论文西班牙论文爱尔兰论文

小学英语教学初中英语教学英语语法高中英语教学大学英语教学听力口语英语阅读英语词汇学英语素质教育英语教育毕业英语教学法

英语论文开题报告英语毕业论文写作指导英语论文写作笔记handbook英语论文提纲英语论文参考文献英语论文文献综述Research Proposal代写留学论文代写留学作业代写Essay论文英语摘要英语论文任务书英语论文格式专业名词turnitin抄袭检查

temcet听力雅思考试托福考试GMATGRE职称英语理工卫生职称英语综合职称英语职称英语

经贸英语论文题目旅游英语论文题目大学英语论文题目中学英语论文题目小学英语论文题目英语文学论文题目英语教学论文题目英语语言学论文题目委婉语论文题目商务英语论文题目最新英语论文题目英语翻译论文题目英语跨文化论文题目

日本文学日本语言学商务日语日本历史日本经济怎样写日语论文日语论文写作格式日语教学日本社会文化日语开题报告日语论文选题

职称英语理工完形填空历年试题模拟试题补全短文概括大意词汇指导阅读理解例题习题卫生职称英语词汇指导完形填空概括大意历年试题阅读理解补全短文模拟试题例题习题综合职称英语完形填空历年试题模拟试题例题习题词汇指导阅读理解补全短文概括大意

商务英语翻译论文广告英语商务英语商务英语教学

无忧论文网

联系方式

研究英语语篇结构标注

论文作者:佚名论文属性:短文 essay登出时间:2009-09-11编辑:gcZhong点击率:2723

论文字数:4538论文编号:org200909112041455431语种:中文 Chinese地区:中国价格:免费论文

关键词:修辞结构理论篇章结构标注

论文摘要:语篇结构标注起步较晚,但以修辞结构理论(RST)为指导的篇章修辞结构标注最近取得了令人瞩目的成绩。目前,已经建成并公布的篇章结构标注语料库是由美国南加州大学信息科学学院的一个课题小组完成的,由385篇文章组成,是一个大规模、高质量、高一致性的带多层语言学标注信息的参照篇章语料库。语料库建设的主要成就为:确立了如何将语篇切分为基本语篇单位的理论,扩展了修辞关系集,为RST理论的运用提供了广阔的前景。本文综述该语料库建设的研究成果。
  
  0.概述
  
  随着计算机技术的普及和发展,语料为机器可读成为语料库建设的最基本的要求之一。要达到语料机读化这一目的,关键在于语料的标注。所谓标注,就是对语料库中的原始语料进行加工,把各种表示语言特征的附码标注在相应的语言成分上,以便计算机的识读。
  语料标注的类型主要包括语篇背景信息、词性、词形、句法分析、语义、语篇结构等。从当前的研究现状来看,虽然语篇结构标注起步较晚,但以修辞结构理论(RST)为指导的篇章修辞结构标注最近取得了令人瞩目的成绩。目前,已经建成并已公布的篇章结构标注语料库是由美国南加州大学信息科学学院的一个课题小组完成的,由385篇文章组成,是一个大规模、高质量、高一致性的带多层语言学标注信息的参照篇章语料库。在这基础上研究小组还进行了自动篇章标注算法、自动文摘、机器翻译等具体应用工程方面的研究。
  该参照篇章语料库的建成不但为篇章结构标注建立了理论体系,而且为语篇结构的应用研究开辟了新的领域。本文将综述该参照篇章语料库建设的研究成果。
  
  1.理论支撑的建立
  
  根据Carlson(2001)的介绍,用于话语分析的理论有很多,如Groz和Sidner(1986)Mann和Thompson(1987)等都提出了自己的篇章分析理论,但这些理论主要用于单个的文本分析,往往着眼于语篇的某一个方面,如指代关系、语篇的风格、语篇的多维性以及某一理论在语篇中的体现等,很少被用于大规模的语料分析或语料标注。在建立参照语料库时,Carlson(2001)等研究者将Mann和 Thompson (1987)提出的修辞结构理论(RST)用于大批量的语篇标注和语篇分析。他们认为用修辞结构理论(RST)对语篇进行标注有三点优势:可以同时捕捉到特定文本的交际意图、语义信息和文本本身的特征;先前的研究表明该理论可以使不同的标注者在标注不同的文本时达到一定的统一;用该理论标注的语篇树形图对构建自然语篇生成系统、自动文摘系统、文本测评系统起着关键的作用,也可以用来增强机器翻译的自然性。参照篇章语料库的建成确立了篇章结构标注的理论基础。
  
  2.基本语篇单位的确定
  
  语篇结构标注的另一成就是确定了英语基本语篇单位。在确定基本语篇单位时,不同的研究者往往运用不同的理论。Givon(1983)认为从句应该成为语篇的基本单位,Sacks(1974)认为谈话的话轮应该成为语篇的基本单位,Polanyi(1988)坚持语篇应该以自然句为切分单位,Grosz 和Sindner(1986)认为语篇的基本单位应该从语篇的上下文中获取,它是由一定的符号所反映的信息载体,能反映事物的单个状态或部分状态,最有影响的修辞结构理论认为从句应该是语篇的基本单位,不管从句有没有语法标记或词汇标记。
  然而,在具体标注时,Marcu等研究者对基本语篇单位有了新的规定:所有有词汇或句法标记的起状语作用的从句都属于基本语篇单位,包括起状语作用的非谓语动词词组;充当主语、宾语、补语的从句不属于基本语篇单位;定语从句、后置的名词修饰短语或将其他基本语篇单位割裂开的从句或非谓语动词短语为内置语篇单位;除此而外,还有一定数量的有明显语篇标记的短语作为基本语篇单位,如 由in spite of(尽管),according to(根据)等引导的短语。
  Marcu的切分方法综合了Grosz和Sindner(1986)和Mann(1987)和Thompson(1987)的理论,在确定基本语篇单位时考虑到词汇、句法、语义和在句中的位置等因素。
  
  3.修辞关系的扩展
  
  当初,Mann和Thompson(1987)提出修辞结构理论时只给出20多种修辞关系,但他们明确指出这是一个开放关系集,既然是开放性的,就意味着读者在给定话语的内部可以定义出其他的关系类型。Marcu(2000)根据标注的语料库总结出53种单层核心关系和25种多层核心关系,78种定义关系又分成16个组别,每组都具有相同的修辞功能。
  就如同当初的定义关系集一样,这些关系覆盖了基本语篇单位、语段乃至整个语篇。通过这些关系,不同层级的语言片段被连接起来,构成一定的抽象形式。
  
  4.标注标准和方法的制定
  
  为了建立高质量的前后一致的标注标准和方法,Carlson(2001)等研究者采用人工标注的方法。他们所选用的标注者都是有过标注经历的、从事语篇分析和新闻报道的专业人员。在正式标注之前,他们都接受专门的语篇结构标注培训,培训包括3个阶段。
  在第一阶段,向标注者介绍修辞结构理论和语篇分析工具。在培训的第二阶段,标注者开始探索语篇结构的特征。在培训的最后一个阶段,标注小组谋求在构建语篇总结构图时保持一致,尽量减少分歧。
  最终,标注小组研制出两个基本策略用于文献分析并建立相关的语篇结构图。策略之一是对文本的直接分析,可以在页边空白处标出记号,也可以将文献切分成一定的语段并标出记号,根据这些标注建立语篇结构图。以这种方式建立树型结构图,标注者必须预测到随后的语篇结构。然而,其后语段的修辞关系,尤其是较大的语段,可能不是太明显,这就是为什么这一标注策略更适用于短篇文献的标注。
  另一策略是将文本分析与建立语篇结构两项任务同时进行,很可能是成块地标注而不是循序渐进地一步一步地增加。以这种策略进行标注,标注者一次可以切分很多语篇单位,并为每个自然句建立结构图,然后将相邻的自然句连接起来,构成较大的语段结构树。最终的语篇结构树是通过连接语篇结构中主要语块而建成的。

   5.标注质量的检验
  
  标注质量的控制是通过标注者对标注结果的反复修改和局部随机的自动交叉核实来实现的。为了确保标注语料库的质量,研究小组采取了很多措施,这些措施主要涉及到两个方面,即检验语篇结构树的效度和保持标注者内部的一致性。   
  5.1 效度检验
  效度检验从两个方面进行,即句法和语义。句法检验确保每棵树只有一个根结,并将树与文献进行对比以防句子或语段被遗漏。语义检验主要是关系到核心语段的指派、修辞关系的选择以及语篇结构树的层次。为了保证检验质量,研究小组研制出语篇分析器以及图形扫描仪。所谓图形扫描仪,就是指,在图形环境下,自左而右渐进地为各个篇章单元给出一种最有可能的修辞关系和篇章结构地位。分析器和图形扫描仪经常可以确认出人工检验无法觉察的错误,都可以成功地作用于所有语篇结构树。   
  5.2 标注一致性
  在整个语料库的建设过程中,研究者一直设法保证标注者之间内部的一致性。首先,他们研制出一种算法,该算法可以计算出语篇层级结构的Kappa数据。(Kappa算法曾被广泛地运用于语篇实证研究中,该算法可以测算出研究者在作出分类决策、预测可能性方面的一致性。)如果Kappa数据大于0.8,就意味着具有较高的一致性;如果数据值在0.6和0.8之间,就意味着较好的一致性。
  
  6.标注语料库的挖掘
  
  借助于以RST理论为支撑的语篇标注语料库,研究者可以对语篇进行三个层次的分析,即语篇标记词功能的分析、不同类型的语篇结构图的描述和比较、语篇中从句间修辞关系的描述和比较。   
  6.1 篇章连词的研究
  篇章连词功能研究一直是理论语言学和计算机语言学研究的主题,而且网络语料库方便了研究者对关联词语的研究,但利用丰富的标注语料库资源进行分析的研究不多。语篇结构标注语料库可以使研究者在多种语境中对关联词进行元语论文英语论文网提供整理,提供论文代写英语论文代写代写论文代写英语论文代写留学生论文代写英文论文留学生论文代写相关核心关键词搜索。

共 1/2 页首页上一页12下一页尾页

英国英国 澳大利亚澳大利亚 美国美国 加拿大加拿大 新西兰新西兰 新加坡新加坡 香港香港 日本日本 韩国韩国 法国法国 德国德国 爱尔兰爱尔兰 瑞士瑞士 荷兰荷兰 俄罗斯俄罗斯 西班牙西班牙 马来西亚马来西亚 南非南非