网站位置: >> 论文 >> 外文翻译 >> 免费论文范文阅读

语料有关毕业论文模板,关于基于平行语料的查询翻译词典改进方法相关硕士毕业论文范文

本论文为语料有关毕业论文英文翻译,关于基于平行语料的查询翻译词典改进方法相关毕业论文模板,可用于语料论文写作研究的大学硕士与本科毕业论文开题报告范文和优秀学术职称论文参考文献资料下载。免费教你怎么写语料及科技类及信息检索方面论文范文。

[摘 要 ]面对基于双语词典的跨语言检索查询翻译方法中固有的一对多等翻译模糊问题,已有研究成果存在对于非组合型复合词无法进行准确翻译、双语词典和其他翻译资源联合使用引入较大计算开销等弊端.为建立英汉双向跨语言检索实用性系统,在现有的一部包含若干科技词汇和短语的双语科技词典的基础上,着重研究如何引入平行语料来改进已有的双语词典问题.目标是生成一部基于句对齐平行语料的科技类双语概率词典,为跨语言检索查询翻译消歧提供实时性支持.

[关 键 词 ]查询翻译 机读词典 句对齐平行语料

[分类号]G355

1 基于双语词典的查询翻译方法

跨语言信息检索(cross-language information retiev-al,CLlR)是指以一种语言的查询检索出另一种语言信息的检索方法.查询语言称为源语言(SOurcc lan-guage),要检索的文档语言称为目标语言(target lan-guage).由于跨语言检索中源语言和目标语言分属不同的语言空间,因此除了要解决一般信息检索问题之外,关键是要在查询和文献表示匹配之前采取措施使二者的语言统一,最终转化为单语言检索模式.查询翻译(query translation)策略是最为常用的语言转化策略,这种方法将用户输入的查询翻译为系统支持的其他语言,然后进行单语言检索.跨语言检索中有三种得到广泛认可的查询翻译方法:机器翻译、基于双语机读词典的翻译(machine readable dictionary,MRD)、基于平行或可比语料的翻译.由

关于基于平行语料的查询翻译词典改进方法的硕士毕业论文范文
语料有关论文例文
于查询通常很短,且不能提供足够的上下文信息,更常见的情况是,查询经常被表示为一个词汇集合,不充足的信息表示束缚了机器翻译系统的手脚,基于双语机读词典的方法是机器翻译系统不错的替代品.目前,大部分信息检索系统仍是基于所谓的“词袋(bag-of-words)”结构,即查询和文档都被分解为同或短语的集合.因此很容易通过查询双语词典或双语术语列表来实现查询的翻译.Ballesteros等指出,基于MRD的翻译方法存在如下问题:①词典中没有的词无法翻译;②词典翻译存在固有的模糊性,并引入了无关信息;③对诸如短语等多词概念的无效翻译降低了翻译的效率.


这篇论文来源:http://www.svfree.net/fanyi/436402.html

上述问题直接导致了跨语言检索系统性能弱于相应的单语言检索系统.Hull等的实验结果表明,翻译歧义和术语缺失是查询翻译的两大错误来源;采用手工翻译多个名词组成的短语可以有效改善检索系统的性能,文献结论有力揭示了多词短语翻译的重要性.Boughanem等提出以双向翻译技术来解决基于MRD的查询翻译问题.假定需要将英文查询式翻译成法语,利用双向翻译方法,先从英一法词典中找到某个英文词的所有法语翻译集;然后,利用法一英词典将每个法语翻译成一组英文词,如果该集合中包含源查询词,此法语翻译就可作为优选翻译.杨辉等将基本词典、专业词典、搭配词典与双语词典混合使用,来改善词典翻译的翻译模糊性问题.囿于MRD方法的固有难题,研究者们开始把目光放在MRD与其他资源的混合使用上.Dong Zhou等将一种混合技术应用于英一中跨语言检索,采用图模型和基于模式的方法解决翻译歧义性和未知术语翻译问题.该方法将源语言查询词的每个候选翻译看作“图”中的一个节点,两节点之间的边用词的共现信息来度量,这些共现信息来源于语料.张金柱等为解决科技领域跨语言检索的查询翻译问题,将MRD与平行语料相结合,针对科技领域词汇的复合词特征,在MRD提供的基本词汇翻译基础上将结果进行组合,再利用平行语料的共现信息进行消歧.引入其他翻译资源拓展了基于MRD的查询翻译方法的消歧信息,这种结合成为基于词典查询翻译方法的一个发展方向.

本文的研究背景是科技类文献的跨语言检索,正如文献[8]所述,科技文献的特征之一就是文献中的术语多为由多个词汇组成的短语,面对MRD方法中固有的一对多等翻译模糊问题,上述的研究成果大多采用对复合词的各基本词汇翻译进行组合,然后利用其他翻译资源进行过滤消歧处理的方法.这样处理的主要弊端在于:对于非组合型复合词(即:意义不能够由其组成词推断出来的复合词(non-positional))无法进行准确翻译,而这类复合词在科技领域非常普遍;复合词的多种翻译组合到语料中去消歧会带来很大的计算开销,该方法不具有实时性.本文的研究成果是为建立英汉双向跨语言检索实用性系统服务的,在现有的一部带类别信息、包含若干科技词汇和短语的英汉双语科技词典的基础上,研究如何引入平行语料来改进已有的双语词典.本文的目标是生成一部基于句对齐平行语料的科技类双语概率词典,为跨语言检索查询翻译消歧提供实时性支持.

2 基于平行语料的带概率的双语词典

2.1 双语词典的翻译概率计算

如何区别双语词典中同一个词的多个候选翻译是本节需要解决的问题.本文采用的方法是依据一部翻译概率词典进行翻译优选,翻译概率词典的生成以平行语料为基础,因此认为翻译词典中词汇的多个翻译结果的概率值反映了现实中(特别是同一领域中)该词汇的使用习惯,概率值越大则选择该翻译结果的倾向性越大.英汉双语词典词汇概率计算方法描述如图1所示:

基于平行语料的查询翻译词典改进方法参考属性评定
有关论文范文主题研究: 语料相关论文范文 大学生适用: 研究生论文、高校大学论文
相关参考文献下载数量: 88 写作解决问题: 写作资料
毕业论文开题报告: 论文提纲、论文选题 职称论文适用: 论文发表、职称评初级
所属大学生专业类别: 写作资料 论文题目推荐度: 经典题目

该方法利用了平行语料中的词汇共现信息,但由于本文中采用的双语同典是科技领域的,所以在计算翻译概率时特别依赖于平行语料的领域范围,采用新闻领域的平行语料效果应该不会很明显.本文采用的句对齐平行语料包括计算机领域90万句对和新闻领域121万句对,因此词典中计算机相关领域词汇的翻译概率准确程度要远远高于其他领域.该方法具有一般性,当增加了新领域的平行语料时,词典中相关词汇的翻译概率的准确性会得到提高.

2.2 双语词典更新结果及分析

2.1节方法的核心是在已有双语词典的基础上,依据平行语料(特别是特定领域的平行语料),在词典中出现一对多的翻译关系时,赋予不同译项以不同的概率值.更新后的双语词典的示例见表1.

从表1的数据中可以看出,采用本文2.1节基于平行语料的词典慨率计算方法,可以将双语词典中原本没有任何区别的词汇译项加上概率值,从而保证了基于词典的跨语言检索查询翻译方法具有统计方法的特征,且避开了统计方法复杂的训练过程,翻译结果更加符合不同领域的语言习惯,对提高跨语言检索的系统性能作用明显.表1的实验结果能够说明2.1节方法的可行性.

采用该方法存在的问题前面已分析过,即由于本文项目中采用的双语词典是科技领域的,所以在计算翻译概率时特别依赖于平行语料的领域范围,采用新闻领域的平行语料效果不明显.这就加大了对建设不同领域平行语料的需求.

2.3 基于概率词典的查询翻译消歧

本文采用的基于平行语料的查询翻译词典改进方 法的目标是:为跨语言检索提供查询翻译消歧的依据.任选与表1词汇相关的用户查询,采用基于本文生成的带概率信息的双语词典的查询翻译策略(注:除依据翻译概率外,本文的跨语言检索系统还采用了其他的查询翻译消歧方法,由于篇幅有限,这里不全部叙述),翻译结果如表2所示:


语料本科论文如何写
播放:26313次 评论:6669人

表2中同时显示了采用Google Translator工具进行的查询翻译结果.另外,全部实验结果均来自本文依托的跨语言检索实验系统(http://168.160.18.214/CLIR).从表2的翻译结果可以看出,采用带概率信息的双语词典后,查询翻译的准确率得到提高(假设Google Translator翻译结果完全正确),为下一步的信息检索奠定了良好基础.

3 结论及下一步的工作

本文采用的“基于平行语料的翻译概率词典改进方法”的基本思想是:当词典中每个词(短语)对应多个翻译结果时,在词典本身不能提供更多额外信息的情况下,利用从平行语料中获得的翻译概率对词典进行改进.该方法默认的背景是,翻译概率词典米源于大规模语料(本文采用的是数量上百万的句对齐平行语料),词汇的翻译概率反映了词汇在现实场景巾的应用概率.因此在进行跨语言检索的查询翻译时,可以优先选择那些在翻译概率词典中翻译值更大的词汇译项,来降低翻译的歧义性,已有基于本文翻译概率词典的跨语言检索实验成果验证了本文方法的可行性.

该方法仍然存在一些问题:需要有不同领域的平行语料来计算词汇属于某个类别时的概率值,但获取不同领域的平行语料是比较困难的;当某词属于多个类别时,其属于不同类别时的概率值不具可比性.对第一个问题,需要语料资源的不断累积,这也是笔者课题小组语料建设的未来目标;对第二个问题,需要加入词汇归属类别的概率信息,拟引入词汇在类别间的分布信息来确定词汇对类别的隶属度,一旦得到该值,需要和词汇在类别内的概率信息一起来最终确定双语词典中词汇的翻译概率.问题二的解决方法较为复杂,是笔者所在课题组下一步的工作目标.

[作者简介]高影繁,女,1974年生,讲师,博士,发表论文10余篇;徐红姣,女,1985年生,助理研究员,硕士,发表论文2篇;王惠临,男,1948年生,研究员,博士,发表论文30余篇.

参考文献:

语料库在外国文学中的应用

语料库在日语专业毕业文指导中的应用

商务英语生态化听力教学真实语料应用

西北大学生学位文规范

不能西方翻译书打压中国学术

恰逢其时的第18届世界翻译大会

基于平行语料的查询翻译词典改进方法word版本

计算机英文词典
计算机论文英文翻译湖南音,语调基本正确.能在交谈中使用基本的会话策略.,3.阅读理解能力:能基本读懂一般性题材的英文文章,阅读速度达到每分钟70词.在快速阅读篇幅较长,难度略。

土木建筑词典
析,第一节2016。土木建筑翻译湖北2016年山东建筑大学硕士研究生招生简章,一,山东建筑大学座落在文脉绵延,山水秀丽的泉城济南.以工为主,以土木建筑学科专业为特色,已形成工,理,。

初中语文教学改进措施
练,最终达到让网络走进课堂的目的.,农村初中语文教研活。浅谈初中语文的作文教学初中语文教学中形成性评价方法,一,在自评,互评中,使学生不断改进学习,强化学习 在学习过程中,让学生进。

找英语翻译
海译。议论文翻译北京,议论文翻译高考个个字查来的,一个个字敲上去的,应该基本正确,也较有中国特色,当然碍于时间的限制,不可能面面俱到,有时间大家可以补充多准备一些.方法就是想汉语词。

法律翻译资料
求,1.报名参加法律硕士(非法。法语法律翻译广东学,词典学,翻译与双语词典研究,商务英语研究,经贸英语研究,法律语言学,商务翻译研究,法律翻译研究,国际会议传译等.,本专业的目的在。

论文查询
成的3个工作日后依下述方法查询,1,依个人填写的邮。万方数据库论文查询苏教师摘要,作者,作者单位名称),方视为有效论文.,2.已发表的学术论文因收录延迟,暂时在"万方","知网",。

论文摘要英语翻译
请e-mail论文摘要。英文论文翻译公司2016年摘要英语翻译的方法(3学时)31.医学论文英语翻译的技巧与方法(3学时),语japanes。电气论文摘要江苏摘要的能力.,11.电气制图与。

英语教学方法
与教研活动,我发现高中英语课程资源的利用存在着不。浅谈小学信息技术学科教学方法莹50数值分析课程教学方法改革研究陈付广51学科知识引导式的专业英语教学方法研究贺琪52基于"问题引入。

论文方法
发表论文的方法山东李诚,男,1961年7月出生,副教授,硕士生导师,主要研究领域为水文分析与计算,主要特色为无资料地区设计流量计算方法研究,近年来发表学术论文12篇,主编教材一部。

论文英语摘要翻译
言将论文的方法,结果和结论表达清楚.如有可能,还应尽量提一句论文结。法学论文摘要翻译厦门,法学论文摘要翻译招生计(论文)工作管理办法》的规定,特别强调如下几点,1.文科毕业论文字。

语料相关论文



相关频道推荐