首页 工作计划 工作总结 事迹材料 心得体会 述职报告 疫情防控 思想汇报 自查报告 党建材料 策划方案 教案设计 范文大全
  • 主题教育
  • 党课下载
  • 党史学习
  • 振兴乡镇
  • 工作汇报
  • 不忘初心
  • 规章制度
  • 谈话记录
  • 扫黑除恶
  • 共同富裕
  • 脱贫攻坚
  • 整改报告
  • 工作要点
  • 对照材料
  • 调查报告
  • 教育整顿
  • 观后感
  • 申请书
  • 讲话稿
  • 致辞稿
  • 评语
  • 口号
  • 发言稿
  • 读后感
  • 治国理政
  • 学习强国
  • 公文范文
  • 藏族文学典籍藏英汉语料库多模态建设框架

    时间:2023-05-30 20:50:04 来源:正远范文网 本文已影响 正远范文网手机站


    打开文本图片集

    摘 要藏族文学典籍对外译介如何取得更好的效果?借助计算机辅助翻译软件技术提高翻译效率已成为高校和翻译业界普遍探索的方向。本文梳理了目前计算机辅助翻译技术在中文、英文和藏语翻译中取得的成绩,并提出了针对于藏英汉三语的计算机辅助翻译系统和藏英汉平行语料库的设计方案,重点围绕在藏英汉平行语料库设计中所涉及的藏民族文学典籍语料库建设和维护,以及藏英、藏汉双语句段对齐等关键问题。

    【关键词】语料库 建设框架 藏族文学典籍 计算机辅助翻译

    1 藏族典籍藏英汉语料库的建设意义

    不同民族有不同的生产生活方式、文化传统、风俗人情等,由此形成了不同的文化资源,这些文化资源是中国少数民族文献的重要组成部分。少数民族文献是以语言为载体、能够体现中国特色的文化要素。少数民族文化作为其不可或缺的重要组成部分,是我国各族人民共同拥有的宝贵精神财富和资源。而少数民族文献是记录有关少数民族在不同时期、不同地域、不同学科,以不同方式进行社会实践的知识和经验总结的所有载体。通过文字、图像、音频、视频等多种途径和媒介译介少数民族文献,这对世界了解中国传统文化精髓和少数民族的文化魅力,具有重要的现实意义。

    传统的译介载体主要是纸质文件和口头翻译。不论是文学译著,还是合同文书,都采用纸质文件的形式保管和传播。口头翻译传统上包括同声传译、交替翻译和陪同翻译。但多途径译介不仅包括传统的纸质和口头形式,还应充分利用当前的多媒体手段,以便达到更好的保管和传播效果。

    调查显示,目前双语语料库有GCEPC ( General Chinese-English Parallel Corpus,北京外国语大学通用汉英对应语料库),ZCTC ( ZJU Corpus of Translational Chinese,浙江大学汉语译文语料库),ECCC ( English-Chinese Classics Corpus,英漢名著翻译语料库),ECPCSP( English-Chinese Parallel Corpus of Shakespeare"s Plays,莎剧英汉平行语料库),LPCC( Literature Parallel Corpus for Children,儿童文学平行语料库) 以及各种多译本语料库。尽管这些语料库的类型和目的各异,但针对少数民族语言并不多见。涉及少数民族语言与英语的双语语料库,更是少之又少;而考虑到翻译成本、时间、精确度以及双语翻译人才的缺乏,建立一个这样的双语语料库尤为显得尤为重要。

    “英语翻译语料库大都是把真实的、已正式出版的译文汇集起来,并可用计算机对其语言现象进行统计、比较和分析”。语料库有多种类型,确定类型的主要依据是它的研究目的和用途。“美国学者马克·本德尔认为中国少数民族文献翻译主要有三种途径:(一)基于第二种语言材料的翻译;(二)同样也是在第二语言的基础上进行的翻译;(三)直接从语言A到语言B的翻译”。第三种途径可以减少两次翻译产生的“失真”,最大程度保留原文本的语言信息和文体风格。但这种途径对译者提出很高要求,若是少数民族译者,需精通英语并对其民族的文化有所感悟总结,若是英语國家译者,需要长期生活在少数民族地区,深入了解至少一个少数民族的生活习惯、文化习俗、地理历史。藏语民族典籍英译双语语料库建设完成后,可以系统地为科研人员提供一个统一的规范的文献翻译来源,便于藏语语言学的研究和藏文信息处理等方面的科研的进行。

    2 藏族文学典籍藏英汉语料库多模态建设框架研究

    对于如何构建语料库主要总结几个方面:

    (1)对于语素原料方面的收集,包括人名、医药名称、重要历史资料典故以及藏传佛教专门术语等不常见的特殊名词。

    (2)利用现代科技技术多媒体等方式用图像手段进行某些特定词汇的录入:比如“通过建立藏文人名构成词的成分属性词典,动态生成人名库,利用传统文法中人名上下文信息特征的文法规则建立藏文人名上下文指示词库对人名自动识别的方法。”

    (3)在文字语料库建设的同时,需要针对藏族语言具体情况,积累语音、视频、图画等多种形式的资料库,为深入研究准备。

    具体来讲,根据做过的积累, 初步筹建:臧英民族事务语料库;藏英文学典籍语料库等具有特色和前期基础的语料库。

    3 具体实施策略

    3.1 创建过程中的难点及解决办法

    创建语料库的过程中,难点在于语料对齐。语料对齐有篇章、段落、句子、短语、词语几个截然不同的层次。如果用计算机程序做自动对齐,那不同的层次所要解决的问题也不同。如:

    段落对齐:每种语言的每个段落都有其独特的标志,所以段落对齐是最简单的也是最容易实现的。

    句子对齐:在翻译的过程中,语料大都来自人工翻译, 句子之间并不都是一对一的翻译模式, 还有一对多、多对多的翻译模式;两种语言中对应译文的句子长度不尽相等等原因导致句子对齐难度不小。在这里,举例“基于词典的汉藏句子对齐,使用的是在动态规划的框架下,寻找最优对齐路径的算法。

    3.2 语料库建设过程

    3.2.1 语料选择与收集

    在建设少数民族和英语双语语料库之前,为了让翻译者更好的通过观察和描写其翻译语言,充分利用双语平行对应的语料,需要大量积累少数民族文献典籍素材。其次,翻译者需掌握少数民族语言与英语之间的转换规律,为之后的翻译研究、翻译实践等奠定坚实的基础。具体有特点的有图像与多媒体技术藏文人名自动识别研究。目前的藏文人名识别研究大多通过英语、汉语等语种的方法来研究藏文人名的识别,比如在《统计与规则相结合的藏文人名自动识别研究》一文中,“在处理汉族音译人名情况时,采用姓氏驱动的方法,很好地解决了藏文文本中汉族人名的识别问题。实验结果表明,该方法具有较高的准确率和召回率。”

    我们组织参与的学生寻找具有中文、英语、藏语对照的语料资源进行收集和对照,如图1所示。

    由于几十年来藏文计算机编码的不统一,藏语语料库呈现出五花八门的情况,需要对已有的藏语原始语料库进行整理,即语料的加工与校对。而且在我们收集到的语料中,会有纸质语料和电子版语料夹杂的情况。首先对找到的语料进行预处理。这一过程需要将纸质资料进行扫描转换成电子版,并将各种电子版语料进行统一格式。再进行进一步加工。

    3.2.2 使用软件 trados或者dejavu软件进行对齐项目

    Dejavu具备语料对齐功能,可对已翻译的藏英语言资产进行回收和再利用。其支持的对齐文件格式包括DOC、XLS、PPT等40多种,可实现多模态下的语料收集和管理。根据对藏语的语言分析将藏英双语句段进行对齐后,可将其導入翻译记忆库,并创建相应的术语库,为藏英翻译及藏语研究提供可靠的参考。

    3.2.3 语料的选词标准

    选词标准应考虑现实生活,生活中人们接触的藏语材料多以单音节词、双音节词、复合词、常用成语及复合型短语为主,故选词时应以收集基础材料为主,在涉及理学、工学、文学、艺术、影视的图书和报刊杂志终提取常用型且具备代表性的词汇。

    4 结语

    藏语是多彩中华文化中极具特色的一种语言,藏语语言学的研究离不开藏语语料库,语料库也可为更多民族文献的研究提供强有力的支持、对藏族文化在世界上的交流和传播做出巨大贡献。通过计算机辅助翻译语料库建设,我们期望藏语语料库的质量和数量都有提高。我们希望进一步横向规划不同主题的藏语语料库,纵向深化每个语料库的内容,包括文字、图形、语音等。立体的建设多模态语料库,最终促进藏语语言文化的传播。

    参考文献

    [1]丁树德.浅谈西方翻译语料库研究[J].外国语,2001.

    [2] 窦嵘,加羊吉,黄伟.统计与规则相结合的藏文人名自动识别研究[J].长春工程学院学报(自然科学版),2010(11).

    [3]Mark Bender著.略论中国少数民族口头文学的翻译.吴姗译.巴莫曲布嫫审校[J].民族文学研究.2005(02).

    [4]娘本先,安见才让,藏文人名自动识别研究[J].电子技术与软件工程,2015(19).

    [5]于新,吴健,洪锦玲.基于詞典的汉藏句子对齐研究与实现[J].中文信息学报,2011(07).

    作者单位

    1.西南民族大学 四川省成都市 610041

    2.成都文理学院 四川省成都市 610401

    推荐访问:藏族 语料库 典籍 英汉 框架