查看原文
其他

读懂翻译记忆库文件(TMX)所需的XML和DTD基础知识

韩林涛 简言 2022-07-09

在我的翻译与本地化实践(一)课程中,我一般都会在翻译专业(本地化方向)学生二年级的时候介绍什么是XML,因为只有理解了XML才能把翻译行业的众多基于XML的数据交换标准搞清楚,比如存储翻译记忆的TMX[1]、存储术语库的TBX、存储断句规则的SRX等等[2]。现在越来越多的老师开始关注技术写作,其中涉及的DITA也是一种基于XML的文档写作解决方案,懂了XML也有利于玩儿转DITA和技术写作。


我在之前的文章中介绍过如何从TMX文件中读取双语数据来制作在线翻译记忆搜索工具:如何制作一个简易的大会报告双语检索工具,从中可以看出理解XML的作用。


另外,虽然现在主流的数据格式是json,一种更加简单轻便的数据存储格式,但在翻译行业常用的各类计算机辅助翻译工具中,XML的应用还是非常广的,所以对于翻译技术感兴趣的同学和老师还是有必要深入学习XML的。


基于这几年上课的内容,这次疫情防控期间我录制了一些视频给学生观看,我也放到这里来分享给大家。


在这篇文章中我一共分享两个视频,一个是:什么是XML;一个是什么是DTD。都是相对来说比较基础的内容,总共时长为1小时。


简单来说,XML中包含的是要传输的数据,DTD定义了要传输的数据以怎样的结构存在于XML中。


下面,就请大家观看这两个视频吧:


01 什么是XML?



02 什么是DTD?




[1]:

翻译存储(Translation memory,TM)是一种支持文档片段(句子、段落或短语)翻译的语言工具,方法是在数据库中搜索类似的片段并建议数据库中发现的匹配。


TM 是现代计算机辅助翻译(CAT)工具的基本组成部分。它在翻译行业中非常普及,以至于人们常常用“翻译存储工具”代替“计算机辅助翻译工具”。但是,这些术语不应该互换,因为 CAT 技术还包括机器翻译(一种基于语言学规则并使用双语词典的计算机技术)。


TM 系统记住翻译人员输入的翻译。当翻译人员处理类似的文本时,系统提供以前保存的版本。这样在处理重复性文本如技术手册时可以节约大量的时间,还有助于保证术语的一致性。


解释来源:


本地化中的 XML:通过 TM 和 TMX 重用翻译

在 XML 标准的帮助下减少翻译的时间和劳动量

https://www.ibm.com/developerworks/cn/xml/x-localis3/index.html


[2]:

与这些标准相关的文件可在这里查看:

LISA OSCAR Standards

https://www.gala-global.org/lisa-oscar-standards


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存