用户登陆
日历
数据统计
日志:12篇
评论:8个
留言:1个
访问:53472次
注册人数:7人
编码:UTF-8
建站时间:2008-2-27
最新日志
正在读取数据
最新评论
正在读取数据
友情链接
正在读取数据
1|2|
可比语料库还是平行语料库
Comparable or Parallel Corpora?
作者 Wolfgang Teubert
摘要:本文从翻译未来发展的角度来讨论了多语词典编撰和计算方面的密切关系。无论是译入还是译出译者的母语,都可以从这些多语语料库中受益。我们从未想过要让多语词典消失,而是认为这些语料库将大大改进词典和其它类似的参考资料。尽管计算机翻译领域的进步令人欣喜,但是,要取得进一步的发展还有赖于借助多语语料库,从最基础的方面开始对相关语言进行研究分析。本文讨论了可比语料库和平行语料库各自的优势。二者都有各自的优势,所以,在创建多语数据库中,无论使用什么方法,都应该结合二者的优势。本文描述了其中的一种方法。通过分析dairy,探讨将在德语中的对译语。
Abstract The close inter-relationship of multilingual lexicography and computation with regard to the future of translation is discussed. Translation into and out of the translator's native language will benefit from multilingual corpora. Far from making multilingual lexicography obsolete, such corpora will considerably improve dictionaries and other tools. Although progress in computer translation has been impressive, further improvement depends upon re-analysing the languages involved from scratch with the aid of multilingual corpora. The question of the relative merits of comparable and parallel corpora is considered and it is seen that there are advantages to both, and therefore advantages to combining the two in any methodology for building up a multilingual database. Such a methodology is described, and the example given of an investigation into diary and its translation equivalents in German.
Comparable or Parallel Corpora?
作者 Wolfgang Teubert
摘要:本文从翻译未来发展的角度来讨论了多语词典编撰和计算方面的密切关系。无论是译入还是译出译者的母语,都可以从这些多语语料库中受益。我们从未想过要让多语词典消失,而是认为这些语料库将大大改进词典和其它类似的参考资料。尽管计算机翻译领域的进步令人欣喜,但是,要取得进一步的发展还有赖于借助多语语料库,从最基础的方面开始对相关语言进行研究分析。本文讨论了可比语料库和平行语料库各自的优势。二者都有各自的优势,所以,在创建多语数据库中,无论使用什么方法,都应该结合二者的优势。本文描述了其中的一种方法。通过分析dairy,探讨将在德语中的对译语。
Abstract The close inter-relationship of multilingual lexicography and computation with regard to the future of translation is discussed. Translation into and out of the translator's native language will benefit from multilingual corpora. Far from making multilingual lexicography obsolete, such corpora will considerably improve dictionaries and other tools. Although progress in computer translation has been impressive, further improvement depends upon re-analysing the languages involved from scratch with the aid of multilingual corpora. The question of the relative merits of comparable and parallel corpora is considered and it is seen that there are advantages to both, and therefore advantages to combining the two in any methodology for building up a multilingual database. Such a methodology is described, and the example given of an investigation into diary and its translation equivalents in German.
分类:Corpora语料库话题 | 评论:(0) | 查看(63)
Google as tool for academic writing(http://www.stanford.edu/~efs/google/index.htm) 是斯坦福大学语言中心的Phil Hubbard所办的一个网站。google对于一般人只是用于搜索网络资源,而Phil Hubbard系统地探索出其用于辅助英语写作方法,很有创造性。网站上的分别给老师和学生学生提出了不同的运用方法。对于很多只熟悉google一般用法,而不熟悉其辅助英语写作方法的biginner来说,Phil Hubbard而设立了入门教程。
今天在评阅毕业班学生的论文的时候,看到一个句子“The author of this thesis aims to make a descriptive study on the translations of humorous expressions of Fortress Besieged.”对于该句子中的aims的搭配用法有些怀疑。我再次想到用语料库来帮助验证自己的猜想。考虑到学生的论文是属于学术论文,所以在选择语料库子库的时候选择了学术论文摘要,这样查询的用法会更有针对性。查询词为“aim* to”。查询结果可以归纳如下:
aim to +动词”的主语通常为“project”,“study”,“research”,如:
This project aims to construct baculoviruses with more efficient inse...
This study aims to test for the existence of such behaviour. The Ho
主语为人的非常少,只有两例: we aim to accomplish two things. First, we intend to const
aim to +动词”的主语通常为“project”,“study”,“research”,如:
This project aims to construct baculoviruses with more efficient inse...
This study aims to test for the existence of such behaviour. The Ho
主语为人的非常少,只有两例: we aim to accomplish two things. First, we intend to const
什么是语料库?关于语料库的定义有广义和狭义两种。McEnery和Wilsonsay 认为“in principle, any collection of more than one text can be called a corpus” (McEnery and Wilson 2001: 29),这是持一种广义的语料库观点。Anthony Pym(2008, 42)将译者翻译过程中处理的资料,语言材料等称为语料库。有不少从事翻译实践的人也将他们实践中积累起来的翻译记忆(TM)称之为语料库。但是, 现代语言学中的语料库是通过“取样”收集,具有代表性,规模大小可以确定,机读的标准文献。在现代语言学中,语料库有别于简单收集的文本集合。
“a corpus in modern linguistics, in contrast to being simply any body of text, might more accurately be described as a finite-sized body of machine-readable text, sampled in order to be maximally representative of the language variety under consideration.” (McEnery and Wilson 2001: 32)
当然,这是比较严格的语料库定义,对于语言研究者来说,在创建语料库的时候,有必要在条件允许的情况,严格按照语料库的标准进行工作。至于一般的学习者,主要焦点在语言学习,掌握语言的技能,语料库的标准不必过于严格。不过,适当注重语料库组成部分的多样性还是必要的。比如说,演讲语料库最好包括多种类型的演讲,最好从语言变体方面考虑包括英国英语和美国英语,演讲的人也最好多一点,不仅仅是很少的几个人。这样有助于照顾演讲语言的多样性。
Reference
McEnery, Tony, Wilson, Andrew. 2001. Corpus Linguistics. An Introduction. Second Edition. Edinburgh. Edinburgh University Press.
Pym,Anthony. 2008. "Professional Corpora": Teaching Strategies for Work with Online Documentationk, Translation Memories and Content Management: 41-45.
“a corpus in modern linguistics, in contrast to being simply any body of text, might more accurately be described as a finite-sized body of machine-readable text, sampled in order to be maximally representative of the language variety under consideration.” (McEnery and Wilson 2001: 32)
当然,这是比较严格的语料库定义,对于语言研究者来说,在创建语料库的时候,有必要在条件允许的情况,严格按照语料库的标准进行工作。至于一般的学习者,主要焦点在语言学习,掌握语言的技能,语料库的标准不必过于严格。不过,适当注重语料库组成部分的多样性还是必要的。比如说,演讲语料库最好包括多种类型的演讲,最好从语言变体方面考虑包括英国英语和美国英语,演讲的人也最好多一点,不仅仅是很少的几个人。这样有助于照顾演讲语言的多样性。
Reference
McEnery, Tony, Wilson, Andrew. 2001. Corpus Linguistics. An Introduction. Second Edition. Edinburgh. Edinburgh University Press.
Pym,Anthony. 2008. "Professional Corpora": Teaching Strategies for Work with Online Documentationk, Translation Memories and Content Management: 41-45.
分类:Corpora语料库话题 | 评论:(0) | 查看(198)
在前面谈到语料库的时候,我们忽略了一个问题,即语料库是指语料构成的集合,而要进行语料的检索,分析和处理离不开语料工具。面对海量的语料库,很难想象用人工(manual work)处理将会耗费多少时间和精力。所以现代语料库的工作离不开计算机软件,甚至可以说,语料库工具对于语料库的检索,分析和处理具有至关重要的作用,离开了语料库工具,语料库工作可以说是寸步难行。至此我们可以这么说,语料库(语料集合)和给予计算机的语料库工具是从事语料库工作的基本条件。
那么语料库工具有哪些呢?在今天这个帖子里,我想介绍语料库工具的三个基本功能,即索引功能(concordance),词表功能(wordlist)和搭配查询功能(collocate)。这里使用的软件是Laurence Anthony 所编的免费软件Antconc3.21,可以从Anthony主页上下载:download 另外,本贴还引用了Laurence Anthony网站中Antconc在线帮助的截图,要完整了解该软件用法,请浏览Antconc help system
索引功能(concordance) 索引原来是指将文本中的词或术语按字母顺序排列,以便于确定其在文本中的位置和出现次数(hit)。在语料分析中,索引是指通过索引工具(concordancer)将检索词(nod节点词)出现的上下文,按照指定的跨距(span,按字母或者单字计算),并将检索词居中的显示方式。索引又称为KWIC(key words in context 语境中的关键词)。如下图所示:

索引不仅仅可以列出相关内容的上下文供研究者分析,而且还可以统计出关键词在文本中出现的次数,给分析者量化的参数。因此,索引功能是语料库工作中一个非常重要的内容。对于外语学习者来说,语境中的关键词有者非常重要的作用,因为,通过语境中的关键词,学习者可以了解关键词使用环境,其典型搭配,语义特征等。在后面的我们还将专贴介绍语境中的关键词的具体运用。
词表功能(wordlist) 词表功能是指将文本中的词项数(type)和词形(token)分别列出的功能,同时,还将词项数按出现的频率高低排列。如下图所示:

一般的外语学习者也许觉该功能是语言研究者的专利,而对于外语学习者意义不大。当然,词表功能也许不像索引功能和搭配功能那么直接,但是,词表能够让我们从另外一个角度了解我们所学习的对象。比如,通过词表我们知道,那些出现频率高的词应该是使用较多,应该熟练掌握的词,而那些频率较低的词很可能是使用不太多的词,对其投入适当的时间和精力就够了。想评价一下自己的作文中的词汇手段是否丰富也可以用词表功能,统计出词项(type)和词形数(token)之比就可以得出一个参考数据了。
搭配统计功能(collocate) 搭配是词与词出现的结伴行为,这种结伴行为具有一定的规律,同时这种规律又有一定的或然性(probability),即表现出一定的概率特征。有不少语料库工具具有搭配统计功能。通过KWIC索引,我们也能了解某个词的搭配,但是,往往会比较零碎,不系统,而通过语料库工具的搭配统计功能,能够将某个词的搭配按照统计数据从高到低或者反向排列,从而给研究者或者学习者一个直观的映像。
例如,通过Just the word我们查询到make的搭配信息:
通过以上引用Just the Word对make搭配统计结果的部分浏览,我们大概知道了搭配统计功能的内容。掌握词语搭配是学习外语的重要内容。平时的阅读以及搭配词典都能够帮助我们了掌握和了解词汇的搭配信息,不过,比较而言,由于语料库本身的优势,语料库应该是能够全面、准确、快捷查询搭配信息的工具。
那么语料库工具有哪些呢?在今天这个帖子里,我想介绍语料库工具的三个基本功能,即索引功能(concordance),词表功能(wordlist)和搭配查询功能(collocate)。这里使用的软件是Laurence Anthony 所编的免费软件Antconc3.21,可以从Anthony主页上下载:download 另外,本贴还引用了Laurence Anthony网站中Antconc在线帮助的截图,要完整了解该软件用法,请浏览Antconc help system
索引功能(concordance) 索引原来是指将文本中的词或术语按字母顺序排列,以便于确定其在文本中的位置和出现次数(hit)。在语料分析中,索引是指通过索引工具(concordancer)将检索词(nod节点词)出现的上下文,按照指定的跨距(span,按字母或者单字计算),并将检索词居中的显示方式。索引又称为KWIC(key words in context 语境中的关键词)。如下图所示:

索引不仅仅可以列出相关内容的上下文供研究者分析,而且还可以统计出关键词在文本中出现的次数,给分析者量化的参数。因此,索引功能是语料库工作中一个非常重要的内容。对于外语学习者来说,语境中的关键词有者非常重要的作用,因为,通过语境中的关键词,学习者可以了解关键词使用环境,其典型搭配,语义特征等。在后面的我们还将专贴介绍语境中的关键词的具体运用。
词表功能(wordlist) 词表功能是指将文本中的词项数(type)和词形(token)分别列出的功能,同时,还将词项数按出现的频率高低排列。如下图所示:

一般的外语学习者也许觉该功能是语言研究者的专利,而对于外语学习者意义不大。当然,词表功能也许不像索引功能和搭配功能那么直接,但是,词表能够让我们从另外一个角度了解我们所学习的对象。比如,通过词表我们知道,那些出现频率高的词应该是使用较多,应该熟练掌握的词,而那些频率较低的词很可能是使用不太多的词,对其投入适当的时间和精力就够了。想评价一下自己的作文中的词汇手段是否丰富也可以用词表功能,统计出词项(type)和词形数(token)之比就可以得出一个参考数据了。
搭配统计功能(collocate) 搭配是词与词出现的结伴行为,这种结伴行为具有一定的规律,同时这种规律又有一定的或然性(probability),即表现出一定的概率特征。有不少语料库工具具有搭配统计功能。通过KWIC索引,我们也能了解某个词的搭配,但是,往往会比较零碎,不系统,而通过语料库工具的搭配统计功能,能够将某个词的搭配按照统计数据从高到低或者反向排列,从而给研究者或者学习者一个直观的映像。
例如,通过Just the word我们查询到make的搭配信息:
引用:
make
'make' is V
V* obj N , e.g. make contribution (1273)
N subj V* , e.g. company make (345)
ADV V* , e.g. also make (1354)
V* ADV , e.g. make up (6195)
V* PREP , e.g. make of (4371)
V and V* , e.g. be and make (1690)
V or V* , e.g. be or make (128)
V* and V , e.g. make and be (1039)
V* or V , e.g. make or break (61)
'make' is N
V obj N* , e.g. do make (14)
ADJ N* , e.g. different make (19)
N* PREP , e.g. make of (119)
N* N , e.g. make sense (4)
PREP N* , e.g. on make (37)
N PREP N* , e.g. sort of make (21)
N* and N , e.g. make and model (14)
N* or N , e.g. make or decision (6)
article N* , e.g. .make (124)
'make' is V
V* obj N , e.g. make contribution (1273)
N subj V* , e.g. company make (345)
ADV V* , e.g. also make (1354)
V* ADV , e.g. make up (6195)
V* PREP , e.g. make of (4371)
V and V* , e.g. be and make (1690)
V or V* , e.g. be or make (128)
V* and V , e.g. make and be (1039)
V* or V , e.g. make or break (61)
'make' is N
V obj N* , e.g. do make (14)
ADJ N* , e.g. different make (19)
N* PREP , e.g. make of (119)
N* N , e.g. make sense (4)
PREP N* , e.g. on make (37)
N PREP N* , e.g. sort of make (21)
N* and N , e.g. make and model (14)
N* or N , e.g. make or decision (6)
article N* , e.g. .make (124)
引用:
cluster 1
make allowance (284)
make allowances (68)
make .allowance (65)
make no allowance (18)
make appearance (480)
make public appearance (21)
make rare appearance (11)
make appearances (33)
make brief appearance (15)
make an appearance (152)
make her appearance (14)
make his appearance (99)
make their appearance (33)
make its appearance (57)
make award (131)
make concession (260)
make concessions (108)
make a concession (26)
make any concessions (12)
make no concessions (21)
make some concessions (13)
make contribution (1273)
make financial contribution (13)
make great contribution (25)
make important contribution (71)
make large contribution (22)
make major contribution (75)
make outstanding contribution (11)
make positive contribution (43)
make significant contribution (110)
make small contribution (11)
make substantial contribution (41)
make useful contribution (25)
make valuable contribution (34)
make contributions (179)
make .contribution (20)
make real contribution (13)
make a contribution (745)
make his contribution (25)
make the contribution (31)
make their contribution (30)
make our contribution (11)
make own contribution (24)
make any contribution (21)
make their contributions (15)
make no contribution (16)
make some contribution (27)
...
make allowance (284)
make allowances (68)
make .allowance (65)
make no allowance (18)
make appearance (480)
make public appearance (21)
make rare appearance (11)
make appearances (33)
make brief appearance (15)
make an appearance (152)
make her appearance (14)
make his appearance (99)
make their appearance (33)
make its appearance (57)
make award (131)
make concession (260)
make concessions (108)
make a concession (26)
make any concessions (12)
make no concessions (21)
make some concessions (13)
make contribution (1273)
make financial contribution (13)
make great contribution (25)
make important contribution (71)
make large contribution (22)
make major contribution (75)
make outstanding contribution (11)
make positive contribution (43)
make significant contribution (110)
make small contribution (11)
make substantial contribution (41)
make useful contribution (25)
make valuable contribution (34)
make contributions (179)
make .contribution (20)
make real contribution (13)
make a contribution (745)
make his contribution (25)
make the contribution (31)
make their contribution (30)
make our contribution (11)
make own contribution (24)
make any contribution (21)
make their contributions (15)
make no contribution (16)
make some contribution (27)
...
通过以上引用Just the Word对make搭配统计结果的部分浏览,我们大概知道了搭配统计功能的内容。掌握词语搭配是学习外语的重要内容。平时的阅读以及搭配词典都能够帮助我们了掌握和了解词汇的搭配信息,不过,比较而言,由于语料库本身的优势,语料库应该是能够全面、准确、快捷查询搭配信息的工具。
分类:Corpora语料库话题 | 评论:(0) | 查看(274)
1|2|

