<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0">
  <channel>
  <title>★Corpora Space语料库空间★</title>
  <link>http://blog.zjxu.edu.cn/hwz/</link>
  <description>★Corpora Space语料库空间★</description>
  <language>zh-cn</language>
  <copyright><![CDATA[Copyright 2007 JXXYBLOG v1.0]]></copyright>
  <webMaster><![CDATA[hewenzhao@126.com(oscar)]]></webMaster>
  <generator>JXXYBLOG v1.0</generator> 
  <image>
	<title>★Corpora Space语料库空间★</title> 
	<url>http://blog.zjxu.edu.cn/hwz/images/logos.gif</url> 
	<link>http://blog.zjxu.edu.cn/hwz/</link> 
	<description>★Corpora Space语料库空间★</description> 
  </image>

<item>
  <link>http://blog.zjxu.edu.cn/hwz//readblog.asp?id=12</link>
  <title><![CDATA[可比语料库还是平行语料库?(论文摘要翻译)]]></title>
  <author>hewenzhao@126.com(oscar)</author>
  <category><![CDATA[本站原创]]></category>
  <pubDate>2008-9-18</pubDate>
  <guid>http://blog.zjxu.edu.cn/hwz//readblog.asp?id=12</guid>
  <description><![CDATA[可比语料库还是平行语料库<br/>Comparable or Parallel Corpora?<br/>作者 Wolfgang Teubert<br/><br/>摘要：本文从翻译未来发展的角度来讨论了多语词典编撰和计算方面的密切关系。无论是译入还是译出译者的母语，都可以从这些多语语料库中受益。我们从未想过要让多语词典消失，而是认为这些语料库将大大改进词典和其它类似的参考资料。尽管计算机翻译领域的进步令人欣喜，但是，要取得进一步的发展还有赖于借助多语语料库，从最基础的方面开始对相关语言进行研究分析。本文讨论了可比语料库和平行语料库各自的优势。二者都有各自的优势，所以，在创建多语数据库中，无论使用什么方法，都应该结合二者的优势。本文描述了其中的一种方法。通过分析dairy，探讨将在德语中的对译语。<br/><br/>Abstract The close inter-relationship of multilingual lexicography and computation with regard to the future of translation is discussed. Translation into and out of the translator&#39;s native language will benefit from multilingual corpora. Far from making multilingual lexicography obsolete, such corpora will considerably improve dictionaries and other tools. Although progress in computer translation has been impressive, further improvement depends upon re-analysing the languages involved from scratch with the aid of multilingual corpora. The question of the relative merits of comparable and parallel corpora is considered and it is seen that there are advantages to both, and therefore advantages to combining the two in any methodology for building up a multilingual database. Such a methodology is described, and the example given of an investigation into diary and its translation equivalents in German.]]></description>
  </item>

<item>
  <link>http://blog.zjxu.edu.cn/hwz//readblog.asp?id=11</link>
  <title><![CDATA[使用google辅助英语写作的一个网站]]></title>
  <author>hewenzhao@126.com(oscar)</author>
  <category><![CDATA[本站原创]]></category>
  <pubDate>2008-7-29</pubDate>
  <guid>http://blog.zjxu.edu.cn/hwz//readblog.asp?id=11</guid>
  <description><![CDATA[   Google as tool for academic writing（<a href=http://www.stanford.edu/~efs/google/index.htm target=_blank>http://www.stanford.edu/~efs/google/index.htm</a>） 是斯坦福大学语言中心的Phil Hubbard所办的一个网站。google对于一般人只是用于搜索网络资源，而Phil Hubbard系统地探索出其用于辅助英语写作方法，很有创造性。网站上的分别给老师和学生学生提出了不同的运用方法。对于很多只熟悉google一般用法，而不熟悉其辅助英语写作方法的biginner来说，Phil Hubbard而设立了入门教程。  ]]></description>
  </item>

<item>
  <link>http://blog.zjxu.edu.cn/hwz//readblog.asp?id=10</link>
  <title><![CDATA[语料库验证aim用法一例]]></title>
  <author>hewenzhao@126.com(oscar)</author>
  <category><![CDATA[本站原创]]></category>
  <pubDate>2008-5-31</pubDate>
  <guid>http://blog.zjxu.edu.cn/hwz//readblog.asp?id=10</guid>
  <description><![CDATA[今天在评阅毕业班学生的论文的时候，看到一个句子“The author of this thesis aims to make a descriptive study on the translations of humorous expressions of Fortress Besieged.”对于该句子中的aims的搭配用法有些怀疑。我再次想到用语料库来帮助验证自己的猜想。考虑到学生的论文是属于学术论文，所以在选择语料库子库的时候选择了学术论文摘要，这样查询的用法会更有针对性。查询词为“aim* to”。查询结果可以归纳如下：<br/>aim to ＋动词”的主语通常为“project”，“study”，“research”，如：<br/>This project <font color=#DC143C>aims to </font>construct baculoviruses with more efficient inse...<br/> This study <font color=#DC143C>aims to </font>test for the existence of such behaviour.  The Ho<br/>主语为人的非常少，只有两例： we aim to accomplish two things.  First, we intend to const]]></description>
  </item>

<item>
  <link>http://blog.zjxu.edu.cn/hwz//readblog.asp?id=9</link>
  <title><![CDATA[语料库的定义]]></title>
  <author>hewenzhao@126.com(oscar)</author>
  <category><![CDATA[本站原创]]></category>
  <pubDate>2008-5-1</pubDate>
  <guid>http://blog.zjxu.edu.cn/hwz//readblog.asp?id=9</guid>
  <description><![CDATA[什么是语料库？关于语料库的定义有广义和狭义两种。McEnery和Wilsonsay 认为“in principle, any collection of more than one text can be called a corpus” (McEnery and Wilson 2001: 29)，这是持一种广义的语料库观点。Anthony Pym（2008， 42）将译者翻译过程中处理的资料，语言材料等称为语料库。有不少从事翻译实践的人也将他们实践中积累起来的翻译记忆（TM）称之为语料库。但是， 现代语言学中的语料库是通过“取样”收集，具有代表性，规模大小可以确定，机读的标准文献。在现代语言学中，语料库有别于简单收集的文本集合。<br/> “a corpus in modern linguistics, in contrast to being simply any body of text, might more accurately be described as a finite-sized body of machine-readable text, sampled in order to be maximally representative of the language variety under consideration.” (McEnery and Wilson 2001: 32) <br/>当然，这是比较严格的语料库定义，对于语言研究者来说，在创建语料库的时候，有必要在条件允许的情况，严格按照语料库的标准进行工作。至于一般的学习者，主要焦点在语言学习，掌握语言的技能，语料库的标准不必过于严格。不过，适当注重语料库组成部分的多样性还是必要的。比如说，演讲语料库最好包括多种类型的演讲，最好从语言变体方面考虑包括英国英语和美国英语，演讲的人也最好多一点，不仅仅是很少的几个人。这样有助于照顾演讲语言的多样性。<br/><br/><b>Reference</b><br/>McEnery, Tony, Wilson, Andrew. 2001. Corpus Linguistics. An Introduction. Second Edition. Edinburgh. Edinburgh University Press.<br/>Pym，Anthony. 2008. &#34;Professional Corpora&#34;: Teaching Strategies for Work with Online Documentationk, Translation Memories and Content Management: 41-45.]]></description>
  </item>

<item>
  <link>http://blog.zjxu.edu.cn/hwz//readblog.asp?id=8</link>
  <title><![CDATA[语料库工具的主要功能]]></title>
  <author>hewenzhao@126.com(oscar)</author>
  <category><![CDATA[本站原创]]></category>
  <pubDate>2008-4-22</pubDate>
  <guid>http://blog.zjxu.edu.cn/hwz//readblog.asp?id=8</guid>
  <description><![CDATA[在前面谈到语料库的时候，我们忽略了一个问题，即语料库是指语料构成的集合，而要进行语料的检索，分析和处理离不开语料工具。面对海量的语料库，很难想象用人工（manual work）处理将会耗费多少时间和精力。所以现代语料库的工作离不开计算机软件，甚至可以说，语料库工具对于语料库的检索，分析和处理具有至关重要的作用，离开了语料库工具，语料库工作可以说是寸步难行。至此我们可以这么说，语料库（语料集合）和给予计算机的语料库工具是从事语料库工作的基本条件。<br/>那么语料库工具有哪些呢？在今天这个帖子里，我想介绍语料库工具的三个基本功能，即索引功能（concordance），词表功能（wordlist）和搭配查询功能（collocate）。这里使用的软件是Laurence Anthony 所编的免费软件Antconc3.21，可以从Anthony主页上下载：<a href=http://www.antlab.sci.waseda.ac.jp/software/antconc3.2.1w.exe target=_blank>download</a> 另外，本贴还引用了Laurence Anthony网站中Antconc在线帮助的截图，要完整了解该软件用法，请浏览<a href=http://www.antlab.sci.waseda.ac.jp/software/AntConc_Help/AntConc_Help.htm target=_blank>Antconc help system</a><br/><br/><b>索引功能（concordance）</b> 索引原来是指将文本中的词或术语按字母顺序排列，以便于确定其在文本中的位置和出现次数（hit）。在语料分析中，索引是指通过索引工具（concordancer）将检索词（nod节点词）出现的上下文，按照指定的跨距（span，按字母或者单字计算），并将检索词居中的显示方式。索引又称为KWIC（key words in context 语境中的关键词）。如下图所示：<br/><br/><img src=http://www.antlab.sci.waseda.ac.jp/software/AntConc_Help/antconc320_main_screen_concordance_sorted_results.gif border="0"><br/><br/>索引不仅仅可以列出相关内容的上下文供研究者分析，而且还可以统计出关键词在文本中出现的次数，给分析者量化的参数。因此，索引功能是语料库工作中一个非常重要的内容。对于外语学习者来说，语境中的关键词有者非常重要的作用，因为，通过语境中的关键词，学习者可以了解关键词使用环境，其典型搭配，语义特征等。在后面的我们还将专贴介绍语境中的关键词的具体运用。<br/><br/><b>词表功能（wordlist）</b> 词表功能是指将文本中的词项数（type）和词形（token）分别列出的功能，同时，还将词项数按出现的频率高低排列。如下图所示：<br/><br/><img src=http://www.antlab.sci.waseda.ac.jp/software/AntConc_Help/antconc320_main_screen_wordlist_results.gif border="0"><br/><br/>一般的外语学习者也许觉该功能是语言研究者的专利，而对于外语学习者意义不大。当然，词表功能也许不像索引功能和搭配功能那么直接，但是，词表能够让我们从另外一个角度了解我们所学习的对象。比如，通过词表我们知道，那些出现频率高的词应该是使用较多，应该熟练掌握的词，而那些频率较低的词很可能是使用不太多的词，对其投入适当的时间和精力就够了。想评价一下自己的作文中的词汇手段是否丰富也可以用词表功能，统计出词项（type）和词形数（token）之比就可以得出一个参考数据了。<br/><br/><b>搭配统计功能（collocate）</b> 搭配是词与词出现的结伴行为，这种结伴行为具有一定的规律，同时这种规律又有一定的或然性（probability），即表现出一定的概率特征。有不少语料库工具具有搭配统计功能。通过KWIC索引，我们也能了解某个词的搭配，但是，往往会比较零碎，不系统，而通过语料库工具的搭配统计功能，能够将某个词的搭配按照统计数据从高到低或者反向排列，从而给研究者或者学习者一个直观的映像。<br/>例如，通过<a href=http://193.133.140.102/JustTheWord/index.html target=_blank>Just the word</a>我们查询到make的搭配信息：<br/> <div class='quote'><div id='quote2'>引用：</div><div id='quote3'>make<br/><br/>&#39;make&#39; is V<br/>V* obj N , e.g.  make contribution (1273)<br/>N subj V* , e.g.  company make (345)<br/>ADV V* , e.g.  also make (1354)<br/>V* ADV , e.g.  make up (6195)<br/>V* PREP , e.g.  make of (4371)<br/>V and V* , e.g.  be and make (1690)<br/>V or V* , e.g.  be or make (128)<br/>V* and V , e.g.  make and be (1039)<br/>V* or V , e.g. make or break (61)<br/><br/>&#39;make&#39; is N<br/>V obj N* , e.g.  do make (14)<br/>ADJ N* , e.g.  different make (19)<br/>N* PREP , e.g.  make of (119)<br/>N* N , e.g.  make sense (4)<br/>PREP N* , e.g.  on make (37)<br/>N PREP N* , e.g.  sort of make (21)<br/>N* and N , e.g.  make and model (14)<br/>N* or N , e.g.  make or decision (6)<br/>article N* , e.g.  .make (124)<br/> </div></div><br/> <div class='quote'><div id='quote2'>引用：</div><div id='quote3'>cluster 1<br/>make allowance (284)  <br/>make allowances (68)  <br/>make .allowance (65)  <br/>make no allowance (18)  <br/>make appearance (480)  <br/>make public appearance (21)  <br/>make rare appearance (11)  <br/>make appearances (33)  <br/>make brief appearance (15)  <br/>make an appearance (152)  <br/>make her appearance (14)  <br/>make his appearance (99)  <br/>make their appearance (33)  <br/>make its appearance (57)  <br/>make award (131)  <br/>make concession (260)  <br/>make concessions (108)  <br/>make a concession (26)  <br/>make any concessions (12)  <br/>make no concessions (21)  <br/>make some concessions (13)  <br/>make contribution (1273)  <br/>make financial contribution (13) <br/>make great contribution (25) <br/>make important contribution (71) <br/>make large contribution (22) <br/>make major contribution (75) <br/>make outstanding contribution (11) <br/>make positive contribution (43) <br/>make significant contribution (110) <br/>make small contribution (11) <br/>make substantial contribution (41) <br/>make useful contribution (25) <br/>make valuable contribution (34) <br/>make contributions (179)  <br/>make .contribution (20)  <br/>make real contribution (13)  <br/>make a contribution (745)  <br/>make his contribution (25)  <br/>make the contribution (31)  <br/>make their contribution (30) <br/>make our contribution (11)  <br/>make own contribution (24)  <br/>make any contribution (21)  <br/>make their contributions (15) <br/>make no contribution (16)  <br/>make some contribution (27) <br/>...<br/> </div></div><br/>通过以上引用Just the Word对make搭配统计结果的部分浏览，我们大概知道了搭配统计功能的内容。掌握词语搭配是学习外语的重要内容。平时的阅读以及搭配词典都能够帮助我们了掌握和了解词汇的搭配信息，不过，比较而言，由于语料库本身的优势，语料库应该是能够全面、准确、快捷查询搭配信息的工具。]]></description>
  </item>

<item>
  <link>http://blog.zjxu.edu.cn/hwz//readblog.asp?id=7</link>
  <title><![CDATA[用来自语料库来中的证据和老师争论]]></title>
  <author>hewenzhao@126.com(oscar)</author>
  <category><![CDATA[本站原创]]></category>
  <pubDate>2008-4-1</pubDate>
  <guid>http://blog.zjxu.edu.cn/hwz//readblog.asp?id=7</guid>
  <description><![CDATA[记得我曾经在硕士论文答辩时，有老师指出我论文中的as is mentioned in Introduction有错，正确的应该是As has been mentioned，当时也没有准备，就点头认错了。事后一想，觉得不对啊，好像自己在什么地方见过这种用法，这个用法不是自己杜撰出来的。还好自己在做语料库方面的研究，答辩完之后就查询了一下，发现在正统的BBC和卫报（Guardian）的文章中就有我论文中的用法。比如，<br/>1. It did get better but <font color=#FF0000>as is mentioned</font> above a diet of gangsters cannot fill the show.<br/>2.<font color=#FF0000>As is mentioned </font>elsewh&#101;re today, some of it is because leaders have absolute faith in what they &#34;believe&#34;. <br/>3. <font color=#FF0000>As is mentioned </font>in this piece, it was a team who seemed more obsessed, and was at it best, whenever it clashed against those Newcastle sides <br/>4. <font color=#FF0000>As is mentioned above</font>, the markets actually run on expectations.<br/>5. <font color=#FF0000>As is mentioned </font>above however &#34;Sky&#34; seem generally more objective.<br/>以上例子来自卫报（Guardian）和BBC的网站上，这两家媒体无论在英国，还是整个英语世界使用英语都是非常正统，有口皆碑的。因此，其语料值得信任。检索工具为google，虽然不是严格的语料库检索工具，但是，对于检索一般的实例，而不是特别注重频率的大小比较，google完全可以胜任。另外，检索的语料数据作者进行了上下文的仔细分析，完全符合笔者要检索的要求。<br/>以上例中的as is mentioned表示的意思是，同样的道理或者是同样的信息在别的场合已经做了阐述和说明，此处只是提示读者/听众到指示的地方去核实该信息，这和作者在自己硕士论文中再次提及已经阐述过的内容的意思表达完全一致。因此，这些例子和作者论文中的例子在句法上也完全一致。至此，笔者可以用以上检索到，来自英国两大媒体的例子为自己的用法辩护。虽然自己证实了自己的用法是准确的，但是，作者后来并没有去再找老师理论，而是在论文正稿中采用了老师的建议用as has been mentioned above这一用法，以示对老师意见的尊重（我自己也是老师，能够理解老师的心情）。老师指出的另外一个错误是Zhu（2001）is a paper...用法不妥。这里的Zhu（2001）来自于朱（2001），即朱为本人引用文献的作者，2001为文章出版的年。老师指出的似乎很有道理，Zhu明明是姓，怎么成了paper（文章）呢？其实，在学术论文中姓后面加上文献年限就往往指文献了，而不是姓了，这一用法笔者也找到了充足的证据来佐证自己的观点，在此就不再罗列证据了。如果您不相信，也可以找到证据来和我理论。<br/>通过以上经历，本人对语料库的作用有了更多的信心。<br/>昨日收到以前教过学生发来的邮件。该学生现在在某高校攻读硕士研究生，因不满其导师对delicious和tasty两词所做的说明，发来邮件要语料库的网址以便查找例子和老师理论。愿语料库能够辅助汝等英语学习。]]></description>
  </item>

<item>
  <link>http://blog.zjxu.edu.cn/hwz//readblog.asp?id=6</link>
  <title><![CDATA[语料库有什么用？]]></title>
  <author>hewenzhao@126.com(oscar)</author>
  <category><![CDATA[本站原创]]></category>
  <pubDate>2008-3-17</pubDate>
  <guid>http://blog.zjxu.edu.cn/hwz//readblog.asp?id=6</guid>
  <description><![CDATA[我一直有一个想法，希望给本科英语专业开一门语料库的选修课，内容主要想介绍一些将语料库用于英语学习的方法。六、七年来，我一直对语料库有着浓厚的兴趣。之所以对语料库有如此大兴趣，原因有二，一、语料库对可以帮助我自己进一步研究学习英语，二、语料库对于我的教学工作有着直接的作用。在教学中，有了语料库，要查找一个例句非常容易，要穷尽性地研究一个词或者短语的用法也不是很难。我将自己学习和研究所得用到《高级英语》教学中，产生了不小的积极效果。由于条件的限制，在《高级英语》教学中使用语料库还没有发挥其应有的作用来，比如，上课的时间问题，因为《高级英语》毕竟有这门课程的任务，“语料库”方法需要涉及到一些细节的技术操作，重要的一点是，“语料库”方法需要一个实践的环境，很多问题需要在计算机房才能解决，而那些问题是《高级英语》这门课程无法解决的。基于这些原因，通过一段时间的思考，我认为有必要开设一门介绍“语料库”入门的课程，作为和将语料库用于《高级英语》衔接的一门课程。但是，我还是有一些担忧。担忧的不是怕大家接受不了语料库，而是担忧找不到一个比较合适的课程名称。语料库这个词听起来似乎比较专业，要是取一个“语料库语言学概论”，“语料库语言学入门”等都有可能将对语料库感兴趣的同学吓跑了。语料库语言学虽然源于语言学研究，是语言学研究的一个分支，也是语言学研究的一个重要方法，但是，语料库作为一种方法却有着非常广泛的使用前景。在众多的语言学方法中，我认为语料库和语言教学以及语言学习联系最密切的一种方法之一。斟酌了一段时间，我将和语料库相关的选修课定为“语料库辅助英语学习”，希望通过这比较通俗的名称能够消除同学们对语料库的陌生感和恐惧感。就这样将这么一门旨在介绍语料库方法在英语学习和翻译中运用的课程定了一个超出常规长度的名称。下面将引用该门课程的简介来介绍“语料库”作用：<br/><font color=#0000FF><b>《语料库辅助英语学习》的学习目的是，通过本课程的学习，了解和掌握语料库语言学的基本概念、语料库发展简史、利用语料库及语料库分析工具进行英语词汇，语法，文体，翻译方面的深度研究型学习，让学生掌握使用语料库工具对语料库进行文本处理的一般技巧，培养学生发现英语学习中的语言及语言相关的问题，并通过语料库来验证假设、解决问题的能力。</b></font><br/><font color=#FF0000><b>如果你想对英语的词汇进行深度学习，或者某些语法现象进行全面总结，或者想寻找一个辅助英语写作和翻译的工具，那么语料库可以作为一个选择。</b></font>]]></description>
  </item>

<item>
  <link>http://blog.zjxu.edu.cn/hwz//readblog.asp?id=5</link>
  <title><![CDATA[语料库的分类]]></title>
  <author>hewenzhao@126.com(oscar)</author>
  <category><![CDATA[本站原创]]></category>
  <pubDate>2008-3-5</pubDate>
  <guid>http://blog.zjxu.edu.cn/hwz//readblog.asp?id=5</guid>
  <description><![CDATA[如同其它工具和资源学习资源一样，语料库也有不同的类别。我们只有了解了不同的语料库类型具有不同的作用和功能，才可能在我们的学习和工作中选择合适的语料库类型，有的放矢，真正起到辅助工作和学习的作用。分类的标准不同，也会有不同的语料库类型。<br/>1. 首选，根据语料是否经过加工，可以将语料库分为<b>生语料</b>（raw texts， untagged ）和<b>标注语料</b>（tagged/ annotated ）。生语料只经过去杂质处理，建库简单，但是，由于没有经过深加工，其中的语言学信息不如标注语料丰富，能够提取出来的信息非常有限。如：<br/><b>经过词性和句法标注的语料样本：</b><br/>&lt;?xml version=&#34;1.0&#34; encoding=&#34;US-ASCII&#34;?&gt;&lt;!DOCTYPE gda&gt;<br/><br/>&lt;gda&gt;<br/>&lt;NP FCTN=&#34;HLN&#34;&gt;&lt;LST&gt;UI&lt;/LST&gt; - 93135830&lt;/NP&gt;<br/>&lt;NP&gt;&lt;LST&gt;TI&lt;/LST&gt; - &lt;NP&gt;A human putative lymphocyte G0/G1 switch gene &lt;/NP&gt;&lt;ADJP&gt;homologous &lt;PP&gt;to &lt;NP&gt;&lt;NP&gt;a rodent gene &lt;/NP&gt;&lt;VP&gt;encoding &lt;NP&gt;a zinc-binding potential transcription factor&lt;/NP&gt;&lt;/VP&gt;&lt;/NP&gt;&lt;/PP&gt;&lt;/ADJP&gt;.&lt;/NP&gt;<br/>&lt;S&gt;&lt;LST&gt;AB&lt;/LST&gt; - &lt;NP-SBJ&gt;G0S24 &lt;/NP-SBJ&gt;&lt;VP&gt;is &lt;NP-PRD&gt;&lt;NP&gt;a member &lt;/NP&gt;&lt;PP&gt;of &lt;NP&gt;&lt;NP&gt;a set &lt;/NP&gt;&lt;PP&gt;of &lt;NP&gt;&lt;NP&gt;&lt;NP&gt;genes &lt;/NP&gt;&lt;PRN&gt;(&lt;NP&gt;putative G0/G1 switch regulatory genes&lt;/NP&gt;) &lt;/PRN&gt;&lt;/NP&gt;&lt;SBAR&gt;&lt;WHNP id=&#34;i87&#34;&gt;that &lt;/WHNP&gt;&lt;S&gt;&lt;NP-SBJ id=&#34;i88&#34; NULL=&#34;T&#34; ref=&#34;i87&#34;/&gt;&lt;VP&gt;are &lt;VP&gt;expressed &lt;NP NULL=&#34;NONE&#34; ref=&#34;i88&#34;/&gt;&lt;ADVP SEM=&#34;TMP&#34;&gt;transiently &lt;/ADVP&gt;&lt;PP SEM=&#34;TMP&#34;&gt;within &lt;NP&gt;&lt;NP&gt;&lt;QP&gt;1-2 &lt;/QP&gt;hr &lt;/NP&gt;&lt;PP&gt;of &lt;NP&gt;&lt;NP&gt;the addition &lt;/NP&gt;&lt;PP&gt;of &lt;NP SYN=&#34;COOD&#34;&gt;&lt;NP&gt;lectin &lt;/NP&gt;or &lt;NP&gt;cycloheximide &lt;/NP&gt;&lt;/NP&gt;&lt;/PP&gt;&lt;PP&gt;to &lt;NP&gt;human blood mononuclear cells&lt;/NP&gt;&lt;/PP&gt;&lt;/NP&gt;&lt;/PP&gt;&lt;/NP&gt;&lt;/PP&gt;&lt;/VP&gt;&lt;/VP&gt;&lt;/S&gt;&lt;/SBAR&gt;&lt;/NP&gt;&lt;/PP&gt;&lt;/NP&gt;&lt;/PP&gt;&lt;/NP-PRD&gt;&lt;/VP&gt;.&lt;/S&gt;<br/>&lt;S&gt;&lt;NP-SBJ&gt;&lt;NP&gt;Comparison &lt;/NP&gt;&lt;PP&gt;of &lt;NP&gt;a full-length cDNA sequence &lt;/NP&gt;&lt;/PP&gt;&lt;PP&gt;with &lt;NP&gt;the corresponding genomic sequence &lt;/NP&gt;&lt;/PP&gt;&lt;/NP-SBJ&gt;&lt;VP&gt;reveals &lt;NP&gt;&lt;NP&gt;an open reading frame &lt;/NP&gt;&lt;PP&gt;of &lt;NP&gt;326 amino acids&lt;/NP&gt;&lt;/PP&gt;, &lt;VP&gt;distributed &lt;NP NULL=&#34;NONE&#34;/&gt;&lt;PP&gt;across &lt;NP&gt;two exons&lt;/NP&gt;&lt;/PP&gt;&lt;/VP&gt;&lt;/NP&gt;&lt;/VP&gt;.&lt;/S&gt;<br/>（<font color=#FF0000>看到这些符号大家不要害怕，我们仅仅使用语料库的话并不一定要了读懂以上这些符号。）</font><br/><br/><b>以下是与以上内容相同，未经加工的粗语料：</b>UI - 93135830<br/>TI - A human putative lymphocyte G0/G1 switch gene homologous to a rodent gene encoding a zinc-binding potential transcription factor.<br/>AB - G0S24 is a member of a set of genes (putative G0/G1 switch regulatory genes) that are expressed transiently within 1-2 hr of the addition of lectin or cycloheximide to human blood mononuclear cells.<br/>Comparison of a full-length cDNA sequence with the corresponding genomic sequence reveals an open reading frame of 326 amino acids, distributed across two exons.<br/><br/>2. <b>通用语料库（general）和专门语料库（specialized</b>），通用语料库是用于一般性的语料库研究，建库的标准和要求比较严格，各种类型的语料变体都要有反映，所以，取材非常重要；专门语料库是某个特定领域语言变体的反映，比如说，我们自己为了研究广告，所建立的广告英语语料库等。使用什么样的语料库取决于我们的目的，如果我们是要求证某种一般性的英语用法，就要用通用语料库，比如BNC，ANC等，如果我们使用的某个特定专业领域的语言，如商务英语，肯怕很多用法在BNC和ANC中都无法找到例子，那么，还不如用一个专业一点的商务英语语料库。<br/>3. <b>原创语料（original）和翻译语料（translational</b>），前者是指以某种原创文本集合而成的语料库，比如收集用汉语写的文本所建成的语料库，原创文本能够真实代相应的语言；翻译语料库是指由翻译文本，而非原创文本构成的语料库，比如，收集由外语译成汉语文本所构成的语料库，翻译语料库是一种语言变体的反映，翻译文本毕竟和原创文本有差别，所以翻译文本不能代表原创文本。正如前面所述，不同的语料库有不同的用途，原创语料库和翻译语料库的作用各不相同，如果我们想求证一种的地道而可靠的译法，用中国人自己翻译的英文来模仿，很可能会有问题，而英语原创文本，也就是native speaker撰写的文本要可靠得多。<br/>4. <b>平行语料库（parallel corpus）</b>，是指由原创文本和其对应的翻译文本构成的语料库。因为平行语料库是由原文和译文组成，将原文和译文经过对齐处理，可以提取出翻译对应语，因而对翻译实践的辅助作用比较明显。平行语料库配上双语检索索引关键，查找翻译对等语非常方便。后面我们将介绍自己创建平行语料库方法。<br/>5. <b>学习者语料库（learner corpus）</b>， 即学习者产出文本组成的语料库，而不是native speaker产出的作品。比如，中国英语学习者语料库就是由中国学习英语的人所写的文章组成的语料，该语料库是为了研究和反映中国学生学习英语的中的问题的语料库，当然里面有不少“问题”，不适合用来供其它学习者模仿，只供研究人员研究中介语之用。<br/><br/>这里我们介绍了语料库的一些类型，希望在了解语料库的类型之后，我们可以根据自己的目的来选择合适的语料库。<br/>]]></description>
  </item>

<item>
  <link>http://blog.zjxu.edu.cn/hwz//readblog.asp?id=4</link>
  <title><![CDATA[语料库的类别]]></title>
  <author>hewenzhao@126.com(oscar)</author>
  <category><![CDATA[本站原创]]></category>
  <pubDate>2008-3-5</pubDate>
  <guid>http://blog.zjxu.edu.cn/hwz//readblog.asp?id=4</guid>
  <description><![CDATA[如同其它工具和资源学习资源一样，语料库也有不同的类别。我们只有了解了不同的语料库类型具有不同的作用和功能，才可能在我们的学习和工作中选择合适的语料库类型，有的放矢，真正起到辅助工作和学习的作用。分类的标准不同，也会有不同的语料库类型。<br/>1. 首选，根据语料是否经过加工，可以将语料库分为<b>生语料</b>（raw texts， untagged ）和<b>标注语料</b>（tagged/ annotated ）。生语料只经过去杂质处理，建库简单，但是，由于没有经过深加工，其中的语言学信息不如标注语料丰富，能够提取出来的信息非常有限。如：<br/><b>经过词性和句法标注的语料样本：</b><br/>&lt;?xml version=&quot;1.0&quot; encoding=&quot;US-ASCII&quot;?&gt;&lt;!DOCTYPE gda&gt;<br/><br/>&lt;gda&gt;<br/>&lt;NP FCTN=&quot;HLN&quot;&gt;&lt;LST&gt;UI&lt;/LST&gt; - 93135830&lt;/NP&gt;<br/>&lt;NP&gt;&lt;LST&gt;TI&lt;/LST&gt; - &lt;NP&gt;A human putative lymphocyte G0/G1 switch gene &lt;/NP&gt;&lt;ADJP&gt;homologous &lt;PP&gt;to &lt;NP&gt;&lt;NP&gt;a rodent gene &lt;/NP&gt;&lt;VP&gt;encoding &lt;NP&gt;a zinc-binding potential transcription factor&lt;/NP&gt;&lt;/VP&gt;&lt;/NP&gt;&lt;/PP&gt;&lt;/ADJP&gt;.&lt;/NP&gt;<br/>&lt;S&gt;&lt;LST&gt;AB&lt;/LST&gt; - &lt;NP-SBJ&gt;G0S24 &lt;/NP-SBJ&gt;&lt;VP&gt;is &lt;NP-PRD&gt;&lt;NP&gt;a member &lt;/NP&gt;&lt;PP&gt;of &lt;NP&gt;&lt;NP&gt;a set &lt;/NP&gt;&lt;PP&gt;of &lt;NP&gt;&lt;NP&gt;&lt;NP&gt;genes &lt;/NP&gt;&lt;PRN&gt;(&lt;NP&gt;putative G0/G1 switch regulatory genes&lt;/NP&gt;) &lt;/PRN&gt;&lt;/NP&gt;&lt;SBAR&gt;&lt;WHNP id=&quot;i87&quot;&gt;that &lt;/WHNP&gt;&lt;S&gt;&lt;NP-SBJ id=&quot;i88&quot; NULL=&quot;T&quot; ref=&quot;i87&quot;/&gt;&lt;VP&gt;are &lt;VP&gt;expressed &lt;NP NULL=&quot;NONE&quot; ref=&quot;i88&quot;/&gt;&lt;ADVP SEM=&quot;TMP&quot;&gt;transiently &lt;/ADVP&gt;&lt;PP SEM=&quot;TMP&quot;&gt;within &lt;NP&gt;&lt;NP&gt;&lt;QP&gt;1-2 &lt;/QP&gt;hr &lt;/NP&gt;&lt;PP&gt;of &lt;NP&gt;&lt;NP&gt;the addition &lt;/NP&gt;&lt;PP&gt;of &lt;NP SYN=&quot;COOD&quot;&gt;&lt;NP&gt;lectin &lt;/NP&gt;or &lt;NP&gt;cycloheximide &lt;/NP&gt;&lt;/NP&gt;&lt;/PP&gt;&lt;PP&gt;to &lt;NP&gt;human blood mononuclear cells&lt;/NP&gt;&lt;/PP&gt;&lt;/NP&gt;&lt;/PP&gt;&lt;/NP&gt;&lt;/PP&gt;&lt;/VP&gt;&lt;/VP&gt;&lt;/S&gt;&lt;/SBAR&gt;&lt;/NP&gt;&lt;/PP&gt;&lt;/NP&gt;&lt;/PP&gt;&lt;/NP-PRD&gt;&lt;/VP&gt;.&lt;/S&gt;<br/>&lt;S&gt;&lt;NP-SBJ&gt;&lt;NP&gt;Comparison &lt;/NP&gt;&lt;PP&gt;of &lt;NP&gt;a full-length cDNA sequence &lt;/NP&gt;&lt;/PP&gt;&lt;PP&gt;with &lt;NP&gt;the corresponding genomic sequence &lt;/NP&gt;&lt;/PP&gt;&lt;/NP-SBJ&gt;&lt;VP&gt;reveals &lt;NP&gt;&lt;NP&gt;an open reading frame &lt;/NP&gt;&lt;PP&gt;of &lt;NP&gt;326 amino acids&lt;/NP&gt;&lt;/PP&gt;, &lt;VP&gt;distributed &lt;NP NULL=&quot;NONE&quot;/&gt;&lt;PP&gt;across &lt;NP&gt;two exons&lt;/NP&gt;&lt;/PP&gt;&lt;/VP&gt;&lt;/NP&gt;&lt;/VP&gt;.&lt;/S&gt;<br/><br/><b>以下是与以上内容相同，未经加工的粗语料：</b>UI - 93135830<br/>TI - A human putative lymphocyte G0/G1 switch gene homologous to a rodent gene encoding a zinc-binding potential transcription factor.<br/>AB - G0S24 is a member of a set of genes (putative G0/G1 switch regulatory genes) that are expressed transiently within 1-2 hr of the addition of lectin or cycloheximide to human blood mononuclear cells.<br/>Comparison of a full-length cDNA sequence with the corresponding genomic sequence reveals an open reading frame of 326 amino acids, distributed across two exons.<br/><br/>2. 通用语料库（general）和专门语料库（specialized），通用语料库是用于一般性的语料库研究，建库的标准和要求比较严格，各种类型的语料变体都要有反映，所以，取材非常重要；专门语料库是某个特定领域语言变体的反映，比如说，我们自己为了研究广告，所建立的广告英语语料库等。<br/>3. 原创语料（original）和翻译语料（translational），前者是指以某种原创文本集合而成的语料库，比如收集用汉语写的文本所建成的语料库，原创文本能够真实代相应的语言；翻译语料库是指由翻译文本，而非原创文本构成的语料库，比如，收集由外语译成汉语文本所构成的语料库，翻译语料库是一种语言变体的反映，翻译文本毕竟和原创文本有差别，所以翻译文本不能代表原创文本。<br/>4. 平行语料库（parallel corpus），是指由原创文本和其对应的翻译文本构成的语料库。因为平行语料库是由原文和译文组成，将原文和译文经过对齐处理，可以提取出翻译对应语，因而对翻译实践的辅助作用比较明显。<br/><br/>]]></description>
  </item>

<item>
  <link>http://blog.zjxu.edu.cn/hwz//readblog.asp?id=3</link>
  <title><![CDATA[语料库的类别]]></title>
  <author>hewenzhao@126.com(oscar)</author>
  <category><![CDATA[本站原创]]></category>
  <pubDate>2008-3-5</pubDate>
  <guid>http://blog.zjxu.edu.cn/hwz//readblog.asp?id=3</guid>
  <description><![CDATA[如同其它工具和资源学习资源一样，语料库也有不同的类别。我们只有了解了不同的语料库类型具有不同的作用和功能，才可能在我们的学习和工作中选择合适的语料库类型，有的放矢，真正起到辅助工作和学习的作用。分类的标准不同，也会有不同的语料库类型。<br/>1. 首选，根据语料是否经过加工，可以将语料库分为<b>生语料</b>（raw texts， untagged ）和<b>标注语料</b>（tagged/ annotated ）。生语料只经过去杂质处理，建库简单，但是，由于没有经过深加工，其中的语言学信息不如标注语料丰富，能够提取出来的信息非常有限。如：<br/><b>经过词性和句法标注的语料样本：</b><br/>&lt;?xml version=&quot;1.0&quot; encoding=&quot;US-ASCII&quot;?&gt;&lt;!DOCTYPE gda&gt;<br/><br/>&lt;gda&gt;<br/>&lt;NP FCTN=&quot;HLN&quot;&gt;&lt;LST&gt;UI&lt;/LST&gt; - 93135830&lt;/NP&gt;<br/>&lt;NP&gt;&lt;LST&gt;TI&lt;/LST&gt; - &lt;NP&gt;A human putative lymphocyte G0/G1 switch gene &lt;/NP&gt;&lt;ADJP&gt;homologous &lt;PP&gt;to &lt;NP&gt;&lt;NP&gt;a rodent gene &lt;/NP&gt;&lt;VP&gt;encoding &lt;NP&gt;a zinc-binding potential transcription factor&lt;/NP&gt;&lt;/VP&gt;&lt;/NP&gt;&lt;/PP&gt;&lt;/ADJP&gt;.&lt;/NP&gt;<br/>&lt;S&gt;&lt;LST&gt;AB&lt;/LST&gt; - &lt;NP-SBJ&gt;G0S24 &lt;/NP-SBJ&gt;&lt;VP&gt;is &lt;NP-PRD&gt;&lt;NP&gt;a member &lt;/NP&gt;&lt;PP&gt;of &lt;NP&gt;&lt;NP&gt;a set &lt;/NP&gt;&lt;PP&gt;of &lt;NP&gt;&lt;NP&gt;&lt;NP&gt;genes &lt;/NP&gt;&lt;PRN&gt;(&lt;NP&gt;putative G0/G1 switch regulatory genes&lt;/NP&gt;) &lt;/PRN&gt;&lt;/NP&gt;&lt;SBAR&gt;&lt;WHNP id=&quot;i87&quot;&gt;that &lt;/WHNP&gt;&lt;S&gt;&lt;NP-SBJ id=&quot;i88&quot; NULL=&quot;T&quot; ref=&quot;i87&quot;/&gt;&lt;VP&gt;are &lt;VP&gt;expressed &lt;NP NULL=&quot;NONE&quot; ref=&quot;i88&quot;/&gt;&lt;ADVP SEM=&quot;TMP&quot;&gt;transiently &lt;/ADVP&gt;&lt;PP SEM=&quot;TMP&quot;&gt;within &lt;NP&gt;&lt;NP&gt;&lt;QP&gt;1-2 &lt;/QP&gt;hr &lt;/NP&gt;&lt;PP&gt;of &lt;NP&gt;&lt;NP&gt;the addition &lt;/NP&gt;&lt;PP&gt;of &lt;NP SYN=&quot;COOD&quot;&gt;&lt;NP&gt;lectin &lt;/NP&gt;or &lt;NP&gt;cycloheximide &lt;/NP&gt;&lt;/NP&gt;&lt;/PP&gt;&lt;PP&gt;to &lt;NP&gt;human blood mononuclear cells&lt;/NP&gt;&lt;/PP&gt;&lt;/NP&gt;&lt;/PP&gt;&lt;/NP&gt;&lt;/PP&gt;&lt;/VP&gt;&lt;/VP&gt;&lt;/S&gt;&lt;/SBAR&gt;&lt;/NP&gt;&lt;/PP&gt;&lt;/NP&gt;&lt;/PP&gt;&lt;/NP-PRD&gt;&lt;/VP&gt;.&lt;/S&gt;<br/>&lt;S&gt;&lt;NP-SBJ&gt;&lt;NP&gt;Comparison &lt;/NP&gt;&lt;PP&gt;of &lt;NP&gt;a full-length cDNA sequence &lt;/NP&gt;&lt;/PP&gt;&lt;PP&gt;with &lt;NP&gt;the corresponding genomic sequence &lt;/NP&gt;&lt;/PP&gt;&lt;/NP-SBJ&gt;&lt;VP&gt;reveals &lt;NP&gt;&lt;NP&gt;an open reading frame &lt;/NP&gt;&lt;PP&gt;of &lt;NP&gt;326 amino acids&lt;/NP&gt;&lt;/PP&gt;, &lt;VP&gt;distributed &lt;NP NULL=&quot;NONE&quot;/&gt;&lt;PP&gt;across &lt;NP&gt;two exons&lt;/NP&gt;&lt;/PP&gt;&lt;/VP&gt;&lt;/NP&gt;&lt;/VP&gt;.&lt;/S&gt;<br/><br/><b>以下是与以上内容相同，未经加工的粗语料：</b>UI - 93135830<br/>TI - A human putative lymphocyte G0/G1 switch gene homologous to a rodent gene encoding a zinc-binding potential transcription factor.<br/>AB - G0S24 is a member of a set of genes (putative G0/G1 switch regulatory genes) that are expressed transiently within 1-2 hr of the addition of lectin or cycloheximide to human blood mononuclear cells.<br/>Comparison of a full-length cDNA sequence with the corresponding genomic sequence reveals an open reading frame of 326 amino acids, distributed across two exons.<br/><br/>2. 通用语料库（general）和专门语料库（specialized），通用语料库是用于一般性的语料库研究，建库的标准和要求比较严格，各种类型的语料变体都要有反映，所以，取材非常重要；专门语料库是某个特定领域语言变体的反映，比如说，我们自己为了研究广告，所建立的广告英语语料库等。<br/>3. 原创语料（original）和翻译语料（translational），前者是指以某种原创文本集合而成的语料库，比如收集用汉语写的文本所建成的语料库，原创文本能够真实代相应的语言；翻译语料库是指由翻译文本，而非原创文本构成的语料库，比如，收集由外语译成汉语文本所构成的语料库，翻译语料库是一种语言变体的反映，翻译文本毕竟和原创文本有差别，所以翻译文本不能代表原创文本。<br/>4. 平行语料库（parallel corpus），是指由原创文本和其对应的翻译文本构成的语料库。因为平行语料库是由原文和译文组成，将原文和译文经过对齐处理，可以提取出翻译对应语，因而对翻译实践的辅助作用比较明显。<br/><br/>]]></description>
  </item>

<item>
  <link>http://blog.zjxu.edu.cn/hwz//readblog.asp?id=2</link>
  <title><![CDATA[什么是语料库？]]></title>
  <author>hewenzhao@126.com(oscar)</author>
  <category><![CDATA[本站原创]]></category>
  <pubDate>2008-2-29</pubDate>
  <guid>http://blog.zjxu.edu.cn/hwz//readblog.asp?id=2</guid>
  <description><![CDATA[<font size=2>今天让我们来了解一下什么是语料库。同样，为了让大家容易理解，我先不准备用专业术语。可以这样理解，语料就是语言材料的集合。学外语的同行通常少不了要给人翻译东西，有时候我们可能会碰到我们从来没有遇到过的东西，比如，广告或者说明书。这时候，我们真希望有类似的用目的语写成的广告或者说明书在手头，我们可以参考，起码我们知道这种广告或者说明书该如何措辞，还有这种广告或者说明书的文本结构方面的特征。我们可以把收集到的这些文本集合看做是简单的语料库。所以，语料库本质上就是一文本集合。这个文本集合通常有一定的用途。从实用的目的出发，我们经常会收集一些我们用得着的文本，比如说，教学用的文章，其中可能有优美的散文，新闻，短篇小说，奇闻趣事等。有时候，我们还试图从同一类文章中寻找某种表达的用法规律。从某种程度上，我们是在收集语料。<br/>当然，现代的语料库有其比较严格的定义和标准。真正的语料库不能就这么简单地很随意地将一些文本胡乱放在一块就了事了。相反，创建一个语料库之前，得制定一个标准，该收集那些，不能收集那些，每一类文本不能收集太多，某一类文本不能缺少，相互之间的比例应适中；有的语料库在语料采集的还有一定的取样标准，比如，每篇文章采集500个词，或者2000个词等等。<br/>下面让我们看看语料库的定义：<br/>英语中语料库一词，corpus（复数为corpora）来源于希腊语，愿意是“体”的意思，通常的理解是A large collection of writings of a specific kind or on a specific subject。严格一点，我们将语料库定义为：<u>语料库（Corpus），就是指在随机采样的基础上收集的有代表性的真实语言材料的集合，是语言运用的样本。现代的语料库是指存放在计算机里的原始语料文本或经过加工后带有语言学信息标注的语料文本。 </u><br/>按什么标准来创建语料库，我们使用语料库的时候，要用什么样的语料库，取决于我们的需求的高低。如果用于要求不太高的工作或者是学习方面的话，条件又不允许，就没有必要严格按标准来做，而如果是将语料库用于比较严格的语言学或者翻译研究，要求就高一些，这也是可以理解的。<br/>也有些人取方便，就用google当做语料库来实现自己的目的。从实用的目的来看，这没有什么不可以的。请参照“<a href=http://www.lctran.org/trans_studies/jubu_duiying_yuliao.htm target=_blank>局部对应英汉网络语料及其辅助翻译功能</a>”</font>]]></description>
  </item>

<item>
  <link>http://blog.zjxu.edu.cn/hwz//readblog.asp?id=1</link>
  <title><![CDATA[语料库空间欢迎您]]></title>
  <author>hewenzhao@126.com(贺文照)</author>
  <category><![CDATA[本站原创]]></category>
  <pubDate>2008-2-28</pubDate>
  <guid>http://blog.zjxu.edu.cn/hwz//readblog.asp?id=1</guid>
  <description><![CDATA[<font size=2>也许你看到语料库这个术语就觉得这太专业，离自己很远。首先我不想谈过于专业的内容，还是让我从一个真实的事情开始。在2006年9月的一天，我们英语系办公室来了一名老教授（后来知道是南湖学院请来的代课教师，浙江大学退休的教授）。这位教授来问我们英语系有没有比较大的搭配词典，这位教授在课堂上碰到了一个问题，学生问 let alone后面的动词时态到底和前面的动词时态是否一致。老教授被难倒了。被问题暂时难倒是教师经常碰到的事情，学生问不倒的老师肯怕没有。问题是课后如何去查找资料回答学生的问题。这位教授想到了找搭配词典来解决问题。这无疑是对的，但是，这并非唯一的办法。在今天，通过翻阅纸质印刷词典来确定搭配的办法也许有点过时了。比较理想的办法是语料库的办法。你也许要问，为什么要用语料库？语料库到底有什么好处？<br/>    我的回答是，语料库聚集的是真实，自然的，大规模的语言材料，语料库能够真实，客观，准确地揭示语言的用法，还有一点，语料库的方法效率高。<br/>如果那位教授熟悉语料库，他也许就不会去找词典，而是上网去查一下在线的语料库，如BNC，Cobuild等就轻而易举地解决了let alone的问题，或者干脆将google权且当做一个语料库来用，也可以得到比较满意的结果。<br/>    <b>本语料库空间的服务对象：外语专业学生（主要为英语专业），那些希望使用语料库来辅助词汇学习、辅助外语写作以及翻译的同学</b>。本空间关于语料库的专业内容主要服务于教学，对于专业人员可能过于肤浅。内容语料库空间将介绍语料库的基本概念，基本方法，常用的软件以及使用语料库的原则，思路等，以便帮助那些想了解语料库，希望将语料库用于外语学习和语言研究中的语料库初学者。希望本空间能够引导他们步入语料库的大门。欢迎大家就语料库的运用方面的话题进行交流。由于本空间介绍和讲述的内容一般为基本概念，除非是特别引用之处，主持人将省略文献标注，请谅解。</font><br/><br/>------------------------------------------------<br/><a href=http://www.51.la/?1741592 target=_blank>统计</a>]]></description>
  </item>

</channel>
</rss>
