absurd短语搭配

2024-09-08

absurd短语搭配(精选5篇)

absurd短语搭配 篇1

基于词的统计翻译模型模型[1,2]是早期机器翻译的一种方法。然而,词作为翻译的基本单元,不能很好地解决词在翻译时对上下文的依赖问题。因此,更有效的基于短语的模型出现并成为统计机器翻译方法的主流。基于短语模型的方法在翻译时将邻近的词串作为一个整体进行处理,因词之间的重排序问题变成了短语内部的问题 ,降低了翻译模型的复杂程度 ,翻译质量有所提高[3,4,5,6,7]。

短语切分不像词语切分那样,它没有统一的标准,也没有已切分好的训练语料库,这给切分工作带来了很大的困难。从语料库中发现重复串作为短语库是一种有效方法,而且只用单语的语料库,单语的语料库通常是很容易获得的。然而用于机器翻译时,也带来了问题: 一般统计机器翻译中的短语库都是从词对齐的双语语料库中自动抽取的,短语库中短语是对应的,这与单语料短语切分使用的短语库是不一致的:短语切分的结果不一定都能找到对应的翻译,这种不一致会影响到翻译质量[6],这样就要回退到基于词的翻译。因此,从双语语料中获得对齐的短语搭配,可以有效消除上述弊端。

1相关工作

文献[8]采用条件随机域建立统计模型,有针对性地研究了复杂最长名词短语的识别,并给出了一种带置信度估计的解码算法,提高了识别的正确率。

文献[9]提出了一种基于层叠隐马尔可夫模型的中文命名实体一体化识别方法,将人名识别、地名识别以及机构名识别等命名实体识别融合到一个相对统一的理论模型中,首先在词语粗切分的结果集上采用底层隐马尔可夫模型识别出普通无嵌套的人名、地名和机构名等,然后依次采取高层隐马尔可夫模型识别出嵌套了人名、地名的复杂地名和机构名,实验结果显示了优异的效果。

文献[10]提出了一种基于非连续短语的统计翻译模型,模型可以使翻译的基本单元从连续短语扩展到带有间隔的非连续短语,更好地解决了词语翻译时的上下文依赖问题。同时,由于该方法抽取的短语数量较少,也使得解码的效率得到了提高。

文献[6]提出了一种短语切分方法,将句子的短语切分概率化,识别出汉语语料库中出现次数大于2次的词语串作为汉语短语,然后用最短路径方法进行短语切分,实验表明,对于长句子,短语切分模型的加入有助于提高翻译质量。

上述文献都是对单语语料的短语或组块进行识别和抽取。对于平行语料,许多研究人员也进行了深入研究。

文献[11]提出了基于N-gram的频率统计 。该方法认为当共现词语的频率达到一定值时,则认为它们构成搭配 ,但也存在很大的缺点,因为同现频率很高的词在很多情况下并不搭配,如英语语料中同现频率最高的往往是一些不具有实际义的语法功能词:of,the,in,a等。文献[12]提出的 Xtract方法,基于方差,通过分析同现词语的分布特征推断其语法结构,从而实现了抽取被其他词语隔开的搭配和含有两个以上词语构成的搭配 。文献[13]提出了基于“有效句型”概念和“翻译中相对不变准则”的短语对齐模型,在翻译异常的情况下,从源语言、目标语言候选句法树集中排除歧义,选出正确的句法树 ,并揭示了其短语层次上的对应关系。文献[14]给出了一种直接计算短语对列表和相应概率值的方法;文献[15]用一个双语框架Bracketing 的方法来抽取短语。这两种方法的计算复杂性太高。文献[16,17]为双语句子对建立一个互信息矩阵 ,矩阵中的每一个单元格是词对的点式互信息,从这个矩阵中抽取互信息相似的矩形区域即得到短语对,此方法并不要求词对齐,而是充分利用词对的互信息。

文献[18]实现了一种针对并行语料库进行双语语块自动识别方法:将统计和规则相结合,同时保证双语语块的语义特性和句法规范。通过在一个6万句的旅馆预定领域口语语料库中的实验,该方法对汉英并行语料的双语语块该方识别正确率可达到80%左右。

本文提出了一种基于互信息的汉维语短语搭配的抽取方法。该方法不需要汉语分词、词性标注等预处理工作,根据语料中汉语字和维语单词的共现信息,同时避免语料中个别词汇数目极少而共现信息值较大出现噪音,采用T检验消除,相对于利用分词和词性标注等技术的抽取方法,该算法简单且时间效率较高。

2无分词模型

互信息(Mutual Information)

Ι(Cword,Uword)=log2prob(Cword,Uword)prob(Cword)prob(Uword)

其中prob(Cword)、prob(Uword)分别表示汉维语词汇在语料中出现的概率,prob(Cword,Uword)表示汉维语词汇在语料中对应出现的概率)表示源文和译文中两个词汇互译的可能性,I(Cword,Uword)值越大,互译的可能性越大。为了避免语料中个别词汇数目极少而I(Cword,Uword)值较大出现噪音,采用t检验消除:

tprob(Cword,Uword)-prob(Cword)prob(Uword)1Μprob(Cword,Uword)

其中,M是语料的总的词汇量。

由于汉语分词存在一定误差,且时间复杂度较高,本文采用了一种基于字扩展算法,识别汉维语搭配词汇:

设一个汉维语句子对齐<C,U> C的汉字数目为lc,维语单词数目lu,构建lc×lu的二维矩阵,矩阵元素的值是对应的汉维语词汇的t检验值。从该矩阵中进行词汇扩展,获得汉维语搭配词汇。具体步骤是:

1) 从矩阵中查找值最大的元素,若该元素的值不小于t检验值,则转步骤2;否则结束。

2) 以该最大值元素为中心向四周扩展。扩展限制条件是:如果扩展的新元素的值与该最大元素值的比值不小于threshhold,则扩展;否则停止扩展。扩展应当保证扩展矩阵区域的所有元素的值均符合限制条件。

3) 输出扩展区域对应的汉维语搭配词汇,将扩展区域所在的行列值均赋值为-999,转步骤1。

4) 将剩余没有扩展的序列直接合并作为汉维语短语搭配输出。

限制条件:当扩展后得到的短语中汉语只有一个字,并且维语的单词只有一个,则在电子词典中验证该搭配的正确性,如正确,则输出;否则,放弃该短语搭配,并将该扩展区域的数值均减去threshhold。

如:一个汉维语对齐,C =“三是保险服务功能不断拓展”,U=则对应矩阵如图1。依据上述步骤,首先找到元素值最大值:7行4列的29.63,然后向四周扩展,周围元素有6行4列符合条件,所以输出汉维语词汇搭配:=服务,然后将第6、7行和第2列的值均改为-1;重新执行上述步骤,输出其它词汇搭配:保险=;不断=。这样汉语C =“三是保险服务功能不断拓展”抽取了“保险、服务、不断”三个短语,相应的维语部分类同;将剩余的部分合并,即得到:三是=;功能=;拓展=。

该无分词模型的最大特点是方法简单,并且由于没有进行汉语的分词,因此效率高;而分词模型事先对语料的汉语部分进行分词,然后计算汉维语互信息时,汉语的互信息单位不是无分词模型的字而是分词后的词语。

3实验和分析

以政府文献政府公文领域内的共6万句平行语料作为实验语料。随机选取语料句子的99%作为训练语料,获得汉维语的字和词汇的共现概率,其余1%分为3组作为测试语料。事先,语言学专家对测试语料进行了人工切分,标记出短语搭配和对齐关系。

从表1中可以看出,无分词模型短语搭配识别在语料较少的情况下,仍能达到较好的识别效果。

分词模型较无分词模型效果提高并不明显,分析原因,由于汉语进行了分词,所以组块的正确率有所提高,而对齐信息的共现T检验值的获取并没有较无分词模型提高,因此对齐正确率并没有改善。相反,由于分词模型使用了分词预处理,因此算法的时间效率要比无分词模型差。如表2所示。

典型错误分析:

• 不完整抽取现象

对一个汉维语对齐抽取短语搭配,汉语句子为:“加快发展各项社会事业。”维语句子为:

利用上述算法计算得到的模型如表3(为了醒目,在矩阵的每个维语单词前增加了汉语翻译)。

从这个汉维语对齐中,抽取的汉维语搭配有:

社会=

发展=

加快=

事业=

其中,前三个短语搭配抽取正确,最后一个短语中维语“”的含义是“事业”但该单词是复数格,而在该短语搭配中的汉语“事业”无复数意义,在汉语句子中和“各项”结合才具有复数意义,在这个抽取中,并没有完整的抽取出来。分析原因,汉语句子“加快发展各项社会事业。”中实际存在一个非连续的修饰短语“各项…事业”,该短语由于中间夹有词汇,而抽取模型只能抽取连续的短语,所以仅能做到部分识别,因此出现了不完整抽取现象。

• 剩余短语合并错误

由于剩余短语是在符合条件的短语搭配抽取后,在搭配矩阵将剩余没有搭配的汉维语字词直接合并而成的,一些t检验值较低的剩余部分自动合并,造成了错误。分析原因,是由于矩阵共现概率的t检验值较小,搭配共现信息不足。

4结语

本文给出了一种简单实用的汉维语短语搭配的抽取方法。该方法不需要汉语分词、词性标注等预处理工作,根据语料中汉语字和维语单词的共现信息,避免语料中个别词汇数目极少而共现信息值较大出现噪音,采用T检验消除,相对于利用分词和词性标注等技术的抽取方法,该算法简单且时间效率较高。实验结果表明,该方法利用较小规模的语料库也能达到较好的短语搭配抽取效果。

未来的工作是继续扩大汉维语平行语料库。根据经验,大规模语料库的统计信息更加充分和精确,能够有效减少本文提及到的典型抽取错误。

小议高考动词短语搭配辨析 篇2

下面就上述事实举例如下:

1. I mastered the skills of that beginning level position and I was given the opportunity to ____ through the company into different positions. (全国卷Ⅱ2009)

A. look upB. take upC. move upD. put up

【解析】look up“向上看、抬头看”,take up“拿起、占据”,move up“(使升级)提升”,put up“举起、建立、张贴”。句意:我掌握了基本工作技能,后来获得了晋升的机会。答案为C。

2. Would you please ____ the paper for me and see if there are any obvious mistakes?(湖北卷2009)

A. look aroundB. look intoC. look upD. look through

【解析】look around“环顾,到处看”,look into“调查,浏览,”look up“向上看”,look through“审核,仔细查看”。句意:你能不能帮我看看这份试卷,看有没有明显的错误?答案为D。

3. A notice was ____ in order to remind the students of the changed lecture time. (陕西卷2009)

A. sent up B. given upC. set up D. put up

【解析】send up“使上升”,give up“放弃”,set up“竖立、创立”,put up“挂起、张贴”。句意:为了提醒学生变更的演讲时间,一个通知被张贴了出来。答案为D。

4. Amy joined a painting group but didn’t seem to ____, so she left. (山东卷2009)

A. show offB. go up C. fit in D. come over

【解析】show off“炫耀、使突出”,go up“上涨、提高、增加”,fit in“相处融洁、合得来”,come over“过来、顺便拜访”。句意:艾米参加了一个绘画组,但是似乎和那些人合不来,所以她又退了出来。答案为C。

5. The Somali robbers’ frequent attacks on the sea urged the United Nations to ____ all nations to take immediate action.(福建卷2009)

A. fight forB. apply forC. call onD. wait on

【解析】fight for“为……而战斗”,apply for“申请”,call on“号召”,wait on“服侍”。句意:索马里海盗在海上频繁的袭击促使联合国号召所有的国家立刻采取行动。答案为C。

6. The meal over, the managers went back to the meeting room to ____ their discussion. (天津卷2008)

A. put awayB. take downC. look overD. carry on

【解析】put away“放好、储存……备用、处理掉、放弃、抛弃”,take down“拿下、记下、拆卸、病倒”,look over“从……上面看、检查、调查”,carry on“继续开展、坚持、举止正常”。句意:饭后,经理们又到会议室继续他们的讨论。答案为D。

7. “What are you reading, Tom?” “I’m not really reading, just ____ the pages. (全国卷Ⅱ2008)

A. turning offB. turning aroundC. turning overD. turning up

【解析】turn off“关掉、避开”, turn around“回转、转向”, turn over“打翻、反复考虑、翻身、翻阅”, turn up“找到、发现、出现”。句意:我没有在看书,我只是在翻阅。答案为C。

8. If the firms failed to make enongh money, they would ____.(湖北卷2007)

A. close downB. call offC. turn downD. set off

【解析】close down“倒闭”, call off“取消”, turn down“拒绝、关小”, set off“出发、引起”。句意:如果公司不能赚足够的钱,其结果自然是倒闭关门了。答案为A。

9. “Have you ____ some new ideas?” “Yeah, I’ll tell you later.” (江苏卷2007)

A. come aboutB. come intoC. come up withD. come out with

【解析】come about“发生”, come into“偶然遇到”, come up with“想出、提出”, come out with“和……一起出去”。句意:你想出一些好主意了吗?答案为C。

10. It is the sort of work that ____ a high level of concentration. (山东卷2007)

A. calls forB. makes upC. lies inD. stands for

【解析】call for“需要、要求”, make up“组成、化妆”, lie in“在于”, stand for“代表”。句意:这是一种要求高度集中注意力的工作。答案为A。

小结:做好这类试题的关键有以下几个步骤和一个前提条件:

1.步骤:第一步:通读全句,掌握句意,猜出空白处所需的含义。第二步:分析四个答案的含义,选择一个最适当的选项,并填入空白处。第三步:再一次通读句子,确保句意通顺。

discussion短语搭配 篇3

7、discussion forum  讨论区

8、panel discussion  专题讨论会

9、discussion group  讨论组

10、discussion paper  讨论稿;讨论文件

11、results and discussion  结果与讨论

12、discussion list  讨论表

13、discussion method  讨论法

absent短语搭配 篇4

指某人不在某地用absent from,如absent from Shanghai意为“不在上海”,而说某人absent in Shanghai时,则是指“在上海”;

涉及到不会动的.东西时,absent in ...意为“不在……里”或“在……里没有”,可参考absence, 但是有特例。

Prejudice is absent from his mind.

句中习惯用from,因成见虽不会动,但会自己产生和消灭。

adj.(形容词)

absent的基本意思是“缺席的,不在场的”,在句中可用作定语或表语。用作表语时常与介词from连用,有时还可接动名词,主语一般为人。

absent作“没有的,缺乏的”解是正式用法,在句中多用作表语,常与介词from连用,主语一般为物。

absent作“心不在焉的,走神的”解时,指思想不能集中于当前的事情。

absent不用于比较等级。

absent前加定冠词the可用作名词,意思是“缺席的人”。

v.(动词)

abandon短语搭配 篇5

他下令弃船。

The captain gave the order to abandon ship.

船长下令弃船。

Snow forced many drivers to abandon their vehicles.

大雪迫使许多驾驶者弃车步行。

By 1930 he had abandoned his Marxist principles.

上一篇:“实践型”共青团组织建设试点实施方案下一篇:学前班拼音考试