村上里沙作品及图片

干熟女
探花 眼镜 Yiyan corpus
发布日期:2024-12-06 12:20    点击次数:56

探花 眼镜 Yiyan corpus

“燚炎通用英汉平行语料库”新闻和演义子库发布探花 眼镜

北京番邦语大学  许家金、徐秀玲

燚炎语料库无缺版可从这里下载:

“燚炎通用英汉平行语料库”(Yiyan English-Chinese Parallel Corpus)是按布朗语料库模式(B探花 眼镜rown Corpus)创建的百万词级的均衡英汉平行语料库。该语料库取名为“燚炎通用英汉平行语料库”,从语音上,“燚炎”与“译言”谐音,闪现库中所收为翻译谈话;这一定名亦然对“译言网”算作主要语料起首的鸣谢。从造字情势上,“燚炎”二字也示意该语料库平行对王人的脾气,以及主张“世东说念主拾柴火焰高”的众源翻译(crowd-sourced translation)之意。燚炎语料库由北京番邦语大学许家金栽种统筹联想。

现对外发布燚炎语料库的新闻和演义部分。用户可通过BSFU CQPweb语料库在线检索平台()进行检索。

其中,新闻部分(A-C)包括新闻报说念、社论、报刊辩驳等3个子类文学,议论88个文本,英语原文领域为176,487个单词,对应的汉语译文领域为305,27个汉字。演义部分(K-R)包括一般演义、考查演义、科幻演义、历险悬疑演义、言情演义、幽默等6个子类文学,议论126个文本,英语原文领域为254,727个单词,丝袜电影对应的汉语译文领域为399,215个汉字。具体子类所收文本情况见下表。

文学

类型

文类

代码

真實精液大爆射

子类文学

类型

文本

数目

英语原文

字数

汉语译文

字数

新闻

A

新闻报说念

44

88,284

14,9388

B

社论

27

54,181

91,713

C

报刊辩驳

17

34,022

64,173

议论

88

176,487

305,274

演义

K

一般演义

50

100,739

159,330

L

考查演义

12

24,101

37,021

M

科幻演义

12

24,317

38,838

N

历险悬疑演义

13

26,443

42,394

P

言情演义

30

60,976

94,352

R

幽默

9

18,151

27,280

议论

126

254,727

399,215

新闻和演义语料一王人汇集自“译言网”(),绝大精深文本的产出时辰为2010年前后。

燚炎语料库既不错用于原文-译文的同样战术和对应关连商讨,又可与原创汉语语料库(如ToRCH2009、ToRCH2014、ToRCH2019、LCMC、The UCLA Corpus of Written Chinese等)进行对比,历练翻译汉语的译语特征。

该部分语料的汇集、整理、对王人职责多半由徐秀玲博士完成。在语料库的收罗整理进程中取得熊文新栽种、聂平俊忠实等放置协助。