“燚炎通用英汉平行语料库”新闻和演义子库发布探花 眼镜
北京番邦语大学 许家金、徐秀玲
燚炎语料库无缺版可从这里下载:
“燚炎通用英汉平行语料库”(Yiyan English-Chinese Parallel Corpus)是按布朗语料库模式(B探花 眼镜rown Corpus)创建的百万词级的均衡英汉平行语料库。该语料库取名为“燚炎通用英汉平行语料库”,从语音上,“燚炎”与“译言”谐音,闪现库中所收为翻译谈话;这一定名亦然对“译言网”算作主要语料起首的鸣谢。从造字情势上,“燚炎”二字也示意该语料库平行对王人的脾气,以及主张“世东说念主拾柴火焰高”的众源翻译(crowd-sourced translation)之意。燚炎语料库由北京番邦语大学许家金栽种统筹联想。
现对外发布燚炎语料库的新闻和演义部分。用户可通过BSFU CQPweb语料库在线检索平台()进行检索。
其中,新闻部分(A-C)包括新闻报说念、社论、报刊辩驳等3个子类文学,议论88个文本,英语原文领域为176,487个单词,对应的汉语译文领域为305,27个汉字。演义部分(K-R)包括一般演义、考查演义、科幻演义、历险悬疑演义、言情演义、幽默等6个子类文学,议论126个文本,英语原文领域为254,727个单词,丝袜电影对应的汉语译文领域为399,215个汉字。具体子类所收文本情况见下表。
文学
类型
文类
代码
真實精液大爆射子类文学
类型
文本
数目
英语原文
字数
汉语译文
字数
新闻
A
新闻报说念
44
88,284
14,9388
B
社论
27
54,181
91,713
C
报刊辩驳
17
34,022
64,173
议论
88
176,487
305,274
演义
K
一般演义
50
100,739
159,330
L
考查演义
12
24,101
37,021
M
科幻演义
12
24,317
38,838
N
历险悬疑演义
13
26,443
42,394
P
言情演义
30
60,976
94,352
R
幽默
9
18,151
27,280
议论
126
254,727
399,215
新闻和演义语料一王人汇集自“译言网”(),绝大精深文本的产出时辰为2010年前后。
燚炎语料库既不错用于原文-译文的同样战术和对应关连商讨,又可与原创汉语语料库(如ToRCH2009、ToRCH2014、ToRCH2019、LCMC、The UCLA Corpus of Written Chinese等)进行对比,历练翻译汉语的译语特征。
该部分语料的汇集、整理、对王人职责多半由徐秀玲博士完成。在语料库的收罗整理进程中取得熊文新栽种、聂平俊忠实等放置协助。