语料库应用入门讲座
引言
主要介绍语料库的概念、功能、意义和基础的方法。主要包括:
1. 什么是语料库?语料库有什么作用?
2. 语料库的分类有哪些?
3. 语料库有什么功能?
4. 常见的语料库工具有哪些?
5. 常用的语料库语言学研究方法有哪些?
一、语料库的定义
语料库(Corpus)是一种存放语料材料的仓库,是一种按照一定的规则收集的大规模的真实文本数据集合。 它包括书面文本、口语对话、网页新闻、视频、音频等多种形式的语言材料。 常见语料库有:Brown, BNC, TEC, COCA等。 语料库语言学(corpus linguistics)就是在语料库的基础上逐步发展起来的。
二、语料库的作用
语言学研究(Linguistic Study) 语音学、语法研究、语义学分析 语言学习 翻译学习、自然语言处理(NLP) 机器翻译、文本分类、模型训练、情感分析 翻译研究和实践 翻译研究 支持翻译专业的学习和实践 提供上下文信息,学习翻译、提高翻译质量。
三、语料库的建设工具
语料库建设工具是一种专门用于构建语言数据库的软件,它可以帮助语言学家、文本分析专家等研究人员快速、准确地收集、整理、标注和分析大量的文本数据。 文本采集工具:如爬虫程序、八爪鱼采集器,teleport pro, webscrapper, data instant scrapper 格式转换工具:AbbyFineReader 15, WPS, 百度图片识别API,天诺识别,白描, CS扫描全能王 文本清洗工具:Emeditor, 文本整理器器V5.0,Editpad, PowerGREP
四、语料库检索工具
Emeditor/ Editpad 文本处理和清洗工具 2. AntConc 4.2.2 简易而实用的免费语料库工具 3. WordSmith 8 强大而专业的语料库工具 4. Wordless 3.3 由上海外国语大学博士叶磊发明的语料库工具集
五、语料库量化指标
1. 词云图
2. 索引行 Concordance
3. N元组-词簇
4. Collocate 搭配信息
5. Wordlist 词频表
6. 关键词表 Keyword List
六、语料库入门书籍推荐
1. 语料库应用教程
2. 语料库辅助英语教学入门
3. 语料库辅助中学英语教学案例选编
4. 语料库语言学实用入门教程
七、参考文献
梁茂成等. 语料库应用教程[M].北京: 外语教学与研究出版社.2010.
何安平等. 语料库辅助中学英语教学案例选编[M]. 北京: 外语教学与研究出版社.2020. martinweisser, http://martinweisser.org/courses/intro/corpusLing.html[OL].2023.9
Barnbrook, Geoff. (1996). Language and Computers. Edinburgh: EUP. Kennedy, G. (1998).
An Introduction to Corpus Linguistics. London: Longman.
McEnery, T. & Wilson, A. (2001). Corpus Linguistics (2nd ed.). Edinburgh: EUP.