读懂英文文章所需的单词量

news2025/1/22 19:07:48

简介

备考托福,GRE需要背上万单词,除去考试通关的因素,就想看看是不是真有必要花时间去背那么多单词。
实验使用从初中到GRE不同等级考试要求的单词表,代入Brown文本数据集,评估背会各等级单词后,能看懂多大比例的文本。比如:高中毕业要求4000左右单词量,背会后对于取自不同领域的各种文本,能看懂句中单词的比例是多少。
从实验结果可以看到,即使背会了GRE要求的15000+以上,还会有很多词不认识,如一些专业领域的词汇。当然,如果就认识200个词,那也确实太少了。因此,本文将讨论对于不同学习阶段,背多少词,背哪些词性价比最高。

数据和方法

资源数据集

使用初中,高中,大学四六级,专八,雅思,托福,GRE的单词表。另外,加入了初一上半学期(这个学期基本都在复习小学内容,可近似地视为小学毕业水平),以及Brown数据集中的高频单词。

评价数据集

使用自然语言处理NLTK自带的Brown语料库,它创建于1961年,包含来自五百多个不同来源的文本,包含新闻,社论等类型。是一个覆盖类型相对全面的语料库,其中包含5万多句子,116万多单词。

方法

  • 语料库以句为单位,评价认识单词的比例。
  • 将句子切分成单词,并做简单标准化处理,去掉标点符号,将’ing’,‘ed’,‘er’,‘es’,‘s’,‘d’,‘ment’,'ly’结尾的单词转换成其原型。
  • 针对每一个句子评价每个等级应该认识的词占所有词的比例。

结果

对比不同频率的单词

图中横轴是句子,纵轴是认识的词所占句中单词的比例,比如图中蓝色线在30000的位置表示:如果只认识出现高频最高的500个单词,对于难度适中的句子(30000/50000),能看懂其中70%的单词。

对比不同考试等级

从图中黄线可以看到,如果是初一第一学期水平,几乎没什么句子是完全认识的(左上角),背完初中阶段所有单词(蓝色线),句中词全认识的也不多。

讨论

学会多少词性价比最高

  • 个人觉得图-1的绿线(top2000)到红线(top3000)对于多数学生是性价比最高的选择,后面每多学1000个单词,进步空间都越来越有限,这也符合二八法则(即:最重要的只占少数)。
  • 从图-2中可以看出,top2000(浅蓝)的水平和大学英语四级差不多,但是可以少背多半单词。
  • 背高频单词可能是更高效的选择。

按书学习有什么问题

教科书,尤其是低年级的教科书往往是成体系的学习,比如某节课学衣服,就把上衣,裤子,鞋,袜子,短裤都给学了,但是在文本阅读中,“袜子”出现的概率很低。另外,如果某课出现了一个很少用的词,但是为了保持课程的完整性,也加入了单词表。比如初中第一学期单词表400多个,与高频2000词重合的只有200出头。所以此时,娃的常用单词量只有200多。

局限性

  • Brown语料库虽然包含各种类型的文本,但并不能代表所有数据,结果可能有失公平,但它是目前我能找到的覆盖最广的数据集,且能展示相对关系。
  • 高频词取自Brown,又参与到评测中来,可能有失公平,但是也在路透社数据集上做过评测,结果差不多。
  • 您可能觉得更高等级考试的词汇也非常值得学习,其中包含的关键词汇,虽然只占句子内容的1/10,如果这个词不认识,句子意思就理解不了;另外高级别考试中虽然单词多,但很多是简单单词的组合,实际学习起来工作量并没那么大,还能学习一些规律;开卷有益…… 以上观点我都同意,暂不在这里讨论。

其它启发

  • 如果把词根词缀考虑进去效果可能更好。
  • 最好把词放在句子中背,不能只靠默写。比如学习字典中的例句(例句往往不包含其它难词,简短,意思明确且有翻译)。
  • 每天背完要复习前N天的,每周复习,否则忘得很快。
  • 无论大人小孩,名词动词形容词相对容易记忆,连词抽象词记了就忘,小技巧是:如果一个词有多个意思,第一次只记最容易记住或者最基础的意思;抽象词可以和其它词一起记忆,记住短例子(比如since记不住,记例句:I have’t eaten since breakfast),或者已知的近义词(比如however记不住,就记它比but意思弱一点)。

结论

以娃为例:学习最高频的前2000个单词是个学习的捷径,从中再去掉本来就会的单词,每天背10个,200天背完,除去周末,加上复习时间,一年怎么也背完了;这时候就能看一些简单的英文书;最后就可能进入一个自我进化的良性循环。

个人看法,仅供参考,至于实际效果如何,请关注我家大宝一年后的英语水平。以此送给刚上初中的宝宝和宝爸宝妈们~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/40498.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于51单片机的教室智能照明控制系统

硬件方案 本系统以51单片机作为控制模块的核心部件,采用热释红外人体传感器检测人体的存在,采用光敏三极管构成的电路检测环境光的强度;根据教室合理开灯的条件,通过对人体存在信号和环境光信号的识别与判断,完成对教室…

关于浙江22年下半年教师资格证面试报名注册时间

1 哪些考生可以报名 笔试各科成绩合格且在有效期内的并符合各省面试报考条件人员,可参加报名面试: 2 报名分三阶段 12月9日~12日:网上报名 12月5日起开始注册,根据各省报考公告,考生登陆“NTCE-中国教育考试网”(ht…

Delphi记录

文章目录软件安装基础参考书名词释义基本语法常用函数数学运算函数字符处理函数日期时间函数顺序类型函数操作IDE设置去掉Delphi程序启动时的welcome page(欢迎页)设置环境变量的PATH及library的path安装控件如何在Delphi中安装库?安装Add-in-Exprexx安装TMS FlexCel 7.1 D10.…

Java#数据结构----1

目录 一.栈和队列 栈 队列 二.数组和链表 数组 链表 一.栈和队列 栈 栈的特点:后进先出,先进后出 数据进入栈模型的过程称为:压/进栈 数据离开栈模型的过程称为:弹/出栈 队列 队列的特点:先进先出,后进后出 数据从后端进入队列的过程称为: 入队列 数据从前端离开队列的过…

iptables学习

iptables不算是一个真正的防火墙,它是一个配置Linux内核防火墙的命令行工具。将用户的安全设置同步到对应的安全框架–Netfilter。netfilter位于内核空间,iptables位于用户空间。 iptables用于ipv4,ip6tables用于IPv6。 netfilter/ptables 一…

python tkinter 的使用 — 桌面应用程序开发

前言 嗨喽,大家好呀~这里是爱看美女的茜茜呐 又到了学Python时刻~ Tkinter模块(“Tk 接口”)是Python的标准Tk GUI工具包的接口. Tk和Tkinter可以在大多数的Unix平台下使用,同样可以应用在Windows和Macintosh系统里. Tk8.0的后续版本可以通过ttk实现本地窗口风格…

新电脑Mac安装前端环境,未完待续~

电脑:MacBook Pro (15-inch, 2017) 版本接近可以用迁移助理 太久远就只能新电脑环境重装了, 微信小程序,支付宝小程序,安卓,IOS 无非这几种 以下就是一名前端小程序开发人员环境配置步骤 仅供参考 新电脑安装 1.下载常…

【iOS】UICollectionView的基本使用

UICollectionView是与UITableView相似的控件,不过它的布局更加自由。 与UITableView的不同 tableViewcollectionView初始化需要指定布局style。需要指定一个布局类。子视图布局一行代表一个cell,布局只需要考虑行高。无视行列限制,一个item…

如何在 WSL 下实现 NGINX 反向代理

WSL 是 Windows 自带的 Linux 子系统。它比传统的虚机启动更快,占用系统资源更少,非常利于我们开发基于 Linux 系统的各种应用。本文基于 Ubuntu 20 介绍如何使用 NGINX 实现反向代理功能。 什么是反向代理? 反向代理是一个可以把系统请求分…

[网络] TCP协议是什么?套接字Socket是什么?它们是什么关系?

文章目录前言TCP协议是什么?IP协议网络设备才有“门牌号”(IP地址)网卡、网卡驱动与操作系统的关系操作系统进程与TCP协议操作系统进程和Socket套接字用户进程和Socket套接字用户进程如何消费Socket套接字文件里的数据?TCP协议与S…

呼吸系统药物--平喘药

急性哮喘和慢性哮喘 支气管哮喘属于慢性病。 急性哮喘指支气管哮喘的急性发作,一般在凌晨4点~7点间发作,伴有咳嗽、咳痰、胸闷、气喘和哮鸣音。(用短效、能快速起效的药物治疗,沙丁胺醇喷雾剂(β2受体激动药&#xf…

学习JavaScript进阶

JavaScript进阶 循环语句 for循环 // 类似python中的for i in range(20)for(let i0; i<20; i){console.log(i) }while循环 const MAX_TIMES 20; let cur 0 while (cur < MAX_TIMES){cur;console.log(cur) }do while do {cur ;console.log(cur); }while (cur < MAX_…

【前端开发】CSS BEM命名规范

目录1、BEM2、实战BlockElementModifier3、总结1、BEM BEM其实是块&#xff08;block&#xff09;、元素&#xff08;element&#xff09;、修饰符&#xff08;modifier&#xff09;的缩写&#xff0c;利用不同的区块&#xff0c;功能以及样式来给元素命名。 通过bem规范来命名…

2. Composition API

Composition API 1.Composition API 接下来我们来介绍一下Vue3中新增的Composition API如何使用。注意Composition API仅仅是Vue3中新增的API&#xff0c;我们依然可以使用Options API。先来实现一下之前演示的获取鼠标位置的案例。做这个案例之前&#xff0c;需要先介绍一下…

Java项目:洗浴中心管理系统(java+SSM+JSP+jQuery+javascript+Mysql)

源码获取&#xff1a;俺的博客首页 "资源" 里下载&#xff01; 项目介绍 本项目分为前后台&#xff0c;包含普通用户与管理员两种角色&#xff1b; 管理员角色包含以下功能&#xff1a; 管理员登录,管理员信息管理,查看用户信息,新闻公告管理,产品类型管理,级别信息…

物联网开发笔记(53)- 使用Micropython开发ESP32开发板之蓝牙BLE通信

一、目的 这一节我们学习如何使用我们的ESP32开发板通过蓝牙和手机进行通信。 二、环境 ESP32 手机&#xff08;笔者用的小米10&#xff09; Thonny IDE 三、蓝牙介绍 这个知识大家自行百度吧&#xff0c;这里不再赘述什么是蓝牙和蓝牙的历史&#xff0c;以及相关的专业知识…

JS(第二十六)ES6语法中function

JS(第九课)深刻的去理解函数._星辰镜的博客-CSDN博客 1 Function函数的定义 方式1 函数声明方式 function 关键字 (命名函数) function fn(){} 方式2 函数表达式(匿名函数) var fn function(){} 方式3 new Function() var f new Function(a, b, console.log(a b)); f(1, …

Tomcat服务器和Web开发介绍

Tomcat服务器和Web开发介绍 一、开启Web开发 什么是web开发 WEB&#xff0c;即网页的意思&#xff0c;它用于表示Internet主机上供外界访问的资源。 Internet上供外界访问的Web资源分为&#xff1a; 静态web资源&#xff08;如html 页面&#xff09;&#xff1a;指web页面中供…

数据挖掘期末复习

考点目录 文章目录考点目录复习准备1. 数据挖掘的标准流程2. 数据挖掘的主要功能3. 数据探索的主要内容及其意义数据质量分析1.异常值分析2.缺失值分析数据特征分析1.分布分析6.相关性分析4. 数据预处理的作用及其主要任务5. 常见的噪声处理方法6.常用的缺失值处理方法7. 常用的…

Map和Set的详解

Map和Set是一种专门用来搜素的容器或者数据结构&#xff0c;其搜索的效率与其具体的实例化子类有关&#xff0c;是一种适合动态查找的集合容器 一、模型 一般把搜索的数据称为关键字&#xff08;Key&#xff09;&#xff0c;和关键字对应的称为值&#xff08;Value&#xff09;…