熟悉经济学人的朋友们可能会发现,在阅读经济学人时有一些词汇出现的频率会特别高,比如说要表达“下降,减少”的意思时,文章中不是用"decrease",而是经常用"plummet,shrink,plunge,slump",表达“上升,提高”时则喜欢用"skyrocket,leapfrog",当说明某事物前景美好时并不是用"promising",而是用"rosy,sanguine,cheerful"这些词,对于在考试中被用滥了的"famous",则有"celebrated,prominent,renowned,prestigious"这些词来代替。
此外,有部分我们常说的“生词难词”也在经济学人中频频亮相,比如"bonanza,plethora,nascent,raucous,schadenfreude"等,这些就是我们常常说的“高频词”。我刚开始阅读经济学人时常常碰到这些词,后来是通过一个一个生词查词典整理记忆后才逐渐解决了这个问题的。
我最近产生了一个想法:能不能把经济学人中的这些高频词都统计整理出来做成一份高频词汇表?对于初学者来说,如果能够先掌握这些高频词汇,在阅读经济学人时就会轻松很多,而不用像我当时那样一个一个去查词典。
我想了想,发现这是可行的。统计高频词的思路并不复杂:只要找到足够数量的经济学人文章(假设是篇),然后对这篇文章中的所有单词出现的次数进行统计,将统计的单词按照词频高低顺序列出来,再排除掉最常见的几千个单词(比如"the,a,on,of,house,water"这类词)以及出现次数极少的单词,剩下的就是我们要找的高频词了。我手头有从到的两年多一共90多期经济学人,样本数量足够代表杂志的总体用词分布了(经济学人的文章虽然没有署名,但其作者数量并不多,且每个人的写作风格,用词风格也比较固定,因此这也为统计高频词提供了可能)。
接下来是实际操作环节,我把这90多期杂志上的文章全部汇总起来做成一个txt文档,统计了一下单词数,嗯,单词总数超过了万。接下来需要对这万个单词进行统计。对于统计的方法,可以自己写代码或者使用现成的统计软件。
我写了一段代码,放到新浪的云服务器上跑了一下,得到了最终的统计结果
多万词的文本中不重复的单词数一共有12万6千个。接下来我们要对这12万单词进行筛选,先去掉最简单的一批单词(右边数字表示单词在文本中出现的次数):
再去掉出现频率极低的另一批单词:
剩下的这批单词就是我们高频词所在的区间了,再对这部分词进行筛选,我参考了柯林斯词典给出的词频统计表,去除了常见的前词以及部分地名,人名等专业名词,最终得到了这一份高频词表:
这份高频词表一共有个单词,涵盖了绝大部分经济学人文章中的“看起来有点难但又经常出现的词”,如果你能掌握这份词汇表的话,相信读起经济学人来会轻松不少。为了方便大家查看中文解释,我从有道词典上抓取了这多个单词对应的中文解释,一并放在词汇表里面,文章末尾会附上这份高频词表的下载地址(因为目前市面上好用的词典api太少了,只能退而求其次用有道,凑合着看看还是可以的。如果有做web后端开发的程序员朋友们看到这篇文章可以联系我)。
怎么使用这份高频词表?
给出这份高频词表的目的并不是叫你去死记硬背,而是可以采取更加灵活的方式来掌握这些它们。你可以通读这份词汇表,然后选择不会的生词进行重点突破,比如查英英词典记例句,这里推荐一个学单词的网站: