MSDNの英語 MSDNを情報源として利用できる語彙水準と学習戦略
2014-03-24 更新ネイティブ並みの語彙力を目指さず、MSDNを情報源として利用することに目標を絞った場合、学習リソースは圧縮できるのではないかと考えました。普段は日本語でコミュニケーションし、必要に応じてMSDNの英文情報を利用するのに必要な語彙学習について説明します。
おことわり
MSDNの情報を読むのに必要な条件
情報提供を目的しているMSDNの技術文書は、簡潔な構造で明快な文章で、定型的な表現を繰り返し使って構成してます。 文法の面では、日本の中学校で習う英語の文法事項が分かれば理解できる内容です。
読解に必要なのは、内容に対する前提知識とアプリケーション開発の分野の専門用語、そして全体を構成する語彙です。 内容に対する前提知識は、ソースコードの理解と開発ツールなどの製品の習熟によって得られます。 英語の理解力とは別の知識ですが理解力を左右する重要な要素です。実際の開発経験の中で高めてください。
そうすると、英語学習でできることは語彙に絞られます。MSDNを読むのに語彙はどれくらい必要なのでしょうか。
MSDNの語彙水準を調べる
一つの例として、MSDN Magazine最新号(May 2013 Volume 28 Number 5)に収録の記事Parse JSON Strings in Windows Runtime Componentsの使用語彙について調べてみましょう。
VP(Vocabulary Profile)という分析方法があります。コーパス(Corpus)から求めたある言語全体の語彙頻度表に、ある文章の中の語彙をあてはめた時の分布が得られます。
一般的によく使われている語彙をたくさん使っている文章なのか、まれにしか使わない単語をたくさん使っている文章なのか知ることができます。
ケベック大学モントリオール校(UQAM)のTom Cobb教授が公開しているWeb VP / BNC-20 v 3.2を使います。 このプログラムは、英語の頻出2万語(ワードファミリー;Word Family)の使用分布を調べてくれます。頻出語句は、書き言葉と話し言葉の約1億語を収録するイギリス英語のコーパス、BNC(British National Corpus)の頻度上位2万語を使用しています。英語のコーパスとしては、代表的なものです。Oxford University PressやLongmanはBNCのプロジェクトに資金提供し、それぞれの辞書にこのコーパスを利用しています。
様々な研究結果がありますが、英語の成人ネイティブスピーカーの語彙数は2−3万ワードファミリーと言われています。
調査結果は1000ワードファミリー毎に20分割して使用語彙数を表示します。最初の1000語つまり1-1000番目までの範囲をK1を表現します。以後K2(1001-2000)というように表示し、最後はK20(19001-20000)になります。
Freq. Level | Coverage (tokens)% | Cum% |
---|---|---|
K1 Words (1000): | 81.76% (1) | 81.76% |
K2 Words (2000): | 10.84% (2) | 92.60% (3) |
K3 Words (3000): | 2.05% | 94.65% |
K4 Words (4000): | 1.77% | 96.42% (4) |
K5 Words (5000): | 0.61% | 97.03% |
K6 Words (6000): | 0.61% | 97.64% |
K7 Words (7000): | 0.19% | 97.83% |
K8 Words (8000): | 0.17% | 98.00% (5) |
K9-K20 (9000-20000) | 1.22% | 99.22% |
Off-List: | 0.78% | 100.00% |
Total | 100% | 100.00% |
表1では次のようなことを示しています。
- BNCの上位1000番目に含まれている単語(K1)がこの文章内の単語の81.76% (1)占めている。
- 次の1000語つまり1001−2000番目に含まれている単語(K2)は10.84% (2)だった。
- 上位2000語で92.60% (3)だった。
- 上位4000語(K1-K4)で96.42% (4)を占める。頻出4000語知っていればこの文書の95%は既知の単語で埋まる。
- 上位8000語(K1-K8)で98.00% (5)を占める。頻出8000語知っていればこの文書の98%は既知の単語で埋まる。
Cobb教授は、この分析で被覆率95%に達するBNCの頻度帯をその文章の語彙水準を示す指標として使っています。 このMSDN Magazine記事はK4=96.42%でK4で95%を超えるので、4000ワードファミリーの語彙水準ということになります。
BNC頻出上位4000語を知っていれば、この文書の95%の単語が分かるということです。
ここで注意してほしいのは、この文書の使用語彙3600ワードのうち3420ワードカバーするという意味です。高頻度な単語は繰り返し出てきます。800種類の異なる単語が含まれていますがその95%という訳ではないです。
MSDN Magazineの語彙水準の比較
Web VP / BNCのWhat texts can I read if I know this many words?に典型的な分析結果が紹介されています。 このデータを参考にして、VOA(Voice of America) Special English、The Economist、National Geographic Magazineなどの雑誌、日本の高校や大学で副読本として使う文学作品の分析結果をまとめて表にしました。
Title | GSL+AWL | カバー95% | カバー98% |
---|---|---|---|
VOA Special English 放送トランススクリプト(1500語限定) Obama Administration on the Defensive | 94.88% | K4 | K4 |
MSDN Magazine Parse JSON Strings in Windows Runtime Components | 95.01% | K4 | K8 |
Daily Express How having a dog can change your life for the better | 90.45% | K5 | K11 |
The Economist How to save Obama’s second term | 87.98% | K5 | K9 |
ジョージオーウェル 動物農場 | 89.65% | K5 | K11 |
ラム シェークスピア物語 ロミオとジュリエット | 90.44% | K6 | K11 |
National Geographic Mahogany’s Last Stand | 85.62% | K7 | K12 |
使用語彙の95%カバーで見れば、MSDN Magazineの記事は、Voice of America の特別放送トランスクリプトと同程度で、Daily ExpressやThe Economistよりやや劣る程度です。National Geographic には遠く及びません。
使用語彙の98%カバーで見れば、8000ワードファミリーに抑えられていますが、比較対象にした雑誌や文学作品が1万ワードファミリーを超える語彙量を必要とします。
VOA Special Englishは非ネイティブ向けの特別放送ですから、MSDN Magazineはネイティブ向けとしては限界ぎりぎりの語彙水準で執筆されていると言えます。 そのような制約の中で、常に高品質な記事を提供してくれる執筆者の方、編集者の方に対して改めて畏敬の念を感じずにはいられません。
MSDNを読むための語彙
色々な研究発表が出ていますが日本の高校生の語彙力が3000−4000ワードファミリーだそうです。 高校時代の英語の実力を維持している方は既に、MSDN Magazineの使用語彙の95%カバーする語彙力を持っています。
使用語彙の95%カバーとは、MSDN Magazineの現在のレイアウトでは、2行に一語程度未知語が出てくる計算です。 3000ワードの記事であれば、150個出てきます。さすがにポップアップ辞書で引きながら読んだとしても辛いです。 読本が目的の授業で教科書を読むのであれば支障ないでしょうが、情報取得を目的とした読書としては現実的な語彙力ではありません
何の支援もなしに未知語の類推して読むのには、使用語彙の98%が必要との研究結果が出ています。 先ほどの分析結果を見ると、MSDN Magazineの場合は8000ワードファミリー必要になります。
常時英語でコニュンケーションする生活を送っている方は、通常の英語学習方法で8000語以上語彙量を上げることが目標でしょう。実際には8000語では足りなくて、ネイティブ並みの2万を目標にしているのではないかと思います。
日本で暮らして、普段は日本語でコミュニケーションし、必要な時だけ英文を読む、3000語レベルの典型的な人ができることを考えました。長期的には、8000語身につけるとして、短期的に今すぐ何ができるかと。 ソフトウェア開発の技術文書が読むことだけに集中して、学習リソースを選択できないかと考えました。
先ほどのWeb VPプログラムの元になった、Rangeプログラムの作者Nation教授は著書 "Learning Vocabulary in Another Language (2001)" の中で、英文に使われる語彙を高頻出な語彙(2000ワードファミリーレベル)、学術的な語彙(AWL)、専門用語、低頻出な語彙に4分類し、それぞれの語彙グループの学習戦略を説明しています。
最初に取り上げたMSDN Magazineの記事"Parse JSON Strings in Windows Runtime Components"の使用語彙をこの分類に基づいて図示にすると次のようになります。
高頻度な語彙とは、話し言葉や書き言葉の80−90%を構成する高い頻度で使われる語彙で、コーパス分析から頻度表として求められます。英語の場合、代表的な頻出語彙集として2000ワードファミリーの大きさを持つGSL(General Service List)があります。
学術的な語彙とは、第2言語としての英語学習者が大学の学習現場で、高頻度に使用する語彙のことです。代表的なものは AWL(Academic Word List)です。AWLは、GSLとの重複を避け、特定の学問分野に偏らないように配慮しています。OxfordやLongmanの最新の学習英英辞典にもAWLの情報が盛り込まれています。
専門用語とは、上の2つの語彙から漏れた、語彙のうち特定の専門分野で頻出する語彙のことです。例えば、MSDNの文書に特異的に出現する語彙がこれにあたります。
低頻度な語彙とは、上記以外の語彙のことです。
Nation教授は、前述の著書の中で高頻出な語彙と学術的な語彙を取得した上で、専門用語の学習を勧めています。
英語の一般的な頻度分布に従えば、98%カバーに8000語必要です。 この中からMSDNに頻出する専門用語を抽出すれば、もっと少ない語彙量で98%が実現できないだろうか。
調べてみました。
コーパス分析
データの入手しやすさと使用語彙の代表性を考慮して、MSDN Magazineのバックナンバーを対象にしました。 MSDN Magazine(2009.8-2013.3)の45冊分のPDFファイルです。
このデータから CasualConcというコンコーダンサーソフトを使って、コーパスを作成し、使用語彙の頻度表を作成しました。
順位 | 単語 | 出現回数 | 出現ファイル | 被覆比率 | 累積比率 |
---|---|---|---|---|---|
1 | the | 129652 | 45 | 5.98% | 5.98% |
2 | to | 58786 | 45 | 2.71% | 8.69% |
3 | a | 57158 | 45 | 2.63% | 11.32% |
5 | be | 52674 | 45 | 2.43% | 13.75% |
6 | and | 44396 | 45 | 2.05% | 15.80% |
7 | of | 38546 | 45 | 1.78% | 17.58% |
8 | in | 34933 | 45 | 1.61% | 19.19% |
9 | for | 23250 | 45 | 1.07% | 20.26% |
10 | that | 22266 | 45 | 1.03% | 21.09% |
3180 | nullable | 25 | 13 | >>0.00% | 98.00% |
4258 | wealth | 12 | 9 | >>0.00% | 99.00% |
ある単語がコーパスのテキストデータの中に何回出現し、テキスト全体の何パーセントを占めているかというデータを得ます。 このデータを一番出現しているデータから降順にソートし、個々の単語の被覆率を足し合わせて98%になる順位を求めたところ、3182番目になり、出現回数25回でした。こうして98%被覆するMSDN頻出語句を得ました。
この中には、前の項目で説明した、高頻度な語彙(GSL)と学術的な語彙(AWL)が含まれていますので取り除きました。さらに固有名詞も除きました。
最後に残ったのが723語の語彙表です。この語彙表のことを仮にMSDN Word listと呼びます。
詳しい作成手順は、Windows開発者の必修語彙をAnki学習する方法で説明しましたので興味のある方はお読みください。Anki単語帳にしたMSDN Word listもダウンロードできます。
この方法以外にも、Cobb教授がHow and why to make a technical (domain-specific) vocabulary listという記事で専門用語集の作り方を説明していますので紹介します。
作成データの検証
本当にこの語彙表、MSDN word listは有効なのか、確認して見ました。 対象は、コーパスには含んでいないMSDN Magazineの最新号とMSDNライブラリのWindows 8のホワイトペーパーです。
Cobb教授が公開しているVocabProfilers Classic VP English v.3を使い、それぞれの記事の使用語彙に対して、高頻度な語句(GSL)と学術的な語句(AWL)に、MSDN word listを追加した場合どれだけカバーできるか調べてみました。
題名 | GSL+AWL | MSDN word list | 合計 |
---|---|---|---|
Parse JSON Strings in Windows Runtime Components | 95.01% | 3.94% | 98.95% |
Social Authentication in ASP.NET MVC 4 | 93.00% | 5.87% | 98.87% |
Packaging and assembly binding in the .NET Framework for Windows Store apps | 92.44% | 5.83% | 98.27% |
Windows Store apps using JavaScript versus traditional web apps | 89.80% | 8.47% | 98.27% |
一般的な頻出語彙(GSL+AWL)を理解している場合、使用語彙の10%程度が未知の語句を含むテキストが、このMSDN word listを加えることで、2%にまで圧縮できる結果を得ました。前掲した図1は、"Parse JSON Strings in Windows Runtime Components"について行った分析結果の数字を反映しています。
MSDNを情報源として常時利用するための学習戦略
まず自分の語彙量を測定します。 受験者の分析データが豊富なlink:Test Your VocabやWeb VPと同じサイトが提供しているFrequency Based Vocabulary Testsなどのツールが利用できます。両方のツールともワードファミリーレベルの語彙量を測定してくれます。
8000語以上の場合
MSDNの記事の98%をカバーする語彙を持っています。未知の語彙も類推によって理解できる場合が多いと思いますので、たくさん読んで未知の言葉に出会い、必要なら覚えてしまいましょう。 Nation教授は、基本語彙を習得した後、使用言語が98%既知のする文章を集中的に読む学習方法を勧めています。 もし難しいと感じた場合は、その記事は日本語で読んだ場合でも難しいはずです。ガッカリしないでください。気分転換に別の記事を読みましょう。
3000-8000語の場合
MSDN Word Listを暗記しましょう。暗記学習用ソフトAnki用の単語帳を用意しました。Windows開発者の必修語彙をAnki学習する方法からダウンロードできます。
暗記と並行して、始めのうちは通読するのは辛いかもしれませんがMSDN Magazineには常時触れましょう。関心のある記事の一部で構わないので常時読む習慣をつけましょう。 文中のソースコードもよく読みましょう。ソースコードを説明している文章がたくさん出てきます。 ソースコードと英語のバイリンガル表記だと思ってください。
3000語未満の場合
基本語彙の学習をまずしましょう。 中学高校である程度の語彙は身についていると思いますので、頻出2000語とAWLのリストを確認して、未知のものだけ取り出して学習しましょう。 頻出2000語のリストは、一般的な英語のコーパス分析によって得られたものなら何でも良いです。自分の持っている辞書の巻末のリストがあればそれをチェックしましょう。
身近に適切な資料がない方にはOxford Advanced Learner’s Dictionaryオンライン版の Oxford 3000をお勧めします。語義の中で重要なものを目印で示してくれます。単語の意味を覚えるのと同時に辞書の英文を読んで、読むことに慣れませしょう。AWLも見ることができます。
基本語彙を習得した後に MSDN Word Listを覚えましょう。 また基本語彙を覚えると90%以上の語彙は既知になりますので、自分の興味のあるMSDNの記事に常時触れる習慣をつけましょう。
MSDN Word Listを超えて
MSDN Word Listを学習し終わった後、できることを少しだけ考えてみました。
懸念事項の検討
MSDN Word Listはそれほど難しい語彙は含んでいません。一覧にしてご覧になった方はあまりに易しい内容で驚いたかもしれません。 MSDNは難しいという先入観は捨てましょう。難しい感じるのは内容が難しいのであって、英語が難しいのではありません。たとえ同じ内容が日本語で書いてあっても分かりにくいはずです。
英語学習に詳しい人なら、一般的な英語には句動詞を多用していて、個々の語彙が分かってもそれでは不十分なのでは感じるかもしれません。
コーパスから単語の共起頻度の分析をしてみました。動詞+前置詞の組み合わせは出てきますが、元の動詞の意味が代わってしまうような句動詞は、MSDN Magazineではほとんど見当たらないです。 もちろん、動詞と名詞や前置詞の組み合わせの頻出コロケーションというのは存在と思いますが、個々の単語の意味を知っていれば理解できるものばかりです。
更に語彙を増やすなら
同じ手法で更に被覆率を1%上げるのには、つまり99%にするには基本語彙と固有名詞を除くと500語追加すると実現できます。
自分の専門分野、例えばデータベースアクセス、ユーザーインターフェースなど、狭い分野の文書を集めてコーパスを作り、頻出の専門用語表作り出しても良いでしょう。
それぞれの方法は、Windows開発者の必修語彙をAnki学習する方法で紹介しているコーパス作成から頻度表を作る方法も参考にしてみてください。
MSDN Word Listのフォローアップ企画として、MSDN Magazineの最新の記事から、MSDN Word Listの範囲で実際どれだけカバーできて、どんなものが未知語になるか紹介する連載記事: MSDNの英語を始めました。
内容理解に努める
アプリケーション開発の経験や知識の深さが、MSDN文書の理解を高めます。実務経験なしには理解は向上しません。たとえネイティブ並みの語彙量があっても、この分野の経験が全くなければ、MSDNの文書は全く理解できないでしょう。
ソフトウェア開発の経験を積むこと、ソースコードを読んで理解することも大切です。 卵が先か鶏が先かという話にもなりますが、MSDNのリソースに常に慣れ親しんで、サンプルコードや技術文書中のソースコード、その中にコメントなどに触れる経験を蓄積することも内容理解に繋がります。
おわりに
MSDNの情報がネイティブ並みの高い言語力、語彙力を必要としないことはお分かりいただけましたでしょうか。
日本で暮らして、日本語でコミュニケーションする人が、日本で言うところの「英語の達人」を目指さなくても、MSDNを自分の情報源として活用する方法の一例を紹介しました。
皆さんのお持ちになっている、ソフトウェア開発の知識は、英文の内容理解に力強い支援をしてくれます。自信を持ってください。
最低でも人の数だけソフトウェアは存在する意義があるとわたしは思っています。ひとりひとりの生活からしか生まれないソフトウェアがあるはずです。
重要な情報源にもっと簡単に頻繁にアクセスできれば、世の中のソフトウェアはもっと豊かになるはずです。そして開発者のであることの喜びや使命感がもっと強くなるでしょう。
これからもソフトフェア開発を楽しんでください。
参考資料
インターネットで公開しているものと購入できる書籍のみ掲載しました。 ご自身の著作を公開してくれたCobb教授、Nation教授に感謝したいです。
Cobb, Tom. Chapter 2. Is There Room for an Academic Word List in French?
Cobb, Tom. Why & how to use frequency lists to learn words
Hwang, K. and Nation, I.S.P. (1995) Where would general service vocabulary stop and special purposes vocabulary begin? System 23, 1: 35-41.
Nation, P., & Waring, R. (1997). Vocabulary size, text coverage, and word lists. In Schmitt, N., & McCarthy, M. (Eds.) Vocabulary: Description, acquisition, pedagogy (pp. 6-19). New York: Cambridge University Press.
Nation, I.S.P. (2001), Learning Vocabulary in Another Language, Cambridge University Press, ISBN 0-521-80498-1
Nation, I.S.P. (2004) A study of the most frequent word families in the British National Corpus. In P. Bogaards and B. Laufer (eds.) Vocabulary in a Second Language: Selection, Acquisition and Testing Amsterdam: John Benjamins: 3-13.
Nation, I.S.P. How large a vocabulary is needed for reading and listening? Canadian Modern Language Review 63, 1 (2006): 59-82.