日常日本語でコミュニケーションするWordPress開発者のための必修語句をAnki単語帳にしました。英語の基本語彙にこの頻出語句を加えれば、WordPress Codexの使用語句の98%が分かるようになります。

AnkiとはDamien Elmesが開発している分散学習システム(SRS; Spaced Repetition learning Systems)です。

おことわり

この記事は、楽しむことを目的とした内容で、学術的な厳密性を考慮していません。教育学的観点からの配慮もしていません。

WordPress Codex

WordPress Codexはブログシステムの正式な情報リポジトリで、WordPressのカスタマイズや機能拡張に必須の情報を提供してくれます。 日本語版も存在し、基本的な機能についてはほぼ網羅しています。 情報提供を目的としている文書なので、簡潔な文体で、ソースコードが多数掲載していますので、英語の内容理解の助けになります。

一部翻訳済みのもの、原文が更新されたものについても、日本語版が利用した原文と、最新版原文を比較して見ることができ、差分だけを読むことができる便利な作りになっています。

利用頻度の高い関数リファレンスは、WordPressのバージョンアップと同時に更新が行われますので、原典との差分も大きいです。その差分の箇所に重要な情報が含まれている場合も多いです。

大半の情報は、日本語化された部分を手がかりに、英文を読み進めることができる様になっています。

日本に住んで、日常的に日本語でコミュニケーションしているWordPress開発者が、WordPress Codexを読むのに必要な最低限の語彙を身につければ、原典にもっと多くの人がアクセスでき、結果として日本語化の速度も進むであろうと考えました。

ネイティブ並みの語彙力を目指して膨大なリソースを掛けることなく、開発者としての業務をこなしながら実行可能な語彙学習を提案できれば、多くの人がWordPress Codexを読むための英語学習に取り組むの動機付けができます。

データの規模や扱っている技術分野の広さに違いはありますが、同じような性質の情報を収録するマイクロソフトの開発情報リポジトリのMSDNが存在します。MSDNの読解に特化した頻出語彙の抽出を以前の記事Windows開発者の必修語彙をAnki学習する方法で行いました。同じ方法をWordPress Codexに適用して、頻出語句の抽出を試みました。

WordPress Codexのデータ取得

WordPress Codexは、MediaWikiを利用しています。MediaWikiからのデータの取得方法は、StackExchangeのLocal copy of WordPress Codex?という記事を参考にしました。

Export pagesからXMLデータを取得しました。

  1. Codex右上パネルの表示しているカテゴリ(WordPress Lessons、Getting Started、Working with WordPress、Design and Layout、Advanced Topics、Troubleshooting、Developer Docs、About WordPress)を[Add pages from category]を入力し[Add]ボタンを押します。
  2. テキストボックスに表示したページ一覧を編集して、英語以外のページなど不要なページを除きます。
  3. [Save as file]をチェックして[Save]を押します。

コーパス分析

入手したデータを CasualConcというコンコーダンサーソフトを使って、コーパスを作成し、使用語彙の頻度表を作成しました。環境設定のファイルタイプでXMLを指定して直接読み込みました。

表 1. 語彙頻度表 上位10番目まで
順位 単語 出現回数 被覆比率 累積比率
1 the 41405 3.41% 5.2%
2 to 25582 2.10% 8.4%
3 be 25074 2.06% 11.6%
4 and 13815 1.14% 13.3%
5 of 12604 1.04% 14.9%
6 wordpress 12197 1.00% 16.5%
7 id 12007 0.99% 18.0%
8 in 11565 0.95% 19.4%
9 you 10314 0.85% 20.7%
10 page 9310 0.77% 21.9%
1918 appliance 16 >>0.00% 98.0%

ある単語がコーパスのテキストデータの中に何回出現し、テキスト全体の何パーセントを占めているかというデータを得ます。 このデータを一番出現しているデータから降順にソートし、個々の単語の被覆率を足し合わせて98%になる順位を求めたところ、1918番目になり、出現回数16回でした。こうして98%被覆するWordPress Codexの頻出語句を得ました。

ここから、一般的な英語に頻出する語句(BNC;British National Corpus)頻出2000語と大学の教科書などに高い頻度で使われている学術的な語彙(AWL)570語を取り除き、WordPress Codexに特有に存在する語彙に絞りました。さらに固有名詞も除きました。

最後に残ったのが446語の語彙表です。この語彙表のことを仮にWordPress Codex Word listと呼びます。図1では専門用語として示しました。

WordPress Codexコーパスの内訳
図 1. WordPress Codexコーパスの内訳

詳しい作成手順は、Windows開発者の必修語彙をAnki学習する方法を参考にしてください。MediaWikiからXMLデータを取り出して後のCasualConcでの処理を具体的に紹介しています。

作成データの検証

本当にこの語彙表、WordPress Codex Word listは有効なのか、確認して見ました。 WordPress Codexのページを選んで分析しました。 どのページが代表性を持っているか判断できなかったため、全く恣意的に2ページ選びました。

ケベック大学モントリオール校(UQAM)のTom Cobb教授が公開しているVocabProfilers Classic VP English v.3を使い、それぞれの記事の使用語彙に対して、高頻度な語句(GSL)と学術的な語句(AWL)に、WordPress Codex word listを追加した場合どれだけカバーできるか調べてみました。

表 2. 頻出語彙集 WordPress Codex Word listの効果
題名 GSL+AWL WordPress Codex word list 合計
Post Types 92.44% 6.39% 98.83%
Theme Development 89.45% 8.63% 98.08%

一般的な頻出語彙(GSL+AWL)を理解している場合、使用語彙の10%程度が未知の語句を含むテキストが、この WordPress Codex word listを加えることで、2%にまで圧縮できる結果を得ました。なお、この分析には固有名詞は除外して計算しています。 この語彙集がなんとか使えそうな目途が立ちました。

Anki単語帳の作成

抽出した単語データからAnki単語帳にするCSVファイルを作ります。

更に、使用頻度が高いものから優先して学習できるように頻度別にタグを付けました。95%被覆が可能な最高頻度のもの(WPCX1, 205個 )と、それ以外の98%被覆が可能な高頻度なもの(WPCX2, 241個)に二分してタグを振りました。

Ankiに読み込むCSVファイルは、頻度順に並べました。既定では出現頻度の高いものから出題するようにしました。

実際のAnkiへの読み込み手順はAnkiにデータをまとめて取り込むで紹介していますので、詳しく知りたい方はこちらをご覧ください。

表 3. 単語帳の内訳
タグ名 単語数 内容
WPCX1 205 頻出2000語と学術語彙(AWL)との組み合わせで使用語彙の95%までカバーできる単語
WPCX2 241 頻出2000語と学術語彙(AWL)との組み合わせで使用語彙の98%までカバーできる単語

カードの編集

解答面には、オンライン英和和英辞典weblio、オンライン英英辞典Vocabulary.comWordPress.org Searchへのリンクを追加しました。

また、解答面ではGoogleTTSを使用した読み上げ機能を設定しました。実際に動作させるにはアドオンAwesomeTTSのインストールと設定が必要です。

カードの具体的な編集方法とAwesomeTTSの設定方法はAnkiのカード表示を編集するをご覧ください。

アドオンのインストール方法については、Ankiの共有リソースを使ってみるで説明しています。

完成品のダウンロード

この記事で作成した単語帳は、Anki単語帳パッケージ wpcxwl.apkgをダウンロードしてお使いいただけます。

Anki 単語帳パッケージ wpcxwl.apkg

この単語帳を使うにはAnkiのインストールが必要です。Ankiサイトから最新版をダウンロードできます。Ankiは、Windows、Mac、Linux/BSD、iOS、Androidに対応しています。その他のデバイスからはAnkiWebを通じて利用可能です。詳しくはAnkiサイトをご覧ください。

完成品画面
図 2. 完成品画面

この単語帳は2000ワードファミリーレベルの頻出語彙とAWLとの組み合わせて使用することを前提にしています。 この単語帳の学習の前に、あるいは並行して基本語彙を確認することをお勧めします。

頻出語彙2000語については、BNC(British National Corpus)の頻出2000語や英英辞典の定義語集Oxford 3000、Longman Defining Vocabulary、GSL(General Service List)などの入手しやすいものをお使いください。

WordPress Codexを情報源として常時利用するための学習戦略

学習戦略については、MSDNの英語 MSDNを情報源として利用できる語彙水準と学習戦略の中で、MSDNについて解説した方法と変わりません。MSDNをWordPress Codexと読み替えてお使いください。

おわりに

WordPressが2003年5月27日にリリースしてから丁度10年が過ぎました。 WordPressプロジェクトに関わる全ての方々の努力で、素晴らしい成果を上げました。

10年前はとても一人の力では実現できないことをWordPressは可能にしてくれました。 コードに加えて、リファレンスやチュートリアルまで自由に参照できるようになったおかげで、たくさんのことを学びました。 また、世界中の様々な開発者の皆さんの技に触れることができるようになって、楽しみが増えました。

そこで、WordPressコミュニティの皆様に対して感謝を込めまして、 日本で暮らして、日本語でコミュニケーションする人が、日本で言うところの「英語の達人」を目指さなくても、WordPress Codexを自分の情報源として活用する方法の一例を紹介しました。