わたしたちの考える「テスト」｜株式会社教育測定研究所（JIEM）

テストを実施するからにはそこに目的が存在します。ところが、目的通りに測るということは、実は簡単ではありません。

その人の能力の「到達度合」を測るのか、「学習の進捗度合」を測るのか、受験者集団の中の「相対的な個人の位置づけ」をみるのか、あるいは受験者集団の「傾向」を分析するのか、テストの目的は多数考えられます。そして、その目的に応じて正しく設計されなければ、正しく測定できないのです。

わたしたちJIEMは、人の能力を正しく測定することを真剣に考え、そのためのテスト技術を研究開発し、実践しています。

おなじみの偏差値は、誤用されることがままあります。それは「受験者集団の影響を受ける」ということ。レベルの高い受験者集団の中で出た“40”という偏差値のほうが、レベルの低い受験者集団の中で出た“70”よりもよい場合もあります。

偏差値だけでは、必ずしも能力を正しくあらわせているとは言えないのです。

母集団の影響以外に、テストの難易度についても考えなければなりません。「今年は難易度が高く、合格者が少なかった」とか「今回は比較的やさしい問題が多く、合格率が高かった」といったように、合格ラインの決まった試験で回ごとに難易度が変わってしまうのは、非常におかしなことです。これでは、年によって合格のレベルが違う、といったことにもなりかねません。

テストにおける「信頼性」とは、「同一人が同一の条件で同一のテストを何回も受けたときに、いつも同じような結果となるように、テストから得られる結果が極力安定していること」です。

また、いくら信頼性の高いテストでも、それが、本来測定したい能力とは違う能力を測るものになってしまっていたなら意味がありません。「テストそのものが測ろうとしている能力を正しく測定できること」、それがテストの「妥当性」と呼ばれるものです。

テスト構築時には、母集団やテスト項目に依存せず何度受験しても同じように測定できるか、それが「測ろうとしている能力をきちんと測っているのか」といったことを、考える必要があるのです。

毎回テスト問題が異なるのは、その問題だけを勉強すれば回答できるようになってしまうことを防ぐためです。しかし異なる問題なのに、点数で表現されるのは不思議ではありませんか。

実は異なるテスト問題であっても、その影響を排除していつでも正しい値を測定できる「基準（ものさし）」を構築することができます。それが「テストの等化（Test Equating）」です。

古典的なテスト理論（素点方式、偏差値方式）ではどうしても受験者集団やテスト難易度の影響を抜け出せません。なぜなら、テストの「点数」が、「受験者の能力」と「テストの難易度」の両方の要素を含んでしまっているからです。項目応答理論では、テスト難易度と受験者能力を別々に把握し、ある難易度の問題に対し、ある能力をもった回答者の回答確率はX％である、ということを根拠に、確率論的に受験者の能力を求めます。

これは、非常に高度な統計処理が求められるため日本の教育現場ではまだまだ使用例が少ないですが、海外ではより正しい測定方法として、TOEFL®をはじめ広く採用されています。

ある質問に対し、ある能力の人が、どれくらいの確率で正答するか、という「基準」が構築できれば、ある質問に答えられなかったときに、ではもう少し難易度を下げた質問をぶつけてみよう、とか、ある質問に答えられたならもう少しレベルの高い質問をぶつけてみよう、といった視力検査でおなじみの臨機応変な出題が可能になります。

コンピュータを用いて受験者の回答に応じ次の質問を適宜変えていく、コンピュータ適応型テスト（CAT）によって、短時間で受験者の能力が高い精度で測定できます。

紙のテストをコンピュータ化したもの（素点方式、偏差値方式）が第1世代。上記の項目応答理論に基づく適応型テストが第2世代。それらに続く第3世代として、現在、英検Jr.など「連続測定型」と呼ばれるテストの研究が進んでいます。それは、従来のテストが測定にとどまるものであったのに対し、学習支援にまで踏み込んでいることが特徴です。

「完全習得地図（mastery map）」と呼ばれる、ある単元において習得すべき事項が系統立てて記述されているマップに基づき、テストをしながら、未習得な部分が検知された部分の追試や独習を行うことで、測定がそのまま効率的な学習につながることを目指しています。

JIEMでは、CASEC-GTSやCASEC-WTなどにおいて、第4世代のAIの技術開発も現在行っています。

詳しくはこちら

テストと言えば、受験戦争、学歴競争に代表される「選別」「相対評価」の道具である時代がありました。もちろん選別や合否判定のためのテストも有用ではあるのですが、より「個別能力育成」や「授業改善」のためのテストが求められてきています。

受験者ひとりひとりが成長するために、実力を正しく把握するためのメジャーとしてのテスト。

テストで悪い点を取ることは悪いことや恥ずかしいことではなく、自分の弱点を正確に把握するためのポジティブなアクションなのだとみなさんが思う日も近いかもしれません。

詳しくはこちら