テストの品質を維持向上し続ける
IIBC調査研究室
2023年3月号
本連載では、TOEIC Programを開発するETSが、テスト品質の維持向上のために行っている取り組みについて、お伝えしていきます。ここまで、テスト品質を構成する3大要素のうち、「妥当性」について取り上げてきましたが、今回は、「信頼性」を見ていきましょう。
- 妥当性:測るべきことを、測れている
- 信頼性:テスト結果に一貫性がある
- 公平性:誰にでも公平なテストである
テストにおける「信頼性」とは主に「テストの結果に一貫性がある」こと、つまり「いつどこで誰が受けても一貫性がある結果をスコアとして返す」ことを指します。
具体例を挙げてみましょう。「Aさんがテストを受け、その晩は何も勉強せず、翌日に同じテストを受験したら、同程度のスコアだった」場合には、Aさんの能力に変化がないことがスコアによって示されているため、テストの「スコア基準」がぶれていない、つまり「一貫性がある=信頼性がある」と解釈することができるでしょう。
このようにスコア基準にぶれが生じないからこそ、スコアを基にした受験者同士の能力の比較(例:AさんよりもBさんのスコアの方が高い→Bさんの方がそのテストで測定される能力が高い)や、経時的な能力の推移(例:1年前よりもスコアが上がった→1年前よりもそのテストで測定する能力が上がった)の把握ができるようになります。
TOEIC Programを開発するETSでは、テストフォームごとの難易度のばらつきなど、コントロール可能な変数を取り除くことで、一貫性がある結果(スコア)を返し、信頼性の高さを維持できるよう取り組んでいます。具体的には、 TOEIC L&Rの問題を作成する過程において、フォーム間の一貫性が保たれているかどうかを、複数回におよぶ厳密なレビューによって検証しています。
さらには、公開テストを実施するたびに、全ての新フォームのスコア分布を分析し、フォーム間で生じる難易度の差異をequating(等化)と呼ばれる統計的な処理によって解消した上で、スコア基準が一貫している度合いを検証しています。その度合いは「信頼性係数」という数値で算出されます。 信頼性係数は「0から1の値」で表され、「1」に近いほど信頼性が高いとされます。信頼性係数が「1」ということは「完全に一貫している」ことを意味するため、テストに付随する様々な変数(受験者のコンディションなど)を考えると、現実的にはまずあり得ないでしょう。
TOEIC L&Rの信頼性係数は、1979年の第1回公開テスト実施以来、リスニングセクションとリーディングセクションともに、常に「0.90以上」を維持し続けています。一般的なテストでは、信頼性係数が「0.75から0.80」程度で比較的高い信頼性があると言われますので、「0.90」を超えるものは非常に信頼性が高いテストであると言うことができます。
さらに、信頼性係数が算出されるまでのプロセスで明らかになった分析結果は、テスト開発メンバーにフィードバックされ、さらなる品質の向上に役立てられています。このようにして、ETSでは常に信頼性の高いテストを提供するべく、TOEIC Programの品質維持向上のサイクルを実践しています。
おすすめ記事
「エア会話」や「実況中継」といったアウトプットの学習を取り入れる
田中 慶子氏
世界観を広げ、好奇心を促す英語学習が年を重ねても脳の成長を推進する
加齢医学研究所 教授
医師・医学博士
瀧 靖之氏
“国際協力” の現場で 業務遂行のカギとなる英語力
整備補給群 装備隊 1等空曹
松本 武蔵さん
航空自衛隊 航空幕僚監部
防衛課 防衛協力班 事務官
阿部 静香さん
グローバル社会の第一線で活躍するために必要な英語力とは
寺内 一 氏
IIBC 執行理事 永井 聡一郎