一番下へ
このページはPC版を携帯向けに変換して表示しています。

項目反応理論


これまで紹介してきた心理測定の理論は、みんな「X(得点)=T(真の値)+E(誤差)」という形のモデルが基本となっていました。ちなみに、T(真の値)とは、その被験者が何度同じテストを受けても出てくるであろう、その得点の平均値のことですね。

しかし、ここから話をする「項目反応理論 item response theory」というものでは、このモデルが変わります。

そもそも、心理測定ってのの方法論を考えてみましょう。例えば、算数のテストが目の前にあるとする。それは、いくつかの問題からなるわけです。問1、問2……といった具合ですね。テストってのは、その問題「項目」の集合体なわけです。

で、今までの理論、つまり、「古典的テスト理論 classical test theory」だと、全部の問題を解いたことで得られる得点を、とりあえず合計して、それでその後の処理になだれ込んでいたわけですが、項目反応理論の場合、この「全部の点数を足す」ということをしない。つまり、問題1つずつ、各項目というものに注目をするのです。

この理論の特徴を3つほど挙げてみます。

まず、第1の特徴は、「項目の困難度と被験者の特性は分離できる」という点。つまり、それぞれの問題が持つ「問題の難しさ」ってのと、被験者が持つ「その問題が解けるだけ勉強したか」みたいな特性ってのは、混ぜないで、ものを考えることができる。集合体としてのテストの場合、全体を総合した結果で判断しますから、問題を解いた人の能力が反映されて、こんなことはできません。でも、1問ずつ見ていくこの理論であれば、その場その場で、あの問題は難しすぎたなあ、みたいな指摘が可能になるわけですね。

次に、「その問題が難しいか否か」みたいなテストの特性がわかっている場合は、テスト得点の分布も予想できるという点。当たり前ですが、1つずつ問題を見れば、それぞれがどのくらい難しいか、指標として表すことができるわけです。そうすると、「この程度の能力がある人なら、解けるだろう」といった予測もある程度は可能になる。これを精緻化すれば、テスト得点の分布も予想できる、というわけ。

3つ目は、上の応用。あるレベルの問題に答えられる→その次のレベルの問題も答えられる可能性がある、と予測できますから、その流れに沿えば、それぞれの受験者に適した問題を、その都度提示して出題するということも可能になるはずです。「集合体」としてのテストの場合、テストはいくつかの問題全体で1つの塊をなしていますから、こんなことはできませんけれど、1問ずつ判断していけば、それは可能になる。ちなみに、これは「アダプティブ(=適応)テスト adaptive test」と呼ばれます。

さて、ざざっと特徴を3つ挙げてみまして、「ん?なんだかそんなテスト、世の中にないか?」と思った方もいらっしゃるのではないでしょうか。

そうです。この「項目反応理論」というものを応用したものは、もう既にいっぱいあるのです。コンピュータを使って行うテスト、例えば、海外の大学に留学するとしたら、多分、絶対(どっちだ)受けることになるであろう、CBT(Comupter Based Test)方式の「TOEFL Test of English as a Foreign Language」とか、コンピュータ業界の最高峰資格、「MCP Microsoft Certified Professional」なんかは、この項目反応理論を用いて、1問1問解くごとにコンピュータが判断を行って、受験者のレベルにあった問題を出したりなんかして、最後にゃ、その場でその試験に合格か、不合格かなんかわかっちゃって、あっちゃあ、みたいなことになるのです。

では、その理論をもう少し説明しましょう。

先ほどから出ている通り、テストの最小単位、つまり、問題1つずつを「項目」と、ここでは呼びます。で、その項目数がmのとき、被験者の反応は正解するか、しないかですから、正解を1、間違いを0とすると、

[式1+]

こんな形で表記できます。これを「項目反応」または「項目得点」と呼びます。でもって、テスト全体の得点ってのは、この項目得点を項目mまで合計したものですから、これは、

この形で表記できることになりますね(ちなみに、ここでは話を単純化するために、各項目ごとに与えられる「配点」というのは無視します)。

この項目得点を使えば、その項目が持つ特性ってのを数量化できます。例えば、その項目がどれほど難しいか、それは、今までその問題を出してどれだけの人が正解したか、その「項目通過率」を「困難度パラメータ」として表現することができますし、その項目の精度(測りたいものが測れるかというやつ)は「識別力パラメータ」として表現することができます。

困難度パラメータは、当たり前のごとく、その被験者集団の特性を反映します。例えば、中学3年生レベルの問題を、中学1年生に出したら、多分解けないでしょう。ここで、「中学1年生」というその特性を、特性値パラメータとして表現すれば、これはさっきの「各項目の困難度と被験者の特性は分離できる」という特徴につながることに注意ですよ。でもって、このことは、中1と中3で得点を比較したところで意味がないけれど、各項目ごとなら、比較に意味が出てくる、ということにも注意。

で、この話をもう少し突っ込んでみる。ここで、困難度bjと特性値の大きさθを比較したときに、

θ≧bj……uj=1, θ<bj……uj=0

こうなることは自明です。つまり、解けるレベルまでその人が達していなければ、正解することはないわけです。が、しかしこの、bj、そんなにきっかり定められるはずがありません。中1でも、中3レベルの問題が解ける人だっているでしょうし、中3で中1レベルの問題を解けない人だっているでしょう。どんなものでもそうですが、普通、「標準偏差」という名の幅を持つと考えられるわけで、ここでも、その一定の幅ってのを考慮して、「標準偏差の幅を持って変動する確率変数Yj」をbjの代わりに使って、

θ≧Yj……uj=1, θ<Yj……uj=0

こう考えます。このとき、標準偏差の幅が大きければ、Yjとbjは大きく異なる値になりえることに注意。その場合は、不正確ということになります。

さて、こうすれば、特性値θを持つ人が、困難度bjの問題に答えられるかどうか、それを確率として表すことも可能となります。で、これが「テストの特性がわかる場合は、テスト得点の分布も予想できる」という2つ目の特徴になります。

この話、もちょっと具体的に、「TOEIC Test of English for International Communication」というテストで考えてみましょう。

あれ、試験が一通り終わると、テストスコアというものがその人に対して通知されます。合格、不合格で物事を判断するわけではなくて、そのテストスコアを元に、英語力をレベルとして表すのが、TOEICの特徴でもあるわけです。

で、実は、このテストスコアってものが、この上に述べた考えに当たるのです。つまり、特性値θの人が各項目に正解するその確率と、特性値θの人が取るであろうテストスコア(=期待値)を考えることで、そのテストスコアと相関するその人の英語のレベルを推定するのが、あれの役割なわけですね。

例えば、その人が取ったテストスコアが470〜730の間だと、「日常生活のニーズを充足し、限定された範囲内では業務上のコミュニケーションができる」と推定されます。こう推定できるのは、テストスコアが470〜730の間にある人なら、θはこの程度になるであろう、そして、ある困難度を持つ問題項目の正解率はこんくらいになるだろう、と、表すことができるからで、そしてその問題項目が、英語の能力と相関するとすれば、このような文言で推定しても問題はない、と、こうなるわけですね。

TOEFLやMCPといった試験の場合、さっきも述べたように、その人に適応的にテストを行うわけです。TOEICだと、テストやって、スコアを得て、それを見て自分で「どの辺だろう」と考えるわけですが、そのステップをコンピュータがやっちゃう。しかもそれを、次の問題提示に生かしちゃうわけです。それ、今までの考えを踏まえれば、こういう流れでやっているとわかるはず。

1) 最初、まず、ある程度の困難度をカバーした問題項目をいくつか提示する。
2) この結果から、その人の特性値θを推定する。
3) その推定したθ付近で、最も近い困難度の問題項目を提示する。
4) その結果から、特性値θを推定しなおす。
5) このステップを繰り返す。
6) その精度が十分大きくなったときに、テスト終了。結果を出す。

今後、この手のテストは増えていくと思われますので、その仕組みを知っておいても損はないかもですね。

ということで、アバウトに項目反応理論を説明しましたが、この理論、実際は相当難しいので、アウトラインだけわかっていただければ、結構です。ようは、項目一個ごとに物事考えていこうという話。詳しくは、専門書を読んでくださいませ。

[前へ] [次へ]

[トップページへ] [前へ]


一番上へ TOP