一番下へ
このページはPC版を携帯向けに変換して表示しています。

因子分析


さあ、心理測定法の話もいよいよ大詰め。その中でも最難関かつ最大のテーマ、「因子分析 factor analysis」と、それに関連する「共分散構造分析 covariance structure analysis」が今回の話です。

因子分析の元となったものを考え出したのは、1904年、あの相関係数で知られる、スピアマンです。彼は知的能力は1つの「一般因子 general factor, g」と「それでは説明できない因子 specific factor, s」の2つによって成り立っている、という考えを出しました。このsというのは今で言えば、残差。だから、今の考え方で言えば、g1つで話を説明しようとする「1因子モデル」といえます。これを図にして表してみると、こういうこと。

[1因子モデル+]

これで大体因子分析ってののものの考え方がわかると思います。つまり、知的能力というものがあって、それと、いろんな科目がある。そして、その知的能力と各科目の出来ってのは、相関しているとする。その時、その相関を説明するのが、この「一般因子g」

つまり、相関関係を説明する共通の「何か」を見つける分析法が、因子分析。言い換えれば、2つの事象の間に隠れて見えないものを見つけるのに力を発揮する分析手段が、因子分析です。心理学が扱う心理量ってのは、前にも言ったように、隠れて見えない潜在変数なわけですから、心理学でこの分析法が開発されたってのは、なんとなくうなづけるところ。

さて、知的能力に関して言えば、この考え方は後に修正がなされます。より一般的に、多種多様な相関行列をも考えに入れることにしたわけです。これをやったのが、サーストン。1938年にリリースされたこれは、シカゴ大学の学生240人に対して、57項目もの知能テストを実施して、ほいでもって、7つもの因子を取り出しました。その考えを図にまとめると、こういうこと。

[多因子モデル+]

さっきのスピアマンと違って、いくつかの因子が、いろんな知能テストの点数に影響を与えているという考え方です。今回、わかりやすいように数本しか線を引きませんでしたけど、ほんとは全部の因子からそれぞれの得点に向かって線が引かれるはずです。なんてたって、それぞれを説明する「共通の何か」が因子なわけなんですからね。

このサーストンがやったこの分析が、現代風因子分析の始まりと考えられていて、今、いろんな学会誌に載るような論文でやる因子分析ってのも、ほとんどこのタイプです。つまり、いくつかのものがあって、それを説明する何かを分析によって、いくつか見つけるわけですね。

ちなみに、このような観測される相関行列から、それを規定する潜在的な因子を見つけることを「探索的因子分析」と呼びます。

この説明からもわかるとおり、因子分析の元となるのは、相関係数とか、共分散です。でもって、例えば、テストの項目数が10あるとすると、得られる相関係数10×9/2=45個、項目数が100だとしたら(珍しくない数ですね)、4950もの相関係数が得られてしまうわけですが、こいつを一気に数個(5個とかそのくらい)にまとめてしまうのが、因子分析が実際にやることです。

ここまでは国語的に因子分析ってものを考えてきたわけですが、少し理論をお話しましょう。もちろん、難しいところは一気に割愛します。

今、2つの変数x1、x2があって、それらのデータを規定する因子の数を2とします。その時の因子分析のモデルは、

x1=λ11f1+λ12f2+ε
x2=λ21f1+λ22f2+ε

ここでのλを因子にかける重みということで「因子負荷量」といい、fは「因子得点」、εは「誤差」になります。そしてその時、

1. 因子得点同士は互いに相関しない
2. 誤差εは互いに相関しない
3. 因子得点と誤差は相関しない
4. 因子得点の分散は1である

と仮定すると、x1とx2の相関係数は、

r12=P(x1, x2)=λ11+λ12+λ21+λ22

これを一般化して、変数の数がp、因子の数がmのとき、被験者iの変数jにおけるデータxijは、

xij=λj1fi1+λj2fi2+……+λjmfim+εij

となります。これが一般的な因子分析のモデルによって表されます。

因子分析のモデルは、因子得点間が無相関である「直交解」と、相関が許容される「斜交解」とに分けられます。直交、斜交って言葉でわかると思いますが、このモデルは因子得点という潜在変数の線型形式でデータを説明するものです。

この辺になると、直交?斜交?もうついてけない!という人もいるかもしれませんので、具体的に、少し図を使って説明しなおしましょう。

今、大学入試の結果を国語、数学、英語の3教科の試験の成績で決めるとします。このとき、国語と数学、数学と英語、国語と英語の間にはなんら関係はありません。つまり、それぞれは別々に試験して、別々に結果が出て、別々のものを測っています(当たり前ですが)。それを図で描くとこういうことになる。

[線形独立をベクトル図で表してみる+]

これは、テスト得点の最高点を100点としたときの、点数Pと、教科eの関係です。太い線は実際に取った各科目の点数で、PAは、それを一つにまとめた入試結果を決める資料となる点数だと思いましょう(具体的に言えば、成績に関するベクトルです)。

で、ここからが話しのポイント。因子分析ってのは、「試験結果」という1つの変数の中に潜む、「国語」「数学」「英語」っていう3つの因子を見つけるのが仕事なわけです。その時、もう見ればわかりますが、各科目がなんら関係を持たないということは、それぞれの科目の間が「直交(直角に交わる)」関係にあるということなのです。別の言葉で言い換えれば、それぞれは「線型独立」ということ。決して、数学の点数が上がったから、英語の点数も上がったとか、そういうことはないわけです。

斜交解ってのは、ここまで厳密に話しを進めなくてもいいわけです。直交解の場合、国語的に読めなきゃ数学の問題なんか解けないだろ、とか突っ込まれたら、その答えを用意しておかなければなりませんけれど、斜交解ではそういうことは許されますから、柔軟な解といえますね。どっちを使うかはその時によります。

これでさっきの式の話、わかっていただけましたでしょうか?

さて、因子負荷量と誤差の分散を求めないことには話が始まりません。これは他の統計モデルと同じく、最小二乗法とか最大尤度法を使って求めておくことになります。

その後、因子得点と測定される変数の間の関係を説明する作業に入ります。このとき、理想的な「単純構造 simple structure」(因子負荷量の絶対値が大きい=因子得点がものすごく変数に影響する、または、そのまったく逆の状態=因子負荷量が0に近い)を見出すためには、因子負荷量の2乗の分散の和を基準として、いろんなことをやることになります。

で、この基準のことを「バリマックス基準 Varimax criterion」、この基準を満たした推定値のことを「バリマックス解」といい、この一連の流れの中で回転(測定値と因子が合致するように縦軸と横軸を回すこと)を行うこともあって、それは「バリマックス回転 Varimax rotation」といいます。

この辺の言葉は、論文なんか読めば、必ずといっていいほどよく出会う言葉です。こういうのを見たら、「あ、なんかやったんだな」と思ってください。

ちなみに、ですが、このバリマックス解には直交性という制約があります。もし、この制約を与えない場合は、各因子間の共分散の和を基準とした斜交解「オブリミン解」というものを用いることとなります。

でもって、このバリマックス解を得ることである程度達成された単純構造を、直交性という制約からはずして、さらに単純な構造にするとしたら、「プロマックス回転 Promax rotation」というのを行うことになります。プロマックス回転では、縦軸と横軸を別々に回します。別々に回すということは、それぞれの因子の間の関係は別にどうでもいいということ。ですから、この回転のことを「斜交回転」といいます。さっきのバリマックス回転はこれとは逆で、直角を保ったまま回すので、その通り、「直交回転」です。

他にも「プロクラステス回転」とかあります。まあ、この辺は難しくなるところですから、専門書を読んでください。簡単に言えば、なんとかしてわかりやすくする方法、ってことです。

[軸の回転+]

加えて言えば、この辺のことは全部、統計パッケージ(SASとかSPSSといった超高級、数十万もするようなものから、5000円くらいのシェアウェアまで、そりゃいろいろあります)がやってくれることですので、見る私たちとしては、その処理が何の意味を持つか、そこを理解しておきたいところです。

さて、このように分析をする中で一つ問題となるのが、因子の数を何個にするか?というものです。あまりに少なくてもしょうがないし、あまりに多すぎても意味がありません。ビッグ5という名前で知られる、あの人格目録の場合、「外向性、情緒不安定性、勤勉性、協調性、経験への開放性」という5つにまとめ上げたわけですが、そういう風にまとめ上げることをしないといけないわけです。

このときの方法にはいくつかのものがあります。スクリープロットを用いる方法、固有値を基準とする方法、説明率を用いる方法、有意差検定を元とするものなどです。その中でも一番よいのは、AIC(赤池情報量基準)とかBIC(ベイズ情報量基準)といった「モデル選択基準」というものを用いて、因子の数を決定する方法。この辺の話も、詳しくは専門書でどうぞ。

というわけで、ここまでずっと「探索的因子分析」の話をしてきたわけですが、もちろん、これとは別の因子分析の方法もあります。もともとどのような因子があるかを考えておいて、それがあるかどうかを確認する「確認的因子分析」というものがそれです。ただ、これはモデルが行列式になったりとややこしいですから、略します。

最後にさらっと、共分散構造分析について話をしておきましょう。これは斜交解のとき、つまり、因子間に相関が許容されているとき、その相関構造を調べるための一つのテクニックです。言ってみれば、因子分析に因子分析を施す形。このときに使われるモデルが「共分散構造モデル」で、これに基づく分析のことを「共分散構造分析」というわけです。

具体的には、観測変数間の因果関係を推論する「パス解析」のテクニックと因子分析のテクニックを組み合わせます。まあ、簡単に理解できるようものではないので、この辺でやめておきましょう。

ということで、今回は因子分析について、あれこれ書いてきました。さらっとでも理解してもらえれば、と思います。

[前へ] [次へ]

[トップページへ] [前へ]


一番上へ TOP