<図13>
4つの場合があると書きました。これは1つめ(A1)です。データに「繰り返しが無くて、対応が無い」場合です。図を見ると分かり易いでしょう。4つの島の各々5つの地域から、その地域の代表選手が出てきます。
<図14>
図13を表にしたものです。全てのセルの中にはデータが1個のみです。例えばガラパ島の「横(行)で隣り合うセルの中」にいる亀は別の地域から来た別々の亀です。個体としては何ら関係性がないため、これは「対応が無い」データと言えます(ただし図15・図16でこの説明が少し変わります)。このようなデータ構造の場合に、選ぶべき統計解析手法を書きます。統計解析手法は「4Steps エクセル統計(第4版) 柳井久江著 オーエムエス出版」から記します。以下に示すページは全てこの本のものです。この本にはエクセルで作動するアドイン・ソフトが付いていて、やり方さえ間違わなければ結果が出てきます。
<ノン・パラメトリックなデータの時>
145ページ:フリードマン検定
<パラメトリックなデータの時>
140ページ:繰り返しの無い二元配置分散分析法(two-factor ANOVA)
パラメトリック検定(繰り返しの無い二元配置分散分析法)を行うとき、要因ごとに正規性と等分散性をチェックしておく必要があります。これについては、図18で触れます。
<図15>
2つめ(A2)です。データに「繰り返しが無くて、対応が有る」場合です。4つの島から亀を選出するところは前と同じですが、島から出て来るのは代表選手の1匹のみです。この図では住んでいる場所には拘っていませんが厳密な解析をしたいなら、住んでいる場所も統一すべきかもしれません。とにかく例えば、この代表選手の亀に薬物を投与して、投与前、1ヶ月後、2ヶ月後、3ヶ月後、4か月後のデータを調べます。
<図16>
同じく表にしました。全てのセルにはデータは1個のみです。「横(行)で隣り合うセルの中」にいるのは同一の亀です。典型的で分かり易いのが、このように薬を投与した前後の経時的変化です。「before → after」形式のデータと覚えれば良いでしょう。用いるべき統計処理は、ひとつ前の「(A1)データに繰り返しが無くて、対応が無い」場合の方法と同じで良いようです。これを明示的に書いてある本は無いように思いますが、気になるようであれば他の書籍でも調べてください。ここではもう一度図14に戻って考えてみます。図16では「分かり易さ」のために「before → after」形式のデータと書きました。しかしながら「関連性のあるデータ」とは、必ずしも「before → after」とは限りません。図14では「before → after」ではありませんし、しかも個体が違います。しかしながらガラパ島から来た亀たちは「ガラパ島から来た」という共通性や関連性があると言えます。そしてその上で、島内で住みついた環境による違いを調べたわけです。これが理由かどうか断言する自信はありませんが、(A1)と(A2)は、同じ統計解析手法で良さそうなのです。また、このデータ構造は後で出て来る図29の場合と似ています。これは図29の所で説明します。
<ノン・パラメトリックなデータの時>
145ページ:フリードマン検定
<パラメトリックなデータの時>
140ページ:繰り返しの無い二元配置分散分析法(two-factor ANOVA)
<図17>
3つめ(B1)です。データに「繰り返しが有って、対応が無い」場合です。4つの島から亀を選出するのは図13と同じですが、島の各地域から出て来るのは、代表選手の1匹のみではなく「複数」です。各セルにおいて、選抜する亀の数は同数でなくても構いません。
<図18>
表にしたものです。各セルには複数のデータがあります。このパターンが二元配置データの典型と言えます。各セルの亀の数は違っても構いません。各セルに入っている亀は、各島の各地域から出てきた別々の亀です。
<ノン・パラメトリックなデータの時>
?:これに対応するノン・パラの解析は、この本にはありません。
<パラメトリックなデータの時>
151ページ:繰り返しのある二元配置分散分析法(two-factor factorial ANOVA)
ここで、パラメトリックな統計解析手法を用いる場合の注意点を書きます。このデータ構造(B1)では、ノン・パラの手法は使えなさそうですが、一般的にノン・パラの手法は制約が少なくて使いやすい手法です。パラメトリックの手法を用いる場合、正規性と等分散性が要求されます。すなわち、そのデータが属する母集団が「正規分布をしている」という根拠が必要になります。また、別のデータ群との比較をしたいわけですから、その比較対象のデータ群の母集団も「正規分布している」必要があります。これだけではありません。さらに条件があります。統計処理の前提として、これらのデータ同士は「分散が等しい」と言う条件も満たさなければなりません。これらの点について意地悪な質問をされると、よっぽど統計解析に自信のある人しか反論できません。パラメトリックの手法は、こういう面倒な前提条件があるため、可能ならノン・パラ手法を使っておいた方が賢明ということです。・・・とは言え、このような難癖に対応する方法があります。
(1) 48ページ:正規性の検定(χ2適合度検定)
各セルのデータについて、それが属する母集団が「正規分布をするかどうか」を推定するものです。
(2) 112ページ:バートレット検定
各群において、分散(所属する母集団の分散)が等しいかどうかを推定するものです。
実はセルの中のデータが少ないと、これらは調べようがありありません。従って、どうにもならないケースが多いはずですが、本来の正攻法を知っておくべきでしょう。実際のところは、この「繰り返しのある二元配置分散分析法(two-factor factorial ANOVA)」は頑健性があると言われています。「頑健性がある」とは、前提条件が多少満たされてなくても、検定結果にあまり影響を与えないということです。それほど厳密に正規性に拘らなくても良い・・・というのは安易すぎますが、実際のところは、そうやって用いられていると思います。
<図19>
4つめ(B2)です。データに「繰り返しが有って、対応が有る」場合です。4つの島から代表の亀を選出するところは図15の場合と同じですが、各島から出て来る代表選手は1匹のみではなくて複数です。
<図20>
表にしたものです。各行(要因Aの各水準)において、選抜する亀の数は同数でなくても構いませんが、その水準内で横(行)のセルの亀同士は対応(関連性)があります。わかりやすい例としては、その亀の経時的変化を追っていく場合です。横(行)並びのセル同士は数が必ず同数になります。
<ノン・パラメトリックなデータの時>
?:これに対応するノン・パラの解析は、この本にはありません。
<パラメトリックなデータの時>
158ページ:重複測定・二元配置分散分析法(repeated measure two-factor ANOVA)
このデータ構造の場合も、ノン・パラの解析手法は無さそうですが、この「重複測定・二元配置分散分析法(repeated measure two-factor ANOVA)」も頑健性があるはずです。