暦のこと (3) 太陰暦
「太陰暦」は月の満ち欠けで暦を決めるものです。新月を「朔」、満月を「望」と呼び、「朔~朔」または「望~望」の一巡を「一朔望月」と言います。これが月の外観(満ち欠け)の1サイクルであり29.530589 日です。これを単純に12倍すると、太陰暦の暦上の1年は354.367068 日となります。大の月(30日)6回と小の月(29日)6回を組み合わせて 1年(354日)としました。単純に「大小大小大小大小大小大小」と並べると実際の月の満ち欠けに合わなくなるため、月を観察することで補正したと思われます。これを1月~12月~1月~12月・・・と繰り返していくと公転周期とずれていくので、季節がずれていきます。例えば日本でこれを採用したら、8月が真冬になったりします。月の形を何より重視し、季節の変化に拘らない暦といえます。イスラム圏は日常生活には太陽暦を用いるようですが、公式には「太陰暦」である「ヒジュラ暦」を使うそうです。

ヒジュラ暦では1年あたりに 354.367068-354=0.367068日の誤差が生じます。このため約3年に1回、閏日を挿入して1年を355日にしています。ヒジュラ暦における閏年です。より正確に言うと0.367068×30=11.01204 ですから、30年に11回の閏日挿入です。これは太陰太陽暦における季節の調整という意味合いよりも昼と夜の調整と言えます。中東は季節の変化が少ないため、次に示す太陰太陽暦のように季節の調整は必要なかったのでしょう。季節と暦の対応は約33年経ったら元に戻ります。

センター長  2019/09/01(Sun) 10:27:41
暦のこと (2) 太陽暦
地球が太陽の周囲を回ることを公転と言います。地球の地軸は、この公転軸に対して約23.4度だけ傾いています。地球上の場所により事情は異なりますが、日本のように中緯度の国では太陽の周囲を回る時の位置により日照時間に変化が生じます。これにより四季ができます。これが実際の1年であり 365.2422 (365.24218944)日です。これは地球の公転周期です。地球の公転は楕円軌道なので太陽との距離も大きく変わりますが、四季の変化は「太陽との距離」よりも「太陽との位置関係」の方が重要です。

古代ローマで採用された最初期のローマ暦はロムルス暦でした。紀元前750年頃から使われたようです。現在の年の初めに相当する日から約60日間は日付の無い日だったようです。この暦は1年を10ヶ月としたものでした。「octo-」とは「8」を意味する接頭語です。蛸は足が8本あるので英語で「オクトパス(octopus)」です。ピアノの白鍵盤のオクターブ(ド~ド)は8個です。ロムルス暦の「オクトーベル(October)」は8月でした。紀元前713年にヌマ暦になって、10月の後に11月と12月が加えられました。その後、紀元前153年の改暦で1年の始まりが「ヌマ暦で加えられた11月」ということになりました。それによって「月(month)の名前」が全部2ヶ月ずれてしまい、本来なら「8」を意味する「October」が10月になってしまいました。ロムルス暦は基本的に太陰暦かと思われます。ヌマ暦には2年に1度「閏2月」があったようなので、季節を調節するための太陰太陽暦かもしれません。

ジュリアス・シーザー(ユリウス・カエサル)がエジプトに遠征した時、すでにエジプトでは 1年を12ヶ月に分ける暦を使っていました。太陽暦です。おそらくピラミッドのような超巨大建造物があるため、特定の窓から一定の場所に当たる陽の光が「365日ごと」であると分かっていたのではないかと想像します。エジプトでは「30日の月」が12ヶ月と、端数の5日だったようです。シーザー(カエサル)はそれを改良して暦を定めました。これがユリウス暦です。紀元前46年から施行されました。

ユリウス暦では大の月と小の月が固定されていました。1月は31日間、2月は28日間、3月は31日間、4月は30日間、5月は31日間、6月は30日間、7月は31日間、8月は31日間、9月は30日間、10月は31日間、11月は30日間、12月は31日間という風にです。例外的に4年に1回の閏日を2月に入れました。これが2月29日です。このような年を「閏年」と言います。現在用いられているグレゴリオ暦の基本が既に出来ていました。

実際の地球の公転周期と比較しても、その当時としてはユリウス暦はかなり正確な暦でした。それでも長期的にみると少しずつ実際の季節と解離していきました。季節が400年について「約3日」ずつ、ずれていったのです。キリスト教圏では復活祭が重要な行事です。西暦325年(ユリウス暦)のニケア宗教会議にて、復活祭は「春分の後の満月の後の最初の日曜日」と規定されました。この「春分」の日が少しずつずれてしまったおかげで、復活祭が行われる季節が少しずつ変わっていきました。このため、ローマ法王グレゴリウス13世が1582年に暦を改正しました。この決定は2月24日に発表され、10月に施行されたようです。すでにずれてしまった10日分を削除し、1582年10月4日(ユリウス暦)の翌日を1582年10月15日(グレゴリオ暦)としました。1582年の10月5日から10月14日までの10日間は日付として存在しません。ただし歴史上の出来事として存在しないにしても、計算することはできます。1582年10月5日(ユリウス歴) = 1582年10月15日(グレゴリオ暦)ですから、単純な暦上の計算としては、
[ユリウス暦] + 10日 = [グレゴリオ暦] となります。ただし、この計算式で加えている「10日」は、あくまで「1582年前後で」ということです。ユリウス暦とグレゴリオ暦は400年で約3日ずれていきます。従って、ロシア革命(1917年)の時には13日の差になっていました。

1582年は織田信長が本能寺の変で自害した年にあたります。本能寺の変は天正10年 6月2日(宣明暦)です。この時点で用いられていたユリウス暦では1582年 6月21日に相当します。その3ヶ月半後にキリスト教圏ではグレゴリオ暦に改暦されました。ですから、信長の死はグレゴリオ暦に換算すると1582年7月1日ということになります。歴史上の出来事をグレゴリオ暦に変換することは、「現在の季節感」と一致させる時に必要です。

ロシアでは1918年までユリウス暦を使っていました。この頃にはユリウス暦とグレゴリオ暦の差は13日に伸びてます。日露戦争(1904年)の時、日本は既にグレゴリオ暦ですから、日本とロシア帝国では暦上で13日のズレ(差)がありました。ロシアの二月革命(1917年2月23日)と十月革命(1917年10月25日)は「ユリウス暦」での日付です。その頃に広く使われていたグレゴリオ暦では、それぞれ3月8日と11月7日になります。このロシア革命の翌年(1918年)2月にソビエト社会主義共和国連邦はグレゴリオ暦に改暦しました。ちなみに中国大陸では1912年の中華民国成立時にグレゴリオ暦に改暦されたようです。中華人民共和国の成立は1949年10月1日です。日本では1872年(明治5年)の改暦でした。

グレゴリオ暦における公転周期と暦の補正の原理について説明します。まず、ユリウス暦では 1年(平年)を 365日としています。実際の公転周期は 約 365.2422 日(365日5時間48分46秒)ですから、4年たつと約1日分が不足します。1日分の季節がズレるということです。0.2422×4=0.9688 (0.2421894×4=0.96875776)です。そのため、例外的な処置として4年に1度、閏日を2月の最後に挿入して補正します(2月29日)。この規則はグレゴリオ暦でも引き継がれました。閏日を挿入する年を「閏年」と言います。西暦年が4で割り切れる年に閏日を挿入します。近代では夏季オリンピックの年が、それに相当します。

ユリウス暦を改良した「グレゴリオ暦」では、閏日(2月29日)の例外的な挿入(ユリウス暦)に対して、さらに「例外規定」を定めました。この稿では便宜上、これを「例外の例外」と記します。これにはさらに例外があって、これを「例外の例外の例外」と記します。ユリウス暦にあった「例外」だけだと閏年は 400年について 100回分あることになりますが、このうち3回だけ閏日の挿入を省略したのです。

この原理を説明します。ユリウス暦は4年に1回だけ閏日を挿入するように定めましたが、実際は「3年に1度」と間違っていたり、途中で補正があったり、そう単純ではないようです。でも、これだと問題は複雑になりすぎるので、「厳密に守られていた」として計算してみます。

(1)閏日を挿入せず 1年を365日と固定した場合の、400年間の日数
365×400 = 146,000 日

(2)実際の1年を 365.2422 日(公転周期)とした場合の、400年の日数
365.2422×400 = 146,096.88 日

(1)-(2) = -96.88 日(約 - 97日)~ 実際よりも約97日足りません。そこで、ユリウス暦では4年に1度、閏日を挿入しました。400年あたり「100日分」を増やした訳です。でも、少し(約3日)増えすぎてしまいました。

(3)4年に1度、閏日を挿入した場合の、400年の日数
365×400 + 100 = 146,100 日

(3)-(2) = + 3.12 日(約 +3日) ~ 実際よりも約3日多くなってしまったということです。

ユリウス暦では「4年あたり1回の閏日」を機械的に挿入しました。当時として、かなり正確な補正でしたが、「(3)-(2)」で示すように400年あたり約3日分が「多すぎて」しまいます。そこでグレゴリオ暦では、このような不都合を修正したのです。「400年あたり100日分の閏日を挿入」というのがユリウス暦の定義でしたが、ここから3日を除けば、実際の地球の公転周期に、さらに近くなります。400年あたりで「100で割り切れる年」は4回、「400で割り切れる年」は1回あります。従って、100で割り切れる年を「例外の例外として省く」、さらに 400で割り切れる年を「例外の例外の例外として省かない」とすれば良いことになります。

これらの法則を単純化します。1年は原則として365日です。
[1] 例外として4年に1度、西暦年が4で割り切れる年に閏日(2月29日)を入れます。これはユリウス暦の時からある例外処置です。この結果、400年について3日多くなります。
[2] この「例外[1]」の例外として100年に1度、西暦年が 100で割り切れる年は閏日を挿入しないことにします。これで400年あたり4日分が減ります。[1]で増えた3日と合わせると、1日分が足りなくなります。すなわち、400年あたりに1日が足りないという事です。
[3] この「例外の例外[2]」の、さらに例外として400年に1度、西暦年が 400で割り切れる年には閏日を挿入します。これで差し引きゼロとなります。このグレゴリオ暦の補正も厳密に言うと完璧ではないのですが、誤差は2000~3000年で1日です。

たとえば西暦1900年は4で割り切れるので、「例外[1]」として閏日を入れたいところですが、100で割り切れるので「例外の例外[2]」として閏日は挿入されません。また西暦2000年は100で割り切れる場合の「例外の例外[2]」として閏日を外したいところですが、さらに400でも割り切れる場合の「例外の例外の例外[3]」として閏日が挿入されました。

このように西暦1900年と西暦2000年は、グレゴリオ暦にとって特殊な年でした。マイクロソフト社のエクセル(表計算)には混乱の跡があります。エクセルには、知る人ぞ知る「1900年閏日問題」があります。Windows版では、「1900年1月1日」が「1」から始まるように、日付をシリアル値(連続値)として計算する仕組みになっています。最大値は9999年12月31日の「2958465」です。日付がシリアル値に換算されているおかげで日付の演算が可能です。Windows版のエクセルでは、西暦1900年の閏日(2月29日)の処理が間違っています。マイクロソフト社は、他社のアプリケーションと互換性を保つためとして修正していません。これまでの集計結果が変わってしまっても困るので、ある意味では仕方がありません。ここで直感的な理解のために閏日(2月29日)と、その前後をピックアップしてマイクロソフト社が定めたシリアル値を書き出します。

日付   → シリアル値
1900/01/01 →     1 ← シリアル値はここから始まる
1900/02/28 → 59
1900/02/29 → 60 ← 閏日が「例外の例外[2]」として存在しないはずなのに、ある!!
1900/03/01 → 61
1901/02/29 → 存在しない
1902/02/29 → 存在しない
1903/02/29 → 存在しない
1904/02/29 → 1521 ← 閏日が「例外[1]」として存在する
1905/02/29 → 存在しない
1999/02/29 → 存在しない
2000/02/29 → 36585 ←閏日が「例外の例外の例外[3]」として存在する
2001/02/29 → 存在しない
2002/02/29 → 存在しない
2003/02/29 → 存在しない
2004/02/29 → 38046 ← 閏日が「例外[1]」として存在する
2100/02/29 → 存在しない ← 閏日が「例外の例外[2]」として存在しない
2400/02/29 → 182682 ← 閏日が「例外の例外の例外[3]」として存在する

すでに書いたように、西暦を4で割って「割り切れない年」には「閏日」が入りません。4で割り切れる年には「例外[1]」として「閏日」が入ります。西暦1900年は4で割り切れるので、本来なら「閏日」を入れたいところです。しかしながら100で割り切れるので「例外の例外[2]」として閏日を入れません。ところが、エクセルでは入っています。これは間違いです。西暦2000年は100で割り切れるので、本来なら「例外の例外[2]」として「閏日」は入れたくないところですが、400でも割り切れます。従って、「例外の例外の例外[3]」として「閏日」を入れるのです。

マイクロソフト社エクセルには、Windows版とMacintosh版があります。同じ関数でも返すシリアル値が異なっているそうです。Windows版では「1900年から始まる日付システム」を用い、Macintoshでは「1904年から始まる日付システム」を用いていることによるのでしょう。アップル社のmacOS自体が1904年1月1日をシリアル値の起算日としているようなので、この問題(1900年問題)を回避するためかもしれません。Windows版でも、バージョン2.0以降では「1904年から計算する」というチェックボックスが用意されているそうです。これをチェックした場合は、1900年~1903年の日付計算が無効となるようです。ですからマイクロソフト社は、Windows版での1900年2月29日の問題について、一応は対応していることになります。

ちなみに、エクセル(Windows版)は1900年 1月1日以前は連続した日付データとして扱ってくれません。そのため「Datevalue ("yyyy/mm/dd")関数」ではエラーになります。残念なことに明治時代の日数計算には利用できません。しかしながら裏技を考えました。閏年の「例外の例外」および「例外の例外の例外」を考慮すると、4000年分下駄を履かせるのが良いかと思われます。たとえば織田信長が自害した1582年7月1日(グレゴリオ暦換算)に4000年を加えることで5582年7月1日とするのです。こうすることで、他の日との差の計算が可能です。また、ウィンドウズ版のエクセルで生じていた1900年の閏日問題は、5900年には生じません。

別の関数である「Date (yyyy,mm,dd)関数」によると、「0000年 1月1日から1899年12月31日」は、そっくり「1900年 1月1日から3799年12月31日」と同じ数値になります。しかも、その翌日である3800年1月1日からは、シリアル値が1から再スタートするという、連続性がない奇妙な関数です。従って3799年12月31日から3800年1月1日をまたぐ日付の計算には用いることが出来ません。おそらくこの関数は、個別の年・月・日のデータから「日付のシリアル値」を求めるためにあるのだと思われます。この関数を用いると、前記のように4000年の下駄をはかせることで、西暦1900年以前の計算が連続的に可能です。紀元前2100年1月1日から西暦5999年12月31日までが連続したシリアル値として利用できます。紀元前4000年から紀元前2101年12月31日のシリアル値も存在するのですが、これは前記の理屈で紀元前2100年1月1日でリセットされ、また「1」から始まるので使えません。

センター長  2019/08/31(Sat) 19:01:21
暦のこと (1)
暦上の令和元年(2019年)には面白い月(month)があります。8月1日が「旧暦7月1日」に相当します。めったにないことですが、旧暦と新暦で「1日から始まる日付」がピッタリ合います。今後このようなことは2022年までありません。この2022年には、2月1日と4月1日と5月1日の3回もあります。

旧暦の1日(朔日:ついたち)は、新月なので月が見えません。存在しない訳ではなく、太陽が真裏から照らすので全体が陰になるからです。ここから月の形は次第に変わっていきます。例えば3日目には三日月となります。月の右側がわずかに見えるのが三日月です。左側が見えるのは三日月ではありません(二十六夜です)。だいたい15日目が満月(十五夜)です。月の外観のサイクルは約29.5日なので、今年の8月には新月が2回(8/1と8/30)あります。ここまでの内容だけでも旧暦について知らなければ理解が難しいかも知れません。他にも例えば旧暦では時々、1年が13ヶ月ありました。追加された月を閏月と言います。よっぽどの歴史好きな人でも、旧暦について知らない場合があるかもしれません。例えば赤穂浪士が討入りしたのは元禄15年12月14日です。この時の暦は貞享暦という太陰太陽暦であり満月が出ていたはずです。月明かりのために他の日よりも明るい夜です。ちなみに盆踊りは旧暦7月15日です。同じく明るい満月のもとで行われていました。討入りの日を現在のグレゴリオ暦に換算すると1703年1月30日です。ネットでもこう書かれています。時間は夜明け前(午前4時頃)のようです。当時は「日が明けたら日付が変わる」というシステムだったので、まだ12月14日(貞享暦)なのです。現在は「午前零時で日付が変わる」ことになってますから、同じ日付変更システムで考えると「元禄15年12月15日(貞享暦)の夜明け前」ということになります。ですから新暦換算を厳密にするならば「1703年1月31日の夜明け前」ではないかと思います。元禄15年は閏年であり、本来の8月と9月の間に「閏八月」が挟まっています。1年が13ヶ月ありました。殿中刃傷事件は元禄14年3月14日(グレゴリオ歴では1701年4月21日)です。討入りはそれから1年10ヶ月後のことです。閏月を考慮に入れずに単純計算すると1年9か月後と考えてしまうかもしれません。

この稿では暦の仕組みについて書きます。現在の暦の前にはいくつかの暦がありました。冲方丁氏の小説に「天地明察」があります。映画化もされました。たしか岡田准一さんと宮崎あおいさんは、この映画の共演がきっかけで結婚したかと思います。映画では「お願いがあります。私よりも先に死なないでください」というシーンが印象的でした。この小説は、安井算哲(渋川春海)が和製暦である貞享暦を作る話です。この小説の中で繰り広げられるエピソードを理解するためにも旧暦の知識が必要です。旧暦の事を知っておくと、二十四節季などの日々の日常が楽しめます。旧暦では月の形が暦そのものでした。内地(北海道では本州のことをこう言ってました)では、現在の七夕は7月7日ですが北海道では8月7日です。最初に書いたように今年の8月7日は「旧暦7月7日」に相当します。本来なら旧暦で考えていた七夕と一致するのです。七夕の月(moon)は「上弦の月」です。7月の上弦の月は深夜に西に沈む(月没)時に右下の半分が見えます。最初の七夕の話は遣唐使によって伝わったものであり、月(moon)との関係については知りません。その後に日本で加わったのかもしれませんが「月のこよみ2019」によると、月(moon)にまつわる話もあるようです。旧暦7月7日に見える上弦の月を「月の舟」に見立てたようなのです。七夕の日には年に一度だけ天の川の西岸の織姫(機織りの名手)が、東岸の彦星(牛使い)に会いに行きます。織姫とは天の川の西側にある琴座のベガ(織姫星)で、彦星とは天の川の東側の鷲座のアルタイル(牽牛星)です。この2つと白鳥座のデネブを結ぶのが「夏の大三角形」です。

月の通り道は決まっていて白道(はくどう)です(太陽は黄道)。ちょうど旧暦7月7日の「上弦の月」くらいから、月はその形を変えながら約1週間かけて「天の川」を西から東へ横切ります。その際、ベガ(織姫星)とアルタイル(牽牛星)の近くを通ります。映画「ティファニーで朝食を」の挿入曲である「ムーンリバー」は「七夕の歌」ではありませんが、まさしく七夕の頃はムーン(月)の舟がリバー(天の川)を渡るのです。この月の舟には織姫が乗っています。昔は娯楽が少なく、このような自然現象に感動していたのでしょう。

日本では明治5年(1872年)12月2日の翌日から新暦(グレゴリオ暦)に切り替わりました。「明治5年12月3日に相当する日(旧暦)」が、「明治6年(1873年) 1月1日(新暦)」としてリセットされたのです。大きく分けると暦には「太陽暦」と「太陰暦」があります。「太陽」に対して、「太陰」とは「月(moon)」のことです。旧暦は月(moon)そのものでした。暦の最小単位である1日は、地球が自転することで昼と夜が生じることによります(白夜や極夜は例外)。あくまで相対的にですが地球を中心として考えると、太陽が1日かけて地球の周りを回ります。ですから太陽は時計でした。

太陽暦は「季節の変化」に基づきます。昼夜の変化が「地球の自転による」ものであるのに対し、季節の変化は「地球が太陽の周囲を公転する」ことで生じます。太陰暦は「月の満ち欠け」に基づきます。月の満ち欠けは、太陽と月と地球の相対的位置関係で生じます。「月が地球の周囲を公転する」からです。月の変化は分かり易いものなので、古くから暦には月(太陰)が用いられていました。潮の満ち干も月に関係しています。漁をする人には重要です。人間の生理学的な周期も長い年月をかけてそうなったと思われますが、月の周期に一致するものがあります。暦には大きく分けて2種類あると書きましたが、折衷案である「太陰太陽暦」もあります。これは基本的には「太陰暦」です。純粋な太陰暦では季節がずれていくために、種や苗を植えるタイミングを知るのに不便です。この「太陰太陽暦」では、暦と季節の解離を補正するため、2~3年(平均すると約2.7年)に一度、「月(month)」を増やします。すでに元禄15年の例を示しましたが、例えば本来の8月と9月の間に「別の8月」を入れるのです。これを「閏八月」と言います。「太陰太陽暦」では閏月が入った年を「閏年」と言います。この閏年には1年が13ヶ月ありました。通常の年は1年が354日前後ですが、閏年では383日前後になります。次稿からそれぞれについて説明していきます。

<補足1>
月のデータ(2019年のもの) ~ 「月のこよみ2019」 誠文堂新光社による

地球からの平均距離:384,399km
 地球の直径は約12,742kmなので、月までの距離は地球30個分くらい。
月の直径:3,474.8km:地球の直径は月の約3.7倍。
年齢:約45億年
スーパームーン:2019年2月20日:通常より約14%大きく、約30%明るい
月食:2019年7月17日
中秋の名月:2019年9月13日(旧暦8月15日):実は満月は9月14日
満月の高さ:夏は低く、冬は高い。
月食:地球の影が月に映る(必ず満月):太陽-地球-月の順となる
日食:地球と太陽の間に月がある(必ず新月):地球-月-太陽の順となる。
月(moon)は、1年あたり約3.8cmだけ地球から遠ざかっている。

<補足2>
上弦の月:月の満ち欠けは1日(24時間)の中では変わりませんが、その位置や向きは変わっていきます。月の円弧を弓と考えて弦に相当する部分を「月の向き」だとします。新月から7日目の半月を「上弦の月」と言います。「上弦の月」は昼間に東から出るので(月出)、あまりはっきりと見えないかもしれませんが、この時は左下を向いています。夕方頃には南に見えます。月は左方向を向きます。深夜に西に沈みます(月没)。「上弦の月」とは、沈む時に弦が左上を向いているからだそうです。「月の傾き」としては、春はほぼ寝た状態で、秋にかけて立っていきます。



下弦の月:新月から22日目の半月が「下弦の月」です。「下弦の月」は深夜に東から出ます(月出)。この時は右上を向いています。明け方には南に見えます。月の向きは右方向です。昼間に西に沈みます(月没)。昼間なのではっきりと見えないかもしれませんが、この時は右下を向いています。「下弦の月」とは、「上弦の月」と同様に「沈む時の形」によります。



<補足3>
「STELLAR WINDOW」という天体シミュレーション・アプリケーションがあります。私はこれを井上聖啓先生からいただきました。このブログのタイトル画像(天の川)は、これからです。このアプリでは特定の日・特定の時間の天体をシミュレートすることができます。また観測地を地球上のどこにでも設定できます。そこで日本のある場所からの月の位置を調べてみました。2019年8月7日(旧暦7月7日)の七夕から8月14日までです。時刻は21時で固定としました。この期間に月が天の川を横切る様子が分かります。この図は地球から見える月の形までは示しませんが、本文中に示したように北海道の七夕(8月7日)の月(moon)は半月です。8月14日には、ほぼ満月に変わります。


















センター長  2019/08/30(Fri) 20:04:50
亀の統計解析 (4)

<図30>
2群の差の検定です。通常の統計解説本の最初にある項目です。通常、この2群の差の検定を「一元配置のデータ」であるという言い方はしません。しかしながら、まぎれもなく「一元配置の形式のデータ」です。


<図31>
3群以上の場合と同様に、横に並ぶセルのデータ同士に「(B1)対応が無い場合」と「(B2)対応が有る場合」があります。この図は「(B1)対応が無い場合」です。「独立したデータ」と言う場合もあります。
<ノン・パラメトリックなデータの時>
94ページ:マン・ホイットニーのU検定
<パラメトリックなデータの時>
86ページ:スチューデントのt検定

通常のスチューデントのt検定を行う場合、必ずF検定をします。しかしながら、この場合でも、これまで書いたのと同じように、まず「正規性の検定」をしておく必要があります。
48ページ:正規性の検定(χ2適合度検定)
各セルのデータについて、それが属する母集団が「正規分布をするかどうか」を推定するものです。
82ページ:F検定
2群において、分散(所属する母集団の分散)が等しいかどうかを推定するものです。

パラメトリック検定において、スチューデントのt検定の亜型として「ウェルチのt検定(90ページ)」があります。これはF検定において、2群のデータが属する母集団の分散が「不等」である時に用いる「修正版のt検定」といえます。そしてF検定の結果により、「スチューデントのt検定」と「ウェルチのt検定」を使い分けるのです。しかしながら、そもそも分散が違うのですからパラメトリック検定をするための前提条件から外れています。ウェルチのt検定は数学的には成立するのかもしれませんが、ノン・パラ手法であるマン・ホイットニーのU検定を用いる方が健全ではないかと思われます。

何度も重複しますが、ここでも書いておきます。ノン・パラの手法は制約が少なくて使いやすい手法なのに対して、パラメトリック検定については色々と制約があります。パラメトリックの手法を用いる場合、そのデータが属するであろう母集団が「正規分布をしている」という仮説のもとに行います。また、別のデータとの比較をしたいわけですから、その比較対象のデータの母集団も「正規分布している」必要があります。さらにです、「全て同一母集団に属するという仮説の元に計算を行い、その確率が低い場合には、元の仮説を棄却する」という統計解析の仕組みからして、これらのデータ同士の「分散が等しい」と言う条件も満たさなければなりません。その点について意地悪な質問をされると、よっぽど統計解析に自信のある人しか反論できません。こういう面倒な前提条件があるため、可能ならノン・パラ手法を使っておいたほうが賢明と言えます。


<図32>
2群の差の検定で、2つの群のデータに「(B2)対応が有る場合」です。
<ノン・パラメトリックなデータの時>
105ページ:ウィルコクソン符号付順位和検定
<パラメトリックなデータの時>
102ページ:対応のあるt検定


<図33>
おそらく「独立多群の検定」や「独立2群の検定」を使うことが多いでしょう。これらについてフローチャート式に書き留めます。この図は「独立多群の検定」の場合です。既に説明してますが、パラメトリック検定をするには事前に正規性と等分散性をチェックします。これらが保証されていれば、一元配置分散分析です。分散分析はANOVAと略されます。ノン・パラはクラスカル・ワーリス検定です。パラメトリック検定もノン・パラメトリック検定も、どこかの群と他の群に有意差があるかどうかを言うだけです。どの群とどの群に差が有るかということを知るには、その後に多重比較検定をする必要があります。


<図34>
「独立2群の検定」の場合です。この場合は差が有るという結果が出たら、そこで終了です。

<図なし>
最後に改めて「パラメトリック」と「ノン・パラメトリック」のことに触れておきます。データがパラメトリックであると「確信がある場合」はパラメトリック検定を使うべきです。なぜならパラメトリック検定の方が検出力に優れているからです。しかしながら、その自信がなければノン・パラ手法を用いておいた方が、データ解析方法の選択として文句が付けられにくいのです。
(1) パラメトリック検定を使う場合とは?
連続的であり、なおかつヒストグラムが正規分布をしているデータを対象とした検定法です。正規分布とは、ヒストグラムにした場合に平均値を中心として対称である分布です。データはアナログのように連続している必要があります。統計解析にあたっては、調べたい各群の分散が等しいことも必要です。分散とは、ヒストグラムの形が尖っているのか、なだらかなのかを示します。
(2) ノン・パラメトリック検定を使う場合とは?
大きく分けて2つの場合があります。
(2-1) アナログのように連続的ではあるが、正規分布していないデータを対象とする場合です。あるいは母集団について正規性が不明の時もこちらです。仮に正規分布していても、調べたい各群の分散が異なれば、解析の手法自体が「同一母集団に含まれるとして・・・」という前提条件で行われるものである以上、これに反します。ですからこの場合は、「データ自体はパラメトリックである」とは言えますが、厳密に言うとパラメトリック手法の統計解析は正々堂々と使える訳ではありません。ウェルチのt検定の場合が、これに相当します。また図18で示しましたが、「繰り返しのある二元配置分散分析法(two-factor factorial ANOVA)」の場合は「頑健性がある」と言われ、その適応は許されるようです。
(2-2) データが単に順番を示すだけのものとか、例えるとデジタルのような離散した数字の場合。こちらの場合、明らかにパラメトリック手法はとれません。

./image/1565986339_735.pdfPDFファイル

センター長  2019/08/17(Sat) 05:07:40
亀の統計解析 (3)

<図21>
ここまで二元配置のデータ構造を見てきました。それらは4つのケースに分けられました。一元配置のデータ構造とは、「要因Aの水準が1つしかない」ことに他なりません。


<図22>
3群以上の差の検定の場合を例にします。図のように、例えばガラパ島の亀を対象とする場合に相当します。ですから、要因Aの水準はガラパ島という「水準1」のみです。ですから、そもそも「要因A」という認識をする必要がありません。


<図23>
要因Aを認識する必要が無ければ、要因Bという、島の中の環境だけが問題となります。ですから「セル」として意識する必要もありません。通常の統計解析の解説本には、一元配置のデータに「セル」とは明示されてないと思います。この稿ではこれまで書いてきた流れがありますから、そのまま「セル」として示します。


<図24>
セルの中に「繰り返しが無い」場合はどうなるでしょうか? データが1個だけでは統計解析は不要です。単に大小比較をすればいいだけです。ですから一元配置の場合、データのパターンとしては必ず「繰り返しが有る」ことになります。あまりにも当たり前なので「繰り返しが有るデータだ」と言わないだけです。


<図25>
セルの中に「繰り返しが無い」場合を示すと、こうなります。統計処理は存在しません。


<図26>
セルの中に「繰り返しが有る」場合を示します。一元配置のデータ構造は、必ずこうなります。


<図27>
一元配置のデータ構造の場合、何群の差を検討するのかで分けられます。3つ以上の群の比較なのか、2群の比較なのかです。


<図28>
まず3群以上の場合、すなわち要因Bの水準が3つ以上の場合です。横(行)に並ぶセルのデータ同士に「(B1)対応が無い場合」と「(B2)対応が有る場合」があります。この図は「(B1)対応が無い場合」です。「独立したデータ」であるという言い方もされます。
<ノン・パラメトリックなデータの時>
121ページ:クラスカル・ワーリス検定
<パラメトリックなデータの時>
116ページ:一元配置分散分析法(single factor ANOVA)

図18で説明したのと同じ説明です。ノン・パラの手法は制約が少なくて使いやすい手法なのですが、パラメトリックの手法を用いる場合、そのデータが属する母集団が「正規分布をしている」という仮説のもとに行います。また、別のデータとの比較をしたいわけですから、その比較対象のデータの母集団も「正規分布している」必要があります。さらに統計処理の前提として、これらのデータ同士は「分散が等しい」と言う条件を満たさなければなりません。その点について意地悪な質問をされると、よっぽど統計解析に自信のある人しか反論できません。こういう面倒な前提条件があるため、可能ならノン・パラ手法を使っておいたほうが賢明です。・・・とは言え、対策があります。
(1) 48ページ:正規性の検定(χ2適合度検定)
各セルのデータについて、それが属する母集団が「正規分布をするかどうか」を推定するものです。
(2) 112ページ:バートレット検定
各群において、分散(所属する母集団の分散)が等しいかどうかを推定するものです。

クラスカル・ワーリス検定(ノン・パラ)でも一元配置分散分析法(パラ)でも、各群の代表値に「差があるかどうか」しか分かりません。通常は、「どの群」と「どの群」に差があるのか知りたいはずです。そのためには次の段階が必要です。これが多重比較検定です。これをポストホック・テストという場合もあります。いくつか種類があります。
(A) パラメトリック多重比較検定 (168ページ)
(A-1) Tukey-Kramer 法
(A-2) Scheffe’s F Test
(A-3) Bonferroni / Dunn 法
(A-4) Dunnett 法
(A-5) Williams 法
(B) ノン・パラメトリック多重比較検定 (186ページ)
(B-1) Steel-Dwass 法
(B-2) Steel 法
(B-3) Shirley-Williams 法


<図29>
3群以上の場合で、横に並ぶセル同士のデータに「(B2)対応が有る場合」です。この図のデータ構造を見ると、図16の場合(繰り返しの無い二元配置分散分析法)とそっくりです。しかしながら二元配置データの場合(図16)は、要因Aと要因Bが互いに影響を及ぼし合っている可能性を考慮に入れて計算する必要があります。この点が一元配置の解析と異なっています。一元配置データの場合(図29)は、データは(隠れている)要因Aの同一水準の中にありますから、要因Aが要因Bに影響を及ぼさないことが前提となっているはずです。このことが、データ構造の違いなのでしょう。
<ノン・パラメトリックなデータの時>
131ページ:クェード検定
<パラメトリックなデータの時>
126ページ:重複測定・一元配置分散分析法(repeated measures single-factor ANOVA)

センター長  2019/08/16(Fri) 20:48:50
ページトップへ