Student's t-testについて
‾原理‾
(1)はじめに
実験をやり、データが取れた。条件Aの平均値がA、条件Bの平均値がBとなった。この平均値の間に本当に差があるのだろうか。それとも平均の差は単なる誤差で説明できるのだろうか。これが知りたいことである。使うのは各条件の平均値と標準偏差、計4つの数字である。以下で、平均値の差の検定の基礎にある原理を説明する。
(2)帰無仮説から出発する H0:A=B
まず、平均の差は偶然で生じたと仮定しよう。つまり本当は条件 A と条件 B では全く何の差もないのだと悲観的に考える。ということは、2条件の平均値を求めるのに使ったデータは、条件に関わらず「同じもの」ということである。つまりこの2つのデータ群は、同じ母集団から抽出されたサンプルだということである。
(3)平均の差の分布を考える
同じ母集団から何度もサンプルを取ると、サンプル平均はサンプルごとにばらつき、それ自体がある分布をする。十分な数のサンプルを取れば「平均の分布」は「平均の平均」を中心に正規分布する。ここで「2つのサンプルの平均値の差の分布」を考える。2つのサンプルが同じ母集団から来ていると仮定しているのだから、平均の差の分布の平均はゼロになる。この分布も正規分布で、標準偏差(平均の差の標準誤差)は2つのサンプルの標準誤差の幾何平均(ピタゴラスの定理による直角3角形の斜辺の長さ)となる。
(4)信頼区間を考える
平均の差は正規分布するので、正規分布の性質を利用して、ばらつきの範囲からその範囲でばらつく確率を、また逆に確率からばらつきの範囲を計算できる。ある確率で母集団の平均値が存在する範囲のことを信頼区間という。95%の確率で母集団の平均が存在する範囲(95%の信頼区間=危険率5%の推定)は、プラスマイナス標準誤差 ×1.96である。平均の差が偶然で生じたのならば、平均の差の値がこの範囲からはみ出ることは95%ありえないのである。もしはみ出たら、最初に立てた仮定(2つのデータ群は同じ母集団から抽出したサンプルである)は「95%確実に、まちがっている」のである。
(5)データから計算し、検定する
まず平均値の差を求める。次に2つの標準誤差の幾何平均を求める。後者を 1.96 倍する。
その答えをプラスマイナスの範囲に直す。その範囲に平均値の差が入っているかを見る。
入っていれば平均値の差は偶然で起きたと95%確実に言える。はみ出ていれば平均値の差は偶然ではないと言える、すなわち「差は5%水準で有意である」と宣言する。
(6)正規分布からt分布へ
以上の、正規分布を利用した平均値の差の検定をz検定という。しかしこのz検定は実際にはほとんど使われない。サンプルに含まれるデータが30個以下だと、正規分布による検定は不正確になる。30以下の小さなサンプルの場合にはStudent's t−testを使う。
〜実践編〜
(1) 目的
2つの平均値の間の差の検定
(2)実施の前提条件
1. データが間隔尺度以上であること。(順位や比率のデータはだめ)
2. サンプルが無作為に選ばれていること。
3.各サンプル内でデータが正規分布をしていること。「正規性検定」で確かめる。
ただし、t検定はこの条件の違反には「頑健」。
4.各サンプルの分散が等しいこと。「等分散検定」で確かめる。等しくない場合にはtの値を修正する必要がある。
まとめると、「ランダムにとってきた同じような被験者を沢山使って、物差しや時計で測れるようなデータをとった場合のみ使える」ということ。
(3)実際の手続き
(1)「有意水準」(危険率p)を決める。
(2)自分のデータからtの値を求める。
(3)「t分布表」を参照して、自分の求めたtの値が表の値よりも大きいかどうか見る。大きいならば平均値の差は5%水準で「有意」(95%確かである)、小さいならば「有意でない」(確実さが95%以下である)という結論になる。
正規分布とt分布の違いは、t分布の形がデータの数(正確には自由度)によって変化することである。従って、正規分布の場合のように「95%の信頼区間は標準誤差のプラスマイナス 1.96 倍」というふうに簡単にはいかない。そのため、昔から「t分布表」というものが作成されている。これは、有意水準と自由度から「tの臨界値」を求めるための表である。臨界値とは、ある有意水準と自由度における信頼区間の両端の値である。
有意水準と自由度からt分布表を参照して、表のt値(臨界t値)を求める。次に自分のデータから各条件の平均値と標準偏差、つまり計4つの数字を求め、これらを使ってひとつのt値を計算する。そして、表のt値と自分のt値を比べる。自分のt値が表よりも大きければ、指定した信頼区間から自分の平均値の差がはみ出たということ、つまり差が有意ということである。ただし、平均値の差は常にプラスにしておくこと。t分布も正規分布と同じで左右対称で、ある臨界値はそのプラスマイナスの範囲を表わすから。
現在では、t分布表よりも統計ソフトウェアを用いることが多い。統計ソフトは、データから得られた平均の差が偶然に生ずる確率を、t分布の方程式から直接に計算する。つまり危険率を決めた上で臨界値を求めるのではなく、逆にデータから直接に危険率を計算する。従って、アウトプットでは「有意かどうか」は書いてなく、かわりにpの値が書いてある。ユーザは、自分があらかじめ決めた危険率よりもこのp値が小さいかどうかを見るのである。そして論文には、「…有意であった(p=.013)。」のようにp値そのものを記載することが多い。
(5)tの値の計算法
2条件のうち、1つをA条件、もう1つをB条件とし、t値を計算する。
![]() |
|