リスクヘッジの研究トピック選び:Part 2

Part1 では書ききれなかった論文トピックの落とし穴の一つがサンプル数 (small sample size) で、サンプル数が少ない、もしくは少ないだろうと予想されるスタディーに手を出す場合はかなり注意が必要だと思う。

サンプル数は多い方がいい、というのは直感的にわかるのだがサンプル数が少ないのがマズい理由は多角的。

統計的なディテールは専門家にお任せするがsmall sample size の問題点はコンセプトとして:

  • 読者の印象
  • 「有意差無し」を解釈できない
  • モデルがオーバーフィット

等がメインではないだろうか。

読者の印象

Abstract のMethods で、後ろ向きの効果比較系のスタディーなのにn=50とか書かれているとその時点で論文の内容に対してかなり怪訝になってしまうのではないだろうか。査読の場合はこの時点でかなりのダメージを被っている印象。

ただサンプル数自体に本質的な重要さはなく、メソッドとstudy aimのコンテキストによって、「多い少ない」の評価が決まると思う。例えば単一施設の n=50 のスタディーでも、COVID19の世界最前線データをdescriptivelyにまとめたものなら価値がある。世界初の手技のアウトカムデータなどもこの類。

そして基礎的すぎるかもしれないがサンプル数と混同されがちなのが、その研究結果がどれだけ幅広い人口グループに当てはまるかを表すrepresentativeness ではないか。例えば、医療環境が全く違った発展途上国の病院から得た10万人のデータはどれだけビッグデータでも先進国の従事者や患者にとってはあまり意味がない。

ただこの様なあからさまなケースは稀でrepresentativeness は相対的で突き詰めた評価が難しい。なのでsingle vs. multicenter と合わせてまず大雑把な印象付けをするのがサンプル数だと思う。

余談だが、サンプル数が少ないのをなんとか隠そうとしてあえてあまり関係のない母集団の数を書いて最終的に解析に含まれた数を曖昧にするアプローチをたまに査読で見る。サンプル数は確実に評価のファクターなので絶対にどこかの段階で問い詰められるし、分かりにくい書き方をしたことで心証が悪くなることの方が多いと思うのでどんなに少なくても明確に書いた方が総合的にプラスになると思う。

有意差無しの解釈が不可能

効果比較のスタディーで結果が有意差無しだった場合に付き纏うのが「検定力が足りていたか」という疑問で、サンプル数が明らかにに少ない場合はここでつっこまれる。

有意差があった場合でもサンプル数が少ないとlow precisionによるただのノイズではないかという批判になるが、とりあえず有意差なしのケースで検討したい。

例えば治療法Aと治療法Bで1年生存率が50% vs. 90% という大きな差異があった場合でもN=10 vs. 10 の極少サンプルのため p=0.5で有意差無し。これを ”There was no difference in 1-year survival between the two treatment modalities.” と捉えてしまうと埋葬されてしまう可能性大。

本当に治療法AとBの効果がほとんど一緒なのか、それとも本当はどちらかの治療法が優れているのだがサンプル数が少なすぎて検定力不足で有意差無しという結果になっただけなのかが区別できない

ならパワー計算すればいいじゃないかという話になりがちなのだが、パワー計算は観察研究のコンテキストではあまり実践的ではない、ということを Goodman SN, Berlin JA. Ann Intern Med. 1994 (1) を基に議論したい。

つまり、観察研究で治療法AとBを受けた患者を比べるために交絡因子をモデルで調整したが治療法とアウトカムの間に統計的に有意な相関がなかった場合、post-hocのパワー計算を行ってそれが検定力不足によるものなのかを評価することはできない、という議論。

これは生物統計の界隈では宗派の様なものなのかと思うのだが、僕は周りの影響から、post-hoc power analysis は「意味ない」派

意味無い派の議論:

RCTを行う場合、トライアルを始める前に必要であろうサンプル数をパワー計算で推測する。そして弾き出されたサンプル数に到達するためにenrollment の期間や方法を決める。

これを実験前に行うことには意味があって、例えばpower=0.8で治療法A vs. B のeffect size がこれくらいだとした場合、何人患者が参加すればその効果を検出することができる、という必要サンプル数の目安が得られる。

しかし後ろ向き観察研究のコンテキストで、治療法A vs. Bの有意差が出なかった理由が検定力不足によるものかを議論するためにパワー計算を事後 (post-hoc)に行う場合、これは宝くじの1等が当選した人に対して、宝くじなんて儲からないからやめておきなよ、という事前の確率論を説いて事後の当選した事実を無視して説得を行う様なものだ、という例えがなされている。

Ann Intern Med の論文の議論はもっと深いのだが、サンプル数が増えれば検定力も増えるので、サンプル数を無限に増やしていくとどこかで統計的有意差が出始める。なので有意差が出なかったデータで検定力を計算をすると常にそのスタディーは検定力不足だったという解釈になるのでpost-hoc power analysis は無意味、というとんちのような議論。

[Post-hoc power analysis] will always show that there is low power (< 50%) with respect to a nonsignificant difference, making tautological and uninformative the claim that a study is “underpowered” with respect to an observed nonsignificant result.

これはいつかもっと深めたいコンセプトだが、とりあえずサンプル数が少ないスタディーをpost-hoc power calculationを使ってサルベージしようとすることは難しいという話だと思う。

モデルのオーバーフィット

これは1:10ルールで結構有名かと思うのだが、モデルで調整する変数の数とアウトカムが起こったサンプル数の比率を一定以下に保ちましょう、というもの。

大した量のデータがないのに複雑なモデルをフィットしようとするとbiasのかかりまくったモデルになってしまうので、モデルに入れる変数の数はアウトカムのあったサンプル数を考慮して決めましょう、というルール。例えば100人アウトカム有りのサンプルがあれば変数10個(パラメーター)までOK、という感じ。

なのでこれはサンプル数というよりは死亡人数などのアウトカムのあったサンプル数でsmall sample size を定義する一つのルールではないだろうか。

よく引用されているのは初期のシミュレーションに基づいた1:10だと思うのだが、普遍的な比率があるわけでは無くデータセットにもよるので1:5くらいまでは大丈夫というペーパーもある (2)。この論文ではオーバーフィットではなくbiasという言い方をしている。大体この辺に収まれば、モデルとしては成り立つ(かもしれない)という最低ライン。

まとめ

Small sample size はかなりデカい落とし穴。

文献

1.         Goodman SN, Berlin JA. The use of predicted confidence intervals when planning experiments and the misuse of power when interpreting results. Ann Intern Med. 1994;121(3):200-206.

2.         Vittinghoff E, McCulloch CE. Relaxing the rule of ten events per variable in logistic and Cox regression. Am J Epidemiol. 2007;165(6):710-718.

2 thoughts on “リスクヘッジの研究トピック選び:Part 2

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s

%d bloggers like this: