10個のルールで効果的な統計を実践できるか --- Can I do statistical practice effectively with 10 simple rules ? ---
前略
10月31日の科学研究の再現性で紹介したNatureの記事"Reproducibility: Seek out stronger science"(Nature 537, 703-704 (2016) doi:10.1038/nj7622-703a) にあった,"Ten Simple Rules for Effective Statistical Practice"を読みました。
"How to"ものと言ってしまえばそれまでですし,simpleな10個のルールを読んだだけですぐに統計的方法をeffectiveに使えるはずもないわけですが,発表されてから10万回以上も閲覧されているということは,裏返せばそれだけ統計で悩んでいる人が多いということでしょう。
畏れ多くもちょっとコメントつけて"10 simple rules"を,さらにシンプルにまとめてみました。
  1. 科学の疑問にデータが答えられるようにするのが統計だ。
    データがあれば課題に対する答えが出るわけではない。データが答えてくれるような方法を考えよ。(それにつけても,研究開始まえに統計学者に相談し,いっしょに研究しろ!)
  2. 信号にはノイズがつきもの。
    データにはばらつき(variability)がつきもので,それをどう評価するかが重要だ。
  3. まず研究計画をきちんと立てよ。
    計画段階で疑問を発することが重要だ。
  4. データの質を心配せよ。
    欠測,異常,重複はないか,形式や単位は統一されているか,解析に入るまえに注意せよ。また,なぜそれが生じたのかもチェックせよ。
  5. 統計は単なる計算手順ではない。
    なぜその統計的方法を採用したのか,明確に説明せよ。解析のプロセスを構造的なアルゴリズムとして作成し,それを記録せよ。再現性(reproducibility)に役立つ。
  6. シンプルに。
    単純モデルから始め,必須の場合にのみ仮定を加えよ。
  7. ばらつきの評価を提供せよ。
    ばらつきの原因を探り,評価し,説明せよ。
  8. 仮定をチェックせよ。
    統計的方法,統計モデルの前提条件をチェックせよ。
  9. もう一回やってみろ。
    アカデミックに言うと,反復(replicate)せよ。
  10. 再現可能(reproducible)にせよ。
    同じデータから記録された手順にしたがい,まったく同じ図や表を作成できるか,同じ統計的推論にたどり着くか検証せよ。
これは,次のような人を対象としています(そう書いてます)。
  1. ある程度の統計の知識を持っている。
  2. 同じ組織か,同じ建物に相談できる統計の専門家がいる。
  3. do-it-yourself精神を持っている。
  4. パソコンに統計ソフトが入っている。
私は,せいぜい3つ目しか該当しませんので,読む資格はおろか,論評するなどとんでものないことですね。実際,意味不明な部分がいくつかありました。
印象としては,生物学のアーティクルに比べ非常に読みにくい,訳しにくいですね。もちろん,私自身が統計に詳しくないからでしょうが,それでも,少々,上から目線,を感じてしまうのは,やはり私自身の自信のなさ故でしょうか。
生物学のどの領域でも同レベルの統計的技量が必要だとは思いませんが,少なくとも,医学に関わる領域では(医学は確率が意味を持つので),確かな統計の技術を持っているかどうかは,研究・学術論文の価値,ひいては臨床への影響を考えると極めて重要だと思います。
そういう意味でも,特にバイオメディカル領域では,この「10のルール」の対象読者リストの2つ目にあるように,すぐそばに相談できる統計学者がいることが必要でしょう。外科手術では,外科医だけでなく,担当医や術式になれた看護師,そして麻酔医が重要な役割を果たすと思いますが,それと同じように,バイオメディカル領域の研究に統計の専門家も参加することが,データ改竄・捏造の懸念を払拭したり,再現性(reproducibility)を高めることにつながるでしょう。実際のところ,バイオメディカル研究者たちが統計的手法を十分に使いこなせるほどにマスターしなければならないのは負担だと思いますしね。
一方で,そういった統計学者,あるいは統計の技術スタッフの処遇も問題となるでしょうね。この「10のルール」にもあるように,あまりにも気軽に「チェックして,アドバイス頂戴」という日常に統計学者たちは辟易しているわけで,バイメディカル研究者が,統計に限らず他の技術スタッフを一段低く見る雰囲気がないか,ですが,どうでしょうか。そういった風景はあちこちで見ることができますよね。
この"10 simple rules"でも取り上げられていますが,ASA(アメリカ統計学会)のp値と統計的有意性に関する声明やその他,再現性(reproducibility),反復可能性(replicability)に関するさまざま記事を目にするにつけ,それだけ科学の再現性や誤った統計的推論に対する危機感が強いということなのでしょう。
解析手順を含めデータをオープンにすることで科学の再現性は向上するかもしれませんが,現実問題としてどこまでデータ等をオープンにできるか疑問でもあり,別の問題も発生するでしょう。素人なりに思いつくものをあげてみまました。
  • 研究の主導権争いが激しいバイオメディカル領域にあっては,オープンが可能とは思えません。とりわけ,competing interests が絡んだら無理でしょう。
  • 現在でもアーティクルによってはかなりの量のsupplemental materialsが提供されています。今後のアーティクルのフォーマットも含め,データの提供方法についての基準を決める必要があるのではないでしょうか。
  • 最初から全部見せられても困るわけで,当然必要な人にだけアクセスできるようにしておく,ということでしょう。では,その方法はどうすのでしょうか。データを誰がどこに保存し,管理は誰が行うのでしょうか。ラボ,大学や研究機関,共有基盤,ですか。
  • データに付随するさまざまな権利をどうするのでしょうか。オープンにされたデータから新たな成果が得られる可能性もあります。例えば,open NASAはどうしているのでしょうね。
  • ビッグ・データを活用したデータ・マイニングではとりわけ統計的方法が適切に使われているのか,評価が重要でしょう。優れたソフトウエアもたくさんあるのでしょうが,それだけにデータを投入するだけで,厳密な検証なしに「統計的推論」がなされ,真実のように歩き始めないか,非常に心配です。
  • ラボのデータ管理も心配です。学生に管理を任せていないか。オープンにしてよいもの,すべきもの,してはいけないもの,があると思います。学生がSNSなどで気楽に書いたりして,後で大変なことにならないでしょうか。
実は,ラボで使われる試薬などについても心配しています。年寄りの心配性のせいでしょうが。
昔はバッファーなど自分で調製していました。たぶん,ちゃんとしたラボでは調整済みの市販品も使用前に検定しているのでしょうが,本当にそうなのか,私は現場にはいませんのでわかりません。さまざまな分析機器も同様です。ルーティン化された部分ではキットも使われるでしょう。この"10 simple rules"では統計ソフトのバージョンの違いまでも心配しています。それだけきめ細かく慎重な研究計画が必要なわけですが,それをどうやって実現し保証するのか,科学に課せされた重要な課題ですね。
では,風邪,流感,その他体調管理を怠りないように。季節柄,酒など飲まぬように。
草々
2016年11月17日