【書評】統計学が最強の学問である
みなさまこんにちは。
生物学×化学×ITで勉強中のメーカー研究員toryzaeです。
しばらくブログを更新出来ませんでした。やはり年度末は何かと仕事が忙しくなる時期ですね。残業が続くと疲れが溜まり、なかなか読書が進みませんでした。
最近は、家にいる時間はPythonではじめる機械学習をずっとやっているのですが、少し頭を切り替えようと思い、今日は外のカフェで読書してきました。最近読んでいた本がようやく読み終わったので、書評を書いてみます。
統計学が最強の学問である
西内啓 著
www.diamond.co.jp
米国データサイエンティストのかめさんのブログで、一般教養本として取り上げられていた本です。
人口知能の教養本を2冊読んだため、今度は統計学の教養本を読んでみました。
(書評1、書評2)
統計学自体は学生時代に基礎レベルは学習しており、最近も統計学関連の本を2冊読んだため、全くゼロからのスタート、というわけではありませんでした。
ただ、最初にこちらの本を読むのではなく、少し統計学の本をかじってから読むことで、これまでの総復習を兼ねてスラスラと読むことが出来たため、初学者はいきなりこちらの本を読むより、基礎的な統計学の知識を身に付けてから読んだほうが良いかもしれません。
内容はタイトルにある通り、「統計学ってスゲーんだぜ!」ってことを様々な観点から述べられています。私自身は自然科学、特にバイオテクノロジー周辺領域が専門であるため、統計学と直接向き合うことはこれまでありませんでしたが、統計学の知識を身に付けることで、データの取り扱い方や示し方について、いったん考えてから方向性を出すようになりました。
ざっくり内容をまとめると、
☑ ランダムサンプリング最強!
☑ いろいろある回帰分析は、1枚の表でまとめられる!
☑ 統計学の6つの分野と、それぞれの特徴
といったことが書かれています。
特に下2つが印象的でした。
☑ いろいろある回帰分析は、1枚の表でまとめられる!
→ t検定やカイ二乗検定など、いろいろな用語を統計学の基礎では学習すると思います。正直ごっちゃになることが多かったのですが、こちらの1枚の表で整理することで、全体の位置づけや使い分け方について、体系的に理解することが出来ました。いずれ機械学習を学ぶ際に統計学の知識が必要になったときには、こちらの表を見返しながら、勉強したいと思います。
☑ 統計学の6つの分野と、それぞれの特徴
→ 私自身は農学部出身ということもあり、「生物統計学」、という分野には馴染みがあったのですが、それ以外の統計学の分野として「心理統計学」や「計量経済学」などについて紹介があり、それぞれの分野がどのような考え方に基づいて分析を行っているか、などが体系的にまとめられていました。いわゆる古典的な統計学は生物統計学に当たるのですが、心理統計学なども学習してみたいと思いました(専門レベルではなく、教養レベルとして)。
こうして少しずつ統計学関連の本を読み進めると、データの取り扱い方に注意を払うようになったり、機械学習を勉強する際のアルゴリズムが分かるようになったりと、自然科学系の研究開発者にとっても良いことだらけですね。特にバイオ分野の研究者は数学が苦手な人が多く(私もです)、数式関連は大嫌いという人が多い印象があるので、統計学の知識を持つ人が少ない印象があります。そうした中で、統計的にきっちりデータを示すことで、他の人とは違うぞ、と思わせることが出来そうなので、こちらの分野の勉強は継続していきたいところです。
さて、今年度の残りの時間では、Pythonではじめる機械学習をなんとか終わらせたいところです。
2020年度は引き続き機械学習、統計学の勉強を継続する予定ですが、それに加えて英語のwritingに取り組む予定です。