アウトプット記録

生物学×化学×ITな人材を目指して

【書評】「それ、根拠あるの?」と言わせないデータ・統計分析ができる本

みなさまこんにちは。
生物学×化学×ITで勉強中のメーカー研究員toryzaeです。

最近は残業が続いていてなかなか読書が進みませんでしたが、
行き帰りの電車の中で、少しずつ進めていました。
「千里の道も一歩より起こる」、ですね!(言ってみたかっただけ)


さて、本日紹介する本はこちら!
「それ、根拠あるの?」と言わせないデータ・統計分析ができる本
柏木吉基 (著)

www.njg.co.jp


米国データサイエンスのかめさんのブログで紹介されていた本です。
datawokagaku.com


私個人の話で恐縮ですが、データサイエンスの勉強を始めたきっかけは、
自分の専門分野で機械学習、深層学習を行いたい、と考えたことが始まりです。

自分の専門は酵素化学なのですが、近年、酵素の改良技術に機械学習の手法が使われつつあります。
酵素の改良技術では、Frances H. Arnold博士が酵素の指向性進化で2018年にノーベル化学賞を受賞されていますが、
Arnold博士のグループでも、機械学習の手法を取り入れています。
自分もそういった世間の動向に追いつくために、機械学習などについて勉強を始めました。

(参考)
blog.miraikan.jst.go.jp



ネット上の記事を読んで、統計学や数学が大事なのはなんとなく分かっていましたが、
基礎から始めても途中で投げ出してしまうのは目に見えていました。
そのため、プログラミングから初めて、分からなくなったら統計学や数学に戻れば良いや、と考えていました。

初めにPythonを少しかじり、そのあとは機械学習、深層学習関連の書籍を進めているところです。
ただ、最近になって、統計学や数学の知識がどうしても不足していると感じたため、
このタイミングで統計学の勉強を少しずつ始めることにしました。


学生時代に統計学の授業を受けていたため、基礎中の基礎は大丈夫だろうと思い、
かめさんのブログで紹介されていた中で、一番とっつきやすそうなこちらの本を選択しました。


内容は統計学×ビジネスについてで、
上司と新人の二人が会話形式で話を進める → そこで使用した統計手法について紹介、という流れです。
学生時代に統計学を少しでも触ったことがあれば、理解できると思います。
特に、社会人1-2年目辺りの方であれば、ビジネスで数字をどう活かすか、という視点を持てるようになるので、非常に有用な本だと思いました。

序章 データ・統計分析のための発想とコツ

こちらの章では、まず、データを分析するにあたって重要な「考え方」について整理します。
データ分析というと、まず膨大なデータをいろいろな所から搔き集め、データ間の相関を分析したり、グラフ化したり、…といったイメージが多いと思います。
実際、私も最近勉強するまでは、そういうイメージが強かったです。

ビジネスで統計学を活かす際の考え方として、
自分は何を言いたいのか、そのためにはどういう情報(データ)が必要なのか、
という順序が重要である、ということが述べられていました。
先日書評を公開した「機械脳の時代」の書籍でも同様のことが書かれていたため、
この考え方はデータ分析を行うに辺り、非常に重要であると推察されます。
toryzae211.hatenablog.jp


その際、仮説を立ててデータを採取し、分析するサイクルが重要とのことです。
仮説を検証する際、ピラミッドストラクチャを立ててみると、容易に内容を整理することができます。
このピラミッドストラクチャというフレームワーク、本書で初めて知ったのですが、
日常の研究開発業務でも使えそうだと感じたため、取り入れていきたいところです。

第1章 効率的なデータ分析のための集め方と分析の視点

仮説を立てて、目的が定まったら、次はデータを集めることが必要になります。
いざ分析を始めたら、「あのデータも集めておけばよかった!」となることも多いです。
データ収集の際のポイントをいくつか挙げると、

  • 目的の少し外側までデータを集める
  • データの軸を意識してデータを集める
  • データの範囲を意識する

といったあたりがポイントみたいでした。
研究開発をやっていると、比較的当たり前のように意識するポイントのように感じたため、
実験をデザインする時と同様なプロセスを踏めば問題無さそうな印象でした。

第2章 規模と、平均・中央値の話

第2章辺りから、統計学っぽい内容に入っていきます。
この章では平均と中央値を取り扱っています。

平均は普段の業務でもよく使うのですが、中央値はあまり使わないため、
平均と中央値の使い分け方、考え方は勉強になりました。
特に「外れ値」をどう扱うかについては、今後の参考にしたいところです。

第3章 標準偏差ヒストグラム

第3章では標準偏差を取り扱います。
標準偏差が「バラつき」を示すことは多くの方がご存じかと思いますが、
そのバラつきをビジネスの場でどう活かすか、という視点は勉強になりました。
また、表題にあるヒストグラムは、バラつきを視覚的に示すのに有効です。


第4章 データで将来を見通す「相関分析」

第4章では相関分析を取り扱います。
データ同士の関連性(一方が上がれば他方も上がるのか?)を相関係数で示すことがポイントでした。
日常業務でR2値をよく使うため、ここはさらっと。
相関係数は0.7以上、が一つの目安みたいですね。


データの相関はデータを見ただけでは難しく、
エクセルなどでデータから相関係数を算出 → 相関がある or 無いを判断することは危険です。
散布図で一度データを可視化し、数値からは判断できないポイントを見出すことも大切そうです。

第5章 企画の計画性・収益性をつかむ「単回帰分析」

第5章は単回帰分析です。
いわゆるY = Ax + Bの式で、xが〇〇のとき、Yは●●だろう、というやつですね。
これも日常でよく使っているため、さらっと。

  • 無限に直線関係が成り立つことは稀であるため、データ範囲を意識すること
  • 将来の予測に用いる場合、あくまで過去のデータを基にした予測であること

この辺りは、意識しておきたいポイントです。

第6章 メッセージをもって「数字」を伝える

最終章は分析結果をどうやって伝えるか、についてです。
ビッグデータの分析などを行うと、どうしても分析したもの全てを伝えたくなるものですが、
当初の目的に一度返り、目的を達成するには何を伝えれば良いのか、
その際、数字が良いのか、グラフが良いのか、言葉が良いのか、
を意識すると良さそうです。



全体を通して、序章や第1章の内容が印象的で、
残りの章は、統計学の復習、といった印象でした。
しかしながら、最後に統計学を勉強したのが10年ほど前なため、
改めて復習するにはちょうど良い内容、分量でした。

本書はいわゆる古典統計学を取り扱っていました。
こちらの基礎中の基礎は問題ないと思ったため、次はベイズ統計学の基礎中の基礎を固めようと思います!


www.njg.co.jp