アウトプット記録

生物学×化学×ITな人材を目指して

【勉強記録】Pythonではじめる機械学習 -scikit-learnで学ぶ特徴量エンジニアリングと機械学習の基礎

みなさまこんにちは。
生物学×化学×ITで勉強中のメーカー研究員toryzaeです。


気が付けば2019年度もあと1週間ですね。今年度の初めに立てた目標は無事達成できました。
2020年度始まったらまた新しい目標を立てようと思います。


さて、前回の記事からだいぶ時間が経ってしまいましたが、久々の勉強記録です。

Pythonではじめる機械学習
――scikit-learnで学ぶ特徴量エンジニアリングと機械学習の基礎

www.oreilly.co.jp


前回の記事でも書きましたが、初めに深層学習の本に手を出してしまいました。行列で表現できるんだな、とかなんとなくわかった一方で、深層学習は機械学習の一部分にすぎない、ということも分かりました。
そこで、機械学習の基礎を、pythonの観点から学びたいと思い、こちらの本に取り組みました。


結論から言いますと、原理や数式はあまり理解出来ませんでしたが、scikit-learnで何が出来るのか、何を気をつければよいのか、といった実践的なことを理解できました。

全8章から成りますが、
2章:教師あり学習
3章:教師無し学習と前処理
5章:モデルの評価と改良
辺りがメインとなり、分量もそれなりに割かれています。


機械学習”で何が出来るのか、”機械学習”を行うためには、どういったデータセットを用意して、何をアウトプットに置いて分析したら良いのか、など、実践的な内容が多く、
データセットが手元にあるのなら、すぐにいろいろ試せそうな印象でした。
本書を一通りやることで、自分の専門であるバイオテクノロジー領域で機械学習の活用がなかなか進まない原因もなんとなく分かってきました。
バイオ系ってn数を増やすのが大変なんですよね…。

機械学習の技術を酵素改変に活用したいと思って勉強を始めたのですが、Arnold先生の総説でもありますように、果たして機械学習による酵素改変が最適解なのか、勉強していくうちに疑問になってきました。「機械学習を使わない選択をするのも機械学習エンジニアの仕事」と何かのサイトで見たような気がしますし、自分の技術の1つとして、機械学習領域を今後も勉強していきたいと思います。


とりあえず機械学習の基礎が出来たので、少しずつ実践しながら、勉強を進めていこうと思います。
Kaggleとかにトライしてみるのが良いんですかねぇ…。
もちろん、すべてを理解したわけではないので、本書は辞書として適宜参照していくつもりです。


さて、次からはまた統計学の勉強に戻ります。
Rによるやさしい統計学で、統計学の復習をするつもりです。
少し始めているのですが、Rではなくpythonで実行していくことで、pythonの学習にもなって一石二鳥ですね。

shop.ohmsha.co.jp