書籍

『分析者のためのデータ解釈学入門』| おすすめしたくないけどおすすめです

『分析者のためのデータ解釈学入門』

この記事では東京大学先端科学技術研究センター特任講師(2021年11月現在)である江崎貴裕氏が書かれた『分析者のためのデータ解釈学入門』という書籍をご紹介します。

分析の手法的技術・テクニック論よりも、まずはデータのとらえ方や解釈方法の基本を知りたいという方に(おすすめしたくない気持ちもありつつ)おすすめしたい一冊になります!

以下では『分析者のためのデータ解釈学入門』を以下の各部を順番に簡単にご紹介していきます。

  • 第1部 データの性質に関する基礎知識
  • 第2部 データの分析に関する基礎知識
  • 第3部 データの解釈・活用に関する基礎知識

が、その前に最初にこの書籍について個人的に感じたことをまとめておきます!

まとめ(おすすめする?しない?)

結論から言うと個人的にはこの書籍を「おすすめしたくないけどおすすめする!」という想いです。

おすすめする理由は「データの解釈の方法」について網羅的・体系的にとてもわかりやすくまとまっていること」です。

データ分析に関する一般向け(専門書・学術書を除く)書籍と言うと、「エクセルで仮説検定や回帰分析をやってみよう」とか、「Pythonで手を動かしながらデータ分析」といった、どちらかというテクニックや手法を身につけようというテーマの書籍が多いように思います。

もちろん理論を学ぶ系の書籍もありますが、「統計学入門」とか「データ分析入門」といったテーマであることが多いかと思います。

それに対して本書は統計学であれ機械学習であれ、データ分析において前提となっている「データの解釈の方法」について焦点を当てた貴重な書籍で、加えて、よくできたスクールのカリキュラムのように体系的に整理されています!これが本書『分析者のためのデータ解釈学入門』をおすすめする理由です。

では「おすすめしたくないけど…」というのはどういうことかと言いますと、この本は実は玄人好みの本ではないかなと感じるというのが背景にあります。

たとえば第1部で登場する「誤差とバイアス」「交絡因子」、第2部で登場する「自己相関」「相関係数の罠」、第3部で登場する「シンプソンのパラドックス」「HARKingとp-hacking」…この辺の論点はデータ分析をはじめた頃に見落としがちな論点(私だけ?汗)で、データ分析に携わっている人ほど「あぁこれこれ!」と頷いてしまうような論点かと思います(悔しい!)。

なのでデータ分析がまったくの初めて、これから0からスタートする、というような方よりも、今まさにデータ分析に取り組んでる方や、データ分析の勉強をはじめて少し時間が経過したような方のほうが「ドンピシャ」な書籍だと思います。

それと「おすすめしたくないけど…」の背景にはもうひとつ、ちょっとした「嫉妬」もあります笑

この書籍はデータ分析で陥りがちな落とし穴や罠がたくさん紹介され、しかもそれが体系的に整理されています。個人的にこういう落とし穴や罠というのは、「実際に汗水たらしてデータ分析に取り組むなかで身をもって気づくべきものだ!」という少々ダサい考え方が(少しだけ)あります。

しかしこの書籍を読んでしまえば手っ取り早くデータ分析の「落とし穴」や「罠」を学ぶことができるので、そこに対する少々嫉妬する想いが見え隠れし、それが「おすすめしたくないけど…」という枕詞に見え隠れしています。

ということで結論としては「データ分析の落とし穴や罠を体系的に学べる貴重な書籍なので(悔しくておすすめしたくない想いもあるけど)データ分析に携わる人にとてもおすすめしたい一冊」になります!

書籍紹介 : 第1部

第1部は「データの性質に関する基礎知識」がテーマで目次は以下の通りです。

第1章 観測は簡単ではない
第2章 誤差とばらつき
第3章 データに含まれるバイアス
第4章 交絡因子と因果関係
第5章 データサンプリングの方法論

第1部の個人的なハイライトは第2章の「誤差とばらつき」です。データを解釈する際のとても重要な論点である「誤差」について、混合して考えてしまいがちな偶然誤差(ランダム誤差)と系統誤差(バイアス)を丁寧に整理しながら解説してくれています。

本書では偶然誤差と系統誤差のちがいを体重計測の例を用いて丁寧に説明されています。体重計の計測値が(仮に)測定のたびにちょっとだけランダムにズレて生じるような誤差が偶然誤差、一方でそもそも着ている服の重さのような一定に生じる誤差が系統誤差ですね(詳しくは『分析者のためのデータ解釈学入門』で!)。

偶然誤差と系統誤差のちがいに混乱するのは、特に私のような独学中心で学んだ人が陥りやすい話ではないかと思っています。もちろん「ちゃんと」学べば当然に抑えておくべき論点なのかもしれないのですが、いきなり「Pythonで最短~」とか「統計学を●時間で~」といったコンテンツで手っ取り早く学んだ場合は見落としがちな論点な気がします(自戒を込めて笑)。

この他にも「誤差の分布とデータの分布」とか「選択バイアス」「交絡因子」「回帰不連続デザイン」など、「ちゃんと学べば抑えておくべき論点だけど、付け焼刃で学ぶと見落としがちな論点」がたくさんあって、何というか嫉妬しちゃうくらい頷きながら読み進めました(悔しい!)。ちなみにこの「ちゃんと学べば抑えておくべき論点だけど、付け焼刃で学ぶと見落としがちな論点」というのは個人的に「玄人好みの論点」だと思っています。

書籍紹介 : 第2部

第2部は「データの分析に関する基礎知識」がテーマで目次は以下の通りです。

第6章 データの扱い
第7章 一変数データの振る舞い
第8章 変数の間の関係を調べる
第9章 多変量データを解釈する
第10章 数理モデリングの要点

この第2部の個人的なハイライトは第7章の「理論分布」についての解説です。統計学で学ぶ確率分布とはそもそもどう向き合うべきものなのかが非常にわかりやすく書かれています。

具体的にはp.129にある「理論分布を考える」という節の内容なのですが、たった1ページでポイントを過不足なく説明されています。それぞれの確率分布には「どういうプロセスの結果として生じるか(=前提)」というメカニズムがあって、「現実のどういう量がその分布に従うか(=確率変数)」という特徴がある…。こういった「いざ言語化しようとすると難しい」ような内容をサラリと端的にポイントを抑えて解説してくれています(悔しい!)。

加えて秀逸だなあと感じたのは理論分布のことを「データ解釈のベースライン」と表現している点です。理論分布はあくまで理論上の話であって現実の話がぴったりと合致することは稀だと思っているのですが、それでもこの理論分布はデータ分析における思考プロセスを支える非常に重要な道具になると思っています。このような私が言語化するとだらだらと長文になってしまうような概念をサラリと「データ解釈のベースライン」と表現していて、素直に「カッコいい!」と感じてしまいました(笑)

この他にも「時系列データ」「仮説検定」「相関係数」「効果量とp値」そして「多変量データ分析」とデータ分析における手法的な論点を漏れなく解説されていて、これだけの論点を抑えておけば事業者側の方でも社内外のデータ分析官と対等に会話できるのではないかなと思います(悔しい!)。

そ・し・て!!この第2部のもうひとつの見どころ(読みどころ)は第10章の「数理モデリング」になります!データ分析を勉強し始めると、仮説検定や相関・回帰分析、多変量解析という流れで「手法的な」学びを進めていくことが多いと思うのですが、そもそもそれらに通底している考え方について第10章「数理モデリング」が丁寧に解説してくれています。

とくにp.205の「メカニズムの理解と予測」という節以降で説明されているデータ分析における「トップダウン型アプローチ」と「ボトムダウン型アプローチ」という整理は非常にわかりやすく、この整理によって、予測重視か説明重視か、帰納的か演繹的か、結果重視かプロセス重視か、といったデータ分析における定番の論点を頭の中でうまく整理することができるようになるかと思います(悔しい!)。

詳しい解説を書きたいのですが、これはやはり本書をぜひ読んでみていただくのが一番かと思いますので『分析者のためのデータ解釈学入門』に譲りたいと思います(偉そう)。

書籍紹介 : 第3部

第3部は「データの解釈・活用に関する基礎知識」がテーマで目次は以下の通りです。

第11章 データ分析の罠
第12章 データ解釈の罠
第13章 データ活用の罠

この第3部ではデータに関する3つの罠をテーマに構成されています。データ分析が好きな人やデータ分析を勉強した人はかなり「揚げ足どり」な一面があるように思います。その背景にはデータには見落としがちな罠がたくさんあって、その罠にはまると結論が180度(場合によっては360度…(笑))変わることもあります。それを知っているからこそ「そのデータ分析は罠にはまってませんか?」という観点から一所懸命に揚げ足どりを「してくれる」のだと思います。決して性格が悪いわけではないのです(失礼)。

ですがこの第3部を読まれちゃうと「揚げ足どり」をする隙がなくなってしまうと思います。それくらいデータに関して陥ってしまいがちな罠をほぼ網羅的に整理してくれているように思います(悔しい!)。本当に「これは売れるだろうなあ」と感じる書籍です。

まとめ

ということで『分析者のためのデータ解釈学入門』をハイライトしてきましたが、まとめますと「玄人だからこそ知っているような論点を、素人でも効率的に整理できちゃう、とってもとってもおすすめの書籍」ということになります。自分自身、恥ずかしながら見落としていた論点がたくさんあって、本当に勉強&理解の整理になりました。本当におすすめの書籍ですのでぜひ読んでみてください。(以上)

統計学ベーシック講座【確率分布・推定・検定】

統計学の基礎を効率的に学べるベーシック講座です。統計学の入り口となる「確率分布・推定・検定」について豊富な図を用いて説明していきます。

2021年3月リリース後すでに17,600人以上の方に受講いただき大人気ベストセラーコースとなっています!ぜひこの機会に統計学や確率思考という一生モノのスキルを一緒に身につけましょう!

※上記リンクからですと時期によってはクーポンが自動適用されます。
※Udemyは世界最大級のオンライン学習プラットフォームです。以下記事にてUdemyをご紹介しておりますのでよろしければこちらもご覧ください。

Udemyとは?セールでお得な世界最大級のオンライン学習プラットフォームこの記事では世界最大級のオンライン学習プラットフォームであるUdemyをご紹介していきます!まだUdemyを使っていない方やこれから使お...