データ分析とは?定番の分析手法から独学での学習方法まで徹底解説!【初心者向け】

こちらのページは本サイトのトップページです!

以下の目次で気になるところがあればぜひクリックしてみてくださいね!

-目次-
  1. はじめに
  2. そもそもデータ分析はビジネスやマーケティングに役に立つの?
  3. ビジネスやマーケティングに使えるデータ分析の定番手法は?
  4. 同僚や後輩に差をつけるデータ分析応用手法
  5. データサイエンティストに近づく機械学習的手法
  6. 過学習や未学習を防ぐためのデータ分析の評価方法
  7. 文系出身でも仕事でデータ分析を使えるようになるの?
  8. 初心者におすすめのデータ分析の学習方法は?
  9. 初心者でも統計ソフトRを使えるようになるの?
  10. 初心者こそデータ分析をシンプルに楽しもう!

はじめに

はじめまして、totaといいます!

このページではデータ分析について何処よりもわかりやすく解説します

はじめて担当したデータ分析の仕事に没頭し、それ依頼、転職もしながら大好きなデータ分析の仕事へと軸足を移していきました

そして現在もデータ分析の仕事をしながら「もっと多くの人にデータを楽しんでもらいたい!」という想いから、このブログを書いたり、Udemyで講座をリリースしたりしています。

tota
tota
文系出身データアナリストのtotaです!初心者でも分かるように解説していきますね!

そしてこのブログでは…

このブログでは…
  • 初心者でも大丈夫なように
  • なるべく専門用語は使わず
  • できるかぎりわかりやすく
  • 豊富な図解とともに
  • データ分析の始め方・学び方について紹介していきます

またデータ分析の初心者の方のよくある質問

  • データ分析って何の役に立つの?
  • どんなデータ分析手法が使えるの?
  • 初心者でもデータ分析できるようになるの?
  • 文系出身でも大丈夫?
  • どうやってデータ分析を学習すればいいの?
  • Excel、R、Python…何を使えばいいの?

こんな疑問もすべてこの記事で解決していきたいと思います

tota
tota
初心者や文系出身でもわかりやすく、迷わないように解説していくのでご安心ください!

そもそもデータ分析はビジネスやマーケティングに役に立つの?

データ分析は必ずしも役に立たないとダメというわけではないと思いますが、やはり「役に立つかどうか」が気になる方が多いのでこの項目をまずはじめに取り上げています

はじめにデータ分析ってそもそも何の役に立つの? という方のためにデータ分析がどう役に立つのかを解説します!

「そんなの役に立つに決まってるじゃん!」という方は読み飛ばしてしまって大丈夫です

単純に好きだからデータ分析したいだけで、別に役に立たなくたっていい! という考え方も全然ありだと思います

データ分析が本当に役に立つのかイマイチわからんなあ…という方だけでも読んでみてください

tota
tota
僕自身、データ分析は役に立つものなのだと周囲の人に説明するのに苦慮した経験がありまして…

「意思決定」に貢献する

データ分析はビジネスやマーケティングの意思決定に役立ちます

というよりビジネスやマーケティングに限らず、あらゆる決断にデータ分析は役立ちます

データ分析のない意思決定は「経験と勘と雰囲気」です

もちろん「経験と勘と雰囲気」もとっても大切だと思います
だけどそれだけだと不安になりませんか?(僕はかなり不安です!)

そこで意思決定を「経験と勘と雰囲気+データに基づくものにできれば安心感が増しますよね

加えて後からその意思決定を検証しやすくもなります

「必然の失敗」なのか「偶然の失敗」なのか

データに基づかない意思決定ではそれすらも判断しづらいです

データ分析を行うことで意思決定に貢献できる

その点で間違いなくデータ分析は役に立つと言えます

tota
tota
データ分析により「経験と勘と雰囲気だけ」の意思決定から脱却しましょう!

プレゼンの説得力が高まる

データ分析はプレゼンでも役に立ちます

プレゼンと言えばよくこんな悩みを聞きます

  • 上司にプレゼンしてもイマイチ響かない…
  • プレゼンの際に話が長くなりがち…
  • 説得力のあるプレゼンができない…

よくありがちな失敗はプレゼンで「自分の意見」を語ってしまうことです

これではプレゼンの説得力がなかなか向上しません

というのもプレゼンの聞き手が知りたいのは、発表者の意見というよりそれを裏付けるような情報だからです

そこで役に立つのがデータです

例えば「残業時間が増え過ぎです!従業員が疲弊しているように私は感じます!」というよりも

事前にデータを確認しておいて例えば

残業時間に関する調査結果(例)
  • ●●部の■月の総残業時間は624時間(対前年比+15%)
  • 1人あたりの残業時間は31.2時間(対前年比+20%)
  • 残業時間の標準偏差は21.2時間(対前年比+65%)

などと細かいデータと一緒にプレゼンするだけでかなり説得力が向上します

発表者の「意見」をゴリ押しすることもときには大切かもしれませんが

上記のようなデータと一緒にプレゼンする方が圧倒的に聞き手の納得度は高まります

「なんだ、データ分析と言っても、ただデータを集めて集計するだけか」

と思った方もいるかもしれませんが、データの収集や集計だって立派なデータ分析ですし

案外それすらできていないことが多々あるんじゃないでしょうか

tota
tota
このブログではデータの収集や集計の心理的・技術的ハードルを下げるような情報も発信していきます!

ビジュアルに訴えられる

データ分析には情報を可視化できるというメリットもあります

データを文字や言葉だけで説明するのはかなり大変ですが

データの扱い方を学べばRやPythonで上記のような可視化が簡単に実行できます

なんならエクセルでも十分です

tota
tota
エクセル、R、Pythonなどデータ分析のツールについても今後このサイトにて詳しくご紹介していきたいと思います!

どんなツールを使うかはともかく、データを可視化することでビジュアルに訴えることができるというメリットがあります

もちろん可視化するグラフに強い恣意性や悪意を込めてしまってはいけません

自分はそんなつもりがなくても他人からしたら「これって恣意的じゃん?」と思われてしまうこともあります

見せ方には十分注意しながらもデータの可視化の持つ威力をどんどん活用していきたいですね

データから”気づき”を得る

これは意外と重要です!

データ分析というと高度な統計的手法や機械学習のアルゴリズムを用いて…

という印象があるかもしれませんが、実際の仕事の大半はデータの加工・集計です

たくさんの時間をかけてデータと向き合うのですが、その過程で

  • 「え?このデータめちゃくちゃおもしろい!」
  • 「どうやらこのデータとこのデータに相関があるぞ…」
  • 「この外れ値…、法則性がありそう…」

などと意外なほど「役に立つ気づき」が得られます

確かにデータを分析する前に方針や仮説をしっかりと立てておくことも大事です

ただ手を動かしてみて初めてわかることもかなり多いです

そこで得られる「気づき」はある意味データ分析を行う人間の特権みたいなものですね

tota
tota
データから得られる思わぬ気づきが意外と役に立つ!

ビジネスやマーケティングに使えるデータ分析の定番手法は?

“定番”の分析手法でも十分

これは声を大にして伝えたいです!

データ分析がものすごく奥が深いことは事実です

だからといって高度な手法までマスターしていないとNGかというとそういうわけではないんです!

なかにはこんな風に考えている人もいるかもしれません

  • 「データ分析やるならPythonマスターしないと!」
  • 「これからの時代はディープラーニング使えないとダメ」
  • 「kaggleとかデータ分析コンペで勝たないと!」

こういう考え方は今すぐ捨てましょう!汗

このブログを訪問していただいている人の多くは初心者の方々だと思います。

初心者の方がいきなりこのような高みを目指しても無理です

挫折します

tota
tota
Pythonにチャレンジしたけど挫折してしまった…という人が世界中で大発生しているという話も聞きます笑

それよりも基本的な手法、定番と言えるような手法をしっかり理解してつかいこなせるようになること

これがとっても大切で、かつ、とっても効率的です

Pythonなんて使わなくてもエクセルで基本の分析は十分です

むしろエクセルでできるような基本の分析にこそデータ分析の本質がたくさん詰まっています

※仮に本気で高度な統計的手法や機械学習アルゴリズムを研究し、使いこなすトップ級のデータサイエンティストを目指すのであれば話は別で、その場合は大学院等で腰を据えて学習するのが一番だと思います
tota
tota
背伸びせずにまずは基本の分析、定番の手法を使いこなせるようになりましょう!

以下でデータ分析における定番手法を具体的に見ていきましょう

平均・中央値

まずはデータの代表値を確認したいです

代表値というのはそのデータを「代表」する値のことですね

その最たるものが平均や中央値です

平均や中央値の確認は馬鹿にできません

意外と平均や中央値の確認すらできていない人も少なくないです

平均と中央値は必ずしっかりと確認するだけで得られる情報はたくさんありますし、いろんな平均と中央値に触れることでデータを読むセンスが身についていきます

[統計Day6] 代表値はじめに 今回は代表値について簡単に見ていきます。 代表値は記述統計の2大論点のうちの1つです。 記述統計の論点は主に2つ...
[統計Day7] 中央値はじめに 今回は中央値について見ていきましょう。 中央値は代表値の1つで、標本におけるちょうど真ん中の順位の値となります。 ...
[統計Day8] 平均はじめに 今回は平均について見ていきましょう。 平均も中央値と同様に代表値の1つで、 標本に含まれるデータの各値を合計した...

分散・標準偏差

代表値を確認できたなら次はデータのばらつきを確認します

データのばらつきを示す指標として分散と標準偏差があります

まずは平均と中央値、そして、分散と標準偏差を確認する

この基本の分析は習慣化してしまいたいですね

tota
tota
データ分析は代表値とばらつきの確認からすべてがスタートします!基本的なことですがおろそかにせずに意識的に取り組みたいところです!
[統計Day11] 分散と標準偏差はじめに 今回は分散と標準偏差について見ていきましょう。 分散・標準偏差も平均偏差と同様に「ばらつき度合い」の指標の1つになりま...

ちなみにばらつき指標には「平均偏差」という指標もあります!

平均偏差のほうが直感的に理解しやすいので覚えておくことをおすすめします!

[統計Day10] 平均偏差はじめに 今回は平均偏差について見ていきましょう。 前回までは記述統計の2つの論点のうち「代表値」に関する話でしたが、 こ...

度数分布図(ヒストグラム)

度数分布図というのは「度数=カウント数」の「分布」をあらわす図でヒストグラムとも呼びます

度数分布図はシンプルですがかなりの優れものです

というのもデータの代表値とばらつきをパッと見て確認できる図だからです

可視化の際はとにもかくにも度数分布図をまず見ておきましょう

[統計Day3] ヒストグラム(度数分布図)はじめに 今回は「ヒストグラム(度数分布図)」について考えていきます。 ヒストグラムは前回Day2で学んだ「変数」について、これ...

散布図

散布図は2つのデータの関係性を可視化する図です

散布図のメリットはひとつひとつのデータを可視化してくれる点です

データの解像度が一気に高まります

[統計Day4] 散布図はじめに 今回は散布図について見ていきます。 ヒストグラムが1つの変数を可視化していたのに対し、 散布図は2つの変数を1つ...

クロス集計

散布図でデータ間の関係性のおおよそを右脳的に把握したならば

今度は左脳的に定量データとして集計したいところです

そこで役に立つのがクロス集計です

2つのデータをクロスするように集計します

これによってデータを分けて比較することができます

クロス集計は簡単なように見えてデータ分析スキルが試されます

例えば

  • 何と何をクロスするのか
  • 集計の区分をどうするか
  • 集計表の体裁をどうするか
  • 実数と割合のどちらで表現するか

こういった点で意外と悩むポイントが多いのがクロス集計です

だからこそ身につけておきたいデータ分析スキルですね

相関係数

相関係数はデータの相関関係を具体的な指標として表現するものです

相関係数は-1~+1の範囲をとります

目安としては

相関係数 相関関係
+0.9 ~ +1.0 非常に強い正の相関関係
+0.7 ~ +0.9 強い正の相関関係
+0.5 ~ +0.7 正の相関関係
+0.3 ~ +0.5 弱い正の相関関係
-0.3 ~ +0.3 ほぼ無関係
-0.3 ~ -0.5 弱い負の相関関係
-0.5 ~ -0.7 負の相関関係
-0.7 ~ -0.9 強い負の相関関係
-0.9 ~ -1.0 非常に強い負の相関関係

といった具合になります

上記のように散布図と対応させて表現するとわかりやすいですね

相関係数はビジネスマーケティングにおいて頻繁に用いられます

ただ相関係数が意味するところを理解せずに使われるケースも多いです

実際、見せかけの相関や層別の相関の見落としといった落とし穴もあります

そういった落とし穴にはまらないためにも相関係数が意味するところをしっかりと理解したうえで使っていきましょう

相関係数の公式

変数AとBの共分散 ÷(変数Aの標準偏差 × 変数Bの標準偏差)

同僚や後輩に差をつけるデータ分析応用手法

上記のデータ分析の定番手法を見て「ちょっとものたりないなあ」と感じた人もいると思います

そこで以下ではデータ分析の応用的な手法もご紹介していきます

これらの分析手法を使いこなせるような人は「データに強い人材」と言えると思います!

パレート分析

パレート分析は優先順位付けに役に立つ分析手法です

パレート分析では棒グラフと折れ線グラフを1つの図に表示します

棒グラフは全体に占める各項目の割合を

折れ線グラフは上位から順番に割合の累積を表示します

顧客の上位20%で売上の80%を占めている(20対80の法則)

といったような関係性が見えやすくなります

折れ線グラフによって全体に占める累積割合が示されることで

施策や注力先の優先順位を検討しやすくなるというメリットがあります!

tota
tota
一部のベテランの方などは「パレート分析」ではなく「ABC分析」と呼んでいたりしますね!

95%信頼区間

95%信頼区間とは母平均(母集団の真の平均)を区間で推定する際に用います

「信頼区間」という言葉を正しく理解するためには母集団と標本の違いを理解しておく必要があります。

95%信頼区間は「母平均が95%の確率でその区間に含まれる!」という表現は不正確!

95%信頼区間の正しい説明は「100回標本を抽出して95%信頼区間を求めたら、95回はその区間に母平均が含まれる!」という表現になります!

この信頼区間の話は、Udemyで公開している統計学講座では以下のようなスライドで説明しています!

Udemy公開コース

Udemyの講座は以下リンクから見れます!時期によっては本リンク限定のクーポンが自動適用されます!

平均の差の検定

平均の差の検定は、得られたデータ(標本)の平均について異なるグループ間で差があるかないか統計的に検証するものです

統計学における「仮説検定」と呼ばれる手法ですね

簡単に言うと次のような疑問に答えることのできる手法です

  • この差は「たまたま生じただけの差」なんじゃないの?
  • サンプルサイズが小さいし「見せかけの差」では?
  • 差が生じているとして、どう結論づけるべきか…?

仮説検定では一見難しそうな言葉が出てきます

仮説検定の用語例

  • 帰無仮説
  • 対立仮説
  • 有意水準
  • 棄却域
  • 検定統計量
  • p値

仮説検定の理解はこういった用語の理解が肝心です!

ただ専門用語に苦手意識がある場合はまずは上記であげたような疑問に答えられる手法なんだと理解しておけば大丈夫です!

tota
tota
仮説検定は専門用語も多いですが、慣れれば難しくないのでこのブログの講座などでゆっくり理解していきましょう!

A/Bテスト(効果検証)

A/Bテストは文字通りAパターンとBパターンの2パターンを用意して両者を比較する手法です

AパターンとBパターンで、施策の効果に違いが見られたか、あるいはどちらがより望ましい結果となったかといった点を分析します

主にWEBマーケティング(WEBサイトの検証など)に用いられる手法で、コンバージョン率の最適化などに有効です

CVR(コンバージョン率)とは「Conversion Rate」の略です!Webサイトを訪問したユーザーの内、どの程度CV(コンバージョン)に至ったかを示す指標になります!

A/Bテストの活用事例として、2008年の米国大統領選挙でオバマ氏が自身の公式WEBサイトの最適化のために活用した例が有名ですね!

A/BテストはWEBマーケティングに限らずさまざまな施策の検証に使えるわかりやすい分析手法です

重回帰分析

多くのデータを分析する際に有効なのが重回帰分析です

例えば…

  • コンビニの売上に強く影響しているのはどんな要素か
  • マンション価格とそのマンションの駅からの距離にはどのような関係にあるか
  • 広告Aと広告Bのどちらがより売上拡大に貢献しているか

といった考察につなげやすい分析です

重回帰分析とは? [Day7]はじめに この記事では機械学習における「重回帰分析」について考えていきます。 「重回帰分析ってどういうもの?」 「重回帰分...

理解しやすく、エクセルのデータ分析ツールでも容易に実行できます

ただ分析の前提や結果の解釈について誤解されることも多い手法です

逆に重回帰分析の本質まで理解して使いこなせるようになると分析の幅がかなり広がってきます

tota
tota
個人的に重回帰分析は「コスパの良い」分析手法だと思います!理解しやすく説明もしやすい手法で実務でも重宝されます!
Udemy公開コース

相関分析・回帰分析については以下のUdemy講座で丁寧に解説しています!以下リンクからですと時期によっては本リンク限定のクーポンが自動適用されます!

ロジスティック回帰分析

ロジスティック回帰分析は重回帰分析と本質的には同じです

目的変数が質的(カテゴリー)変数の場合にロジスティック回帰分析を用います

ロジスティック回帰では対数を用いた数字の変換を行います

加えてオッズという考え方を利用します

オッズとは例えば性別について考えると…

  • 5人中4人が男性で1人が女性であれば男性のオッズは4 ← 4÷(5-4)
  • 10人中2人が男性で8人が女性であれば男性のオッズは0.25 ← 2÷(10-2)

といったような考え方をします

ロジスティック回帰ではこのオッズの対数をとった対数オッズという指標への各説明変数の影響を測ることができます!

tota
tota
ロジスティック回帰はエクセルでの実行は面倒なのでRやPytonの活用も視野に入れておきたいですね!
ロジスティック回帰とは? [Day10]はじめに こちらの記事では「ロジスティック回帰」について考えていきます。 「ロジスティック回帰ってそもそも何?線形回帰とどう違う...

決定木分析

決定木分析はデータを「決定的に」分ける基準を考える手法です

視覚的にもわかりやすく資料にも使いやすいです

上記の図が決定木そのものです

上記の図はデータを「同質性」が高くなるように上から順番に「決定的に」分けていくプロセスを表現しています

同質性の定義はシンプルに言うとデータのばらつきの少なさです

あらゆるパターンをすべて検証して導き出す機械学習的な側面もあります

ただ理解しやすく視覚的にもわかりやすいのでよく用いられる手法ですね

tota
tota
決定木分析はアルゴリズムもわかりやすく説明に重宝されるツールですね!
決定木分析とは? [Day20]はじめに こちらの記事は非線形なアルゴリズムとして代表的な「決定木」について考えていきます。 「決定木ってどういうアルゴリズム?...

データサイエンティストに近づく機械学習的手法

現状では上記のデータ分析定番手法や応用手法を使いこなせれば十分かと思います

とはいえ今後データサイエンスの活用がさらに進み、ビジネスの現場にもどんどん浸透していく可能性が高いです

そのとき専門的なデータサイエンティストと呼ばれるような人たちと対等に仕事をしていくためには機械学習的手法についての理解も必要になってきます

ということで以下では代表的な機械学習的手法をご紹介していきます!

ランダムフォレスト

ランダムフォレスト決定木をたくさん集めて統合(多数決or平均)したものです

木をたくさん集めるので「フォレスト」という名前になっています

また2つのランダム性が組み込まれています

1つがサンプル(データ)の選択におけるランダム

もう1つが説明変数の選択におけるランダムです

「一部のサンプル、一部の説明変数のみを学習する」

ということを繰り返すことで抜群の性能を獲得したアルゴリズムです

最新の機械学習手法に比べると少々クラシックな印象のある手法ですがデータ分析実務における存在感はまだまだ圧倒的な手法です

tota
tota
機械学習はちょっと…という方でもランダムフォレストだけは覚えておいて絶対に損はない手法です!
ランダムフォレストとは? [Day21]はじめに この記事では決定木分析の欠点に対処したアルゴリズムである「ランダムフォレスト」について考えていきます。 「ランダムフォ...

XGBoost

XGBoostはランダムフォレスト同様に決定木をベースとしています

ランダムフォレストが決定木を同時並行で作成(バギング)していくのに対し

XGBoostでは決定木を順次繰り返し作成(ブースティング)していきます

  • 決定木 ✕ バギング ⇨ ランダムフォレスト
  • 決定木 ✕ ブースティング ⇨ XGBoost

XGBoostは非常に精度が高く実装も難しくないので近年非常によく使われる手法となっています

類似する手法に計算負荷を低減したLightGBMという改良版もあります

tota
tota
説明や解釈を重視する場合はランダムフォレストの方が使いやすいですが、予測重視ならXGBoostの方が一般的に性能が高くなります!

サポートベクターマシン(SVM)

サポートベクターマシン超平面という概念を利用します

超平面はある空間を仕切るような1つ次元を落とした仕切り面のようなイメージです

サポートベクターマシンでは観測されたデータと超平面との最短距離(マージン)を最大化するような超平面を設定し、その超平面から最も近くにあるデータのことをサポートベクターと呼びます

サポートベクターマシンはかなり概念的で抽象的なので正直理解が難しいです

だからというわけではないのですが実務ではあまり使われていない印象があります

(実は私もあまり使ってないです…)

ただ機械学習の教科書や参考書では必ず記載のあるアルゴリズムですので概念だけでもつかんでおくと良いと思います!

サポートベクターマシン(SVM)とは? [Day22]はじめに こちらの記事では超平面という考え方を利用した「サポートベクターマシン(SVM)」についてについて考えていきます。 「サ...

線形判別分析

線形判別分析は目的変数のカテゴリを分類するための手法です

線形判別分析ではまず特定の目的変数のカテゴリとなるときに、ある説明変数の値となる確率」を推定します

それをベイズの定理を用いてある説明変数の値のとき特定の目的変数のカテゴリとなる確率」に変換します

ややこしいですが、ポイントはベイズの定理で「確率について説明変数と目的変数を逆に変換する道具」というイメージです

tota
tota
線形判別分析の他にも2次判別分析というものもあり、より柔軟なモデリングが可能になります!
線形判別分析とは? [Day11]はじめに こちらの記事では「線形判別分析」について考えていきます。 確率密度関数やベイズの定理など専門的な話も関係してきますが、...

k-means法(クラスター分析)

k-means法はデータをk個のグループにグループ分けする手法です

各グループの「平均(mean)」をそのグループの重心と位置づけることからk-means法という名前がついています

k-means法は目的変数のない教師なし学習の代表的な手法です

k平均クラスタリング(k-means法)とは? [Day24]はじめに この記事では教師なし学習の一つである「k平均クラスタリング」について考えていきます。 「k平均クラスタリングのkって何...

マーケティングにおいて顧客をセグメント分けする際などによく用いられる手法ですね!

さすがにExcelで実装できるような手法ではありませんが、Rで簡単に分析可能です!

正則化(縮小推定)

正則化は線形回帰分析において説明変数の多さへ罰則を与えるものです

代表的なものにリッジ回帰Lasso回帰があります

どちらもイメージとしては各説明変数の「学習度合い=コスト」と「学習効果=パフォーマンス」を見比べて学習度合いを縮小するものです

特にLasso回帰は説明変数の取捨選択にも活用できるというメリットがあります

tota
tota
正則化は説明変数の数が膨大な場合でも実行することができます。近年のデータ分析では説明変数が膨大になるケースが多く、重宝される分析手法となっています!
正則化(縮小推定)とは? [Day16]はじめに こちらの記事では線形回帰分析の傾き度合いを縮小する「正則化(縮小推定)」について考えていきます。 「正則化ってどんなも...

平滑化スプライン

平滑化スプラインは線形回帰分析を発展させたもので

説明変数の値をもとにデータを細分化しつつデータの連接点でなめらかにつながるような変換(スプライン)を施します

データを細分化することでかなり複雑さが生じます

そこでその複雑さを抑制するべく複雑さに罰則を与えます(平滑化)

これにより複雑さと汎化性能のバランスを保とうとする手法になります!

平滑化スプラインとは? [Day18]こちらの記事では線形回帰分析の学びを踏まえ、非線形な分析手法である「平滑化スプライン」について考えていきます。 「平滑化スプライン...

一般化加法モデル

一般化加法モデルは平滑化スプラインのように線形回帰分析の「未学習」を是正するアプローチを、複数の説明変数に対しても適用できるようにするものです

正直に言って初心者にはまだ理解が難しいです!笑

ものすごくシンプルに言うと説明変数ごとにバイアスを取り除いてあげることのできる手法になります

一般化加法モデルとは? [Day19]はじめに こちらの記事では線形重回帰モデルを拡張した「一般化加法モデル(GAM)」について考えていきます。 「一般化加法モデルは...

1つ1つの説明変数に対してルールが設定される(加法性がある)のである程度、説明や因果推論にも使いやすいですが…

解釈しやすいとまではいかないです汗

解釈のしやすさを求めるならシンプルに重回帰分析や決定木分析を利用するほうが得策なケースが多いと思います

過学習や未学習を防ぐためのデータ分析の評価方法

機械学習において注意しなければいけないのが過学習未学習です!

過学習とは?

過学習とはデータを丸暗記しすぎて未知なるテストデータに通用しなくなってしまうこと!

未学習とは?

未学習とはデータを学習しても自らのバイアスが強すぎて良い予測精度を得られないこと!

過学習と未学習のちょうどよいバランスを保つために機械学習では学習したモデルの評価手法が確立されています

それについて見ていきましょう!

混同行列

混同行列は分類問題についての評価手法になります

学習したモデルの予測精度を検証することができます

混同行列

上図のように実際の分類と予測した分類をマトリクス表にして、どれくらいの誤分類が生じているかを検証します

混同行列は分類問題に欠かせない評価手法ですので、ぜひ以下の記事もあわせてご覧ください!

混同行列とは? [Day12]はじめに こちらの記事では「混同行列」について考えていきます。 「混同行列ってどういうときに使うの?」 「混同行列を用いる...

交差検証(クロスバリデーション)

交差検証はテスト用にあらかじめデータを取り分けておく手法です

取り分けておくことで人工的に「未知なるデータ」を確保し、これによって学習済みモデルの予測精度を評価します

1つ抜き交差検証法はデータを1つだけ取り分ける手法でデータの数だけ学習とテストを繰り返します

k分割交差検証法はデータをk分割してk回学習とテストを行います

分散とバイアスのバランスで優れるk分割交差検証法が用いられることが多いですね!

交差検証とは? [Day13]はじめに こちらの記事では「交差検証(クロスバリデーション)」について考えていきます。 「交差検証ってなんのために必要なの?」 ...

ステップワイズ法

線形回帰分析においては説明変数の取捨選択も重要です

ステップワイズ法はこの説明変数の取捨選択を行うものです

説明変数が多くなってくると、全ての説明変数の組み合わせを総当りで試すようなことは不可能です

そこでステップワイズ法により「段階的に」説明変数を取捨選択していく

という方法が用いられます

ステップワイズ法とは? [Day14]はじめに こちらの記事では「ステップワイズ法」について考えていきます。 「どうやって説明変数を選択すればいいの?」 「どう...
  • 線形回帰分析ではどの説明変数を学習するかがポイント
  • 学習する価値の低い説明変数は学習対象から除外してあげたい
  • 総当たり法による説明変数の選択は計算量が膨大になる
  • ステップワイズ法は説明変数を段階的に選択する手法
  • 説明変数の数が多い場合は主にステップワイズ法により学習する説明変数を選択する
tota
tota
ステップワイズ法はエクセルでも手作業で(骨が折れますが)実行できます!(もちろんRやSPSSといったソフトを使ったほうが速いですが笑)

自由度調整済み決定係数

自由度調整済み決定係数は説明変数の多さに罰則を与えた評価指標です

  • 決定係数=1ー[正解と予測との間に残っている差(残差)]
  • 自由度調整済み決定係数=1ー[正解と予測との間に残っている差(残差)][説明変数の多さ]  ※意訳した概略式です

決定係数だけだと説明変数が多い場合に過学習を見過ごす恐れがあります

そこで説明変数の多さに罰則を与える自由度調整済み決定係数を評価指標として用いることが多いですね!

AIC / 自由度調整済み決定係数(R2乗)とは? [Day15]はじめに こちらの記事では「AIC、自由度調整済み決定係数」について考えていきます。 「AICや自由度調整済み決定係数って何のた...
Udemy公開コース

自由度調整済み決定係数については以下のUdemy講座でも触れています!以下リンクからですと時期によっては本リンク限定のクーポンが自動適用されますのでぜひどうぞ!

AIC(赤池情報量基準)

AIC赤池情報量基準という機械学習モデルの評価指標で

自由度調整済み決定係数と同様に説明変数の多さに罰則を与えるものです

正解と予測との差を計算することに加え

学習した説明変数の種類の多さに応じた罰則を与えるものです

具体的には説明変数の数を2倍したものを罰則として与えます

自由度調整済み決定係数は大きいほど良いのに対し

AICは小さいほど良い指標となります

tota
tota
なお、AICは与えられたデータによって水準が異なるので、異なる分析デザイン間での比較はできませんのでご注意ください!
AIC / 自由度調整済み決定係数(R2乗)とは? [Day15]はじめに こちらの記事では「AIC、自由度調整済み決定係数」について考えていきます。 「AICや自由度調整済み決定係数って何のた...

文系出身でも仕事でデータ分析を使えるようになるの?

文系出身でもデータ分析できる!

結論から言うと文系出身でもデータ分析を身につけられます!

確かにデータ分析には数学や統計学・機械学習の知識やプログラミングのスキルなど

理系的な知識やスキルが求められるのも事実です

ただそういった理系的なスキルを大学教授並みにまで高める必要はなく

むしろ基本をしっかり押さえていれば十分です

データ分析は確かに(特に私のような文系人間にとって)難しい面もありますが

基本的なスキルであれば文系でも十分理解可能な内容ですのでご安心ください!

tota
tota
とはいえ学習方法や学習コンテンツを闇雲に選んでしまうと失敗してしまいます(私もかなり遠回りしてしまいました…)!学習の計画をしっかりと立てることが大切ですね!

データ分析スキルに加えてビジネススキルの上乗せが大切

データ分析は闇雲に取り組んでも遠回りするばかりです

大事なのは筋の良い問いを立て、適切な論点を設定し、仮説を検証していくプロセスです

データ分析の基本も「問い→論点→仮説」というプロセス!!

この「問い→論点→仮説」というプロセスは2つのビジネススキルを必要とします

1つが論理的思考力です

論理的思考力が不足するといくら時間があってもデータ分析が実のあるものになりません

もう1つが業界知識です

業界知識はある意味で「思考」せずとも筋の良い「問い→論点→仮説」の設計を可能にします

言わば経験と勘みたいなものですが、この業界知識が実はデータ分析にも大いに役に立ちます

逆に言うとこの論理的思考力と業界知識が十分にあれば、データ分析スキルは基本さえ押さえておけば問題ないです!

どんなにデータ分析スキルが高くても筋の悪い分析ばかりしていても仕方ないですからね!

まずは筋の良い基本的な分析をできるようになる!!
tota
tota
個人的に「筋の良い基本的な分析」に勝るデータ分析はないと思っています!論理的思考力や業界知識があれば「筋の良い基本的な分析」は難しくないはずです!

資料作成・プレゼンスキルも極めて重要

それと資料作成・プレゼンスキルも超重要です!

データ分析に詳しくなるほど「全部」説明したくなるのですが

全部説明したからと言って聞き手が納得してくれるわけではないです

データ分析の結果を「全部」説明することは不適切&不可能!

むしろ適切に設計した論点に沿ってポイントを過不足なくプレゼンすることが重要です

その際に資料が研究論文のように文字や数字だらけになってしまったり

要領の得ないグラフだったりすると場合によっては上司に袋叩きにあう…

なんてこともありえます!汗

聞き手がデータ分析に詳しくないことも多いからこそ

この資料作成やプレゼンスキルがとても重要になってきます!

データ”サイエンティスト”となると少々話が違う

文系でも「データサイエンティスト」になれるかというと少々話が違ってきます

データサイエンティストは文字通り「科学者」です

ビジネスにデータ分析を活用する、という話とは求められるスキルも違ってきます

「初心者でも未経験から3ヶ月でデータサイエンティストに!」

といった広告を見たりしますが正直無理です!

99%無理です!!

なんちゃってデータサイエンティストにはなれるかもしれませんが…

どうしてもデータ「サイエンティスト」になりたいという想いが強いのであれば

会社を退職するなり休職するなりして大学院等や専門のスクールでしっかり腰を据えて学び直すことをおすすめします!

最近は大学のデータサイエンス系の学部や専門のスクールが増えてきていますのでチャンスは大いにあると思います

“AIエンジニア”も少々話が違う

「AIエンジニア」というのもまた少々話が違います

もちろん文系でもAIエンジニアになることは十分可能ですが

大学で情報系の勉強をしたわけでもなく

就職した職種も非ITで初心者かつ未経験ということであれば

エンジニアの土俵で真正面から戦うのはかなりの茨の道です

「初心者でも3ヶ月でAIエンジニアになって案件獲得!」みたいな謳い文句を見たりしますが

発注する側の立場で考えてみたら分かると思いますが厳しいものがあります

(初心者で3ヶ月勉強しただけの人に発注したくないですよね…)

あまりサイエンティストとかAIエンジニアといった言葉に振り回されずに

まずはいま携わっているビジネスにデータ分析を浸透させられないか

というスタンスで考えていくほうが個人的にはおすすめです!

tota
tota
データサイエンティストやAIエンジニアを目指すことを否定しているわけではありません!ただそれらは「ビジネスにデータ分析を使う」という話とは難易度が全く異なる、という点にだけ注意しておきましょう!

文系は「ビジネス✕データ分析」の掛け算を最大化しよう

文系ビジネスパーソンの強みはビジネススキルです

ビジネススキルというと以下のようなスキルがあげられます

  • 論理的思考力
  • 業界知識
  • 事業ドメイン知識
  • コミュニケーション力
  • 資料作成・プレゼンスキル
  • 社内調整・根回しスキル
  • 経営・マーケティングスキル
  • ファイナンス・アカウンティングスキル
  • 人事・マネジメントスキル
  • 営業スキル

もうあげだすとキリがないですよね!

どれか1つでも自分に当てはまりそうなスキルがあるなら

そのスキル×データ分析の掛け算で勝負するのが一番効率的だと思います

データ分析は一定の専門性が必要とされる分野なので

データ分析「しか」できない(or やりたくない)という人は意外と多いです

「ビジネススキル×データ分析」はそういう人たちに対する大きな差別化要素になります

ぜひビジネススキルとデータ分析の二刀流を目指してみてください!

初心者におすすめのデータ分析の学習方法は?

ここからはデータ分析のおすすめの学習方法についてご紹介していきます

データ分析の学習は以下の「3STEP」で取り組むのがおすすめです

データ分析学習3STEP
  1. 導入 → 興味・関心を確かめる
  2. 基礎 → 鉄板の入門書に取り組む
  3. 応用 → 必要に応じて専門領域へ

まずは導入段階で自分のデータ分析の興味・関心を確かめ

次に基礎段階として鉄板と言われる教科書に取り組み

そのうえで応用的な専門スキルの習得にチャレンジ!

というステップを踏んでいくことをおすすめします

  • 導入ステップなしに基礎ステップへ飛び級したり
  • 基礎ステップをスルーして応用ステップへ飛び級したり…

というのは挫折や遠回りにつながる可能性が高くおすすめしません!

tota
tota
私自身、基礎ステップをすっ飛ばして応用ステップへ先回りしようとして失敗した経験があります。ステップを踏んで学習しないと時間を無駄にしてしまいますよね…。

まずはエクセルを使いこなす

学習の導入ステップとして最初に取り組みたいのはエクセルです!

「え?いまさらエクセル?」と感じる方もいるかもしれません

ですがエクセルは本当に奥が深く、かつ、データ分析と相性が良いです

それに加えて誰でも今すぐ使うことができるというメリットがあります

書籍やe-learningはそもそもどの書籍・コンテンツを選択すればよいかという検討からスタートしないといけないですし

RやPythonといったツールは最初の環境構築に意外と時間がかかります(特に初心者の方にとっては環境構築がけっこうストレスです)

それに対してエクセルなら「今すぐ!」スタートできます

実際エクセルでは以下のような確認・分析を簡単に行うことができます

  • 平均・中央値の確認
  • 分散・標準偏差の確認
  • ヒストグラムの確認
  • 散布図の確認
  • 相関分析
  • 単回帰分析
  • 重回帰分析
  • 分散分析
  • 平均の差の検定(ウェルチのt検定)
  • 独立性の検定(カイ二乗検定)
  • 代表的な確率分布の確認
  • サンプリング
  • データの型変換
  • 集計・ピボットテーブル
  • 変数変換・変数加工

もうあげはじめるとキリがないくらいに多種多様な分析が可能です

導入ステップとしてはまずはエクセルをあれやこれやと使いこなしてみることが時間的・労力的・心理的に一番効率的だと思います!

練習データセットは身近なもので

分析のためのデータセットもいまでは無料で簡単に入手できます

いくつかオススメのデータをご紹介すると…

  • 国勢調査(総務省)
  • 住民基本台帳(総務省)
  • 住宅・土地統計調査(総務省)
  • 日経平均株価等の株価指数データ(日本経済新聞)
  • タイタニック号乗客データ(kaggle)

ちなみに練習用のデータセットは自分と関係のあるデータを選ぶことを強くおすすめします!

機械学習コンペサイトの練習データやRに付属するサンプルデータでもよいのですが

正直言って興味のないデータは面白みに欠けます(ボストンの住宅データとかアヤメのデータとか…少なくとも僕は全く興味がわかないです)

それよりも身近なデータのほうが変数の意味も理解しやすいし

練習とは言え分析した内容を知識として活かせます

特におすすめなのが人口のデータセットです!

国勢調査には市区町村どころか町丁目別の人口も確認できます

自分が暮らす街や出身地の人口がどのくらいで近年どう推移しているか

というのは誰しもが興味を持ちやすいと思います

加えて人口データの把握はマーケティングにも活かせます

日本全体の人口は知っていても地域別や年代別、職業別の人口などは意外としっかり把握できている人は少ないです

練習とは言え人口データについて手を動かして分析してみることで

マーケティングの数字のセンスが養われるという効果もあります!

統計学の導入本を読む

導入ステップの本丸は統計学やデータに関する導入本を読むことです!

ここでいきなり統計学の「入門書=教科書」を手に取ると挫折します笑

「入門書」「教科書」ではなく「導入本」です!(以下の記事でも統計学の書籍をご紹介しています!)

統計学おすすめ書籍12冊 | はじめて統計学を学ぶ人向けこの記事では統計学の基本を学ぶのにおすすめの本を紹介していきます! 統計学の本って多すぎ…。どれを選べばいいの? そ...

例えばオススメとして以下のような書籍があります

  • 『統計学が最強の学問である』シリーズ
  • 『「原因と結果」の経済学』
  • 『Newton』(科学雑誌)
  • 『シグナル&ノイズ』
  • 『ヤバイ統計学』
  • 『ファクトフルネス』
  • 『マンガでわかる統計学』シリーズ

とくに『統計学が最強の学問である』シリーズがおすすめです

文章がとても読みやすい上に統計学の本質を丁寧に解説してくれています

『統計学が最強の学問である』は通常版に加えて「ビジネス偏」「実践編」「数学編」とシリーズ化されています

僕は全部読みましたがどれも本当に面白い…

ただかなりページ数も多いのでまずは通常版だけ読んでおいて他のシリーズは後回しで良いと思います

『原因と結果の経済学』もおもしろいのですがこちらはあくまで「読み物」という感じです

学習という感じが少ないので物足りなさがありますが『統計学が最強の学問である』が少し難しいと感じる方は『原因と結果の経済学』から読んでみてもいいかもしれません

計量経済学という分野があるように経済学とデータ分析は非常に相性が良いです

特にデータから因果推論を行うという視点が経済学とマッチします。

他にも統計学に関係する読みやすい本がたくさんありますが

とにかく導入ステップの目的はデータ分析への興味・関心を確認することです!

データ分析がおもしろくて役に立つのは間違いないのですが、苦手意識を持つ人が少なくないのも事実です

導入ステップで「苦手な分野だなあ」と感じたのであれば他の得意なことに注力しましょう!

苦手なことに無理して取り組むよりも、自分が得意なことに注力したほうがやる気も成果もでやすいですので…!

次の入門ステップからはある程度学習に時間をかける必要があります

時間を無駄にしないためにもこの段階で「自分はデータ分析に向いていない!」と判断するのもアリだと思います

参考までのその他の導入ステップおすすめ本です!

 

統計学おすすめ書籍12冊 | はじめて統計学を学ぶ人向けこの記事では統計学の基本を学ぶのにおすすめの本を紹介していきます! 統計学の本って多すぎ…。どれを選べばいいの? そ...

[追加]Udemyを受講する

統計学は導入レベルであってもとっつきづらい!という意見も多く聞きます。

書籍を淡々と読み込んでいくのが苦手な方もいらっしゃるかと思います。

そういった方におすすめなのがUdemyという世界最大級のオンライン学習プラットフォームです!!

(Udemyについてご存じない方はぜひ以下の記事もご覧ください!タイミングによってはお得なセール情報も掲載しています。)

Udemyとは?セールでお得な世界最大級のオンライン学習プラットフォームこの記事では世界最大級のオンライン学習プラットフォームであるUdemyをご紹介していきます!まだUdemyを使っていない方やこれから使お...
Udemyとは
  • 世界約4,000万人の受講生数
  • 7万人の講師、15.5万の公開講座
  • 豊富なレビューと蓄積データ

意外とまだ知らない方も多くいるようですが、Udemyではたくさんの専門的な動画講座が公開されています(データサイエンス領域の講座も豊富です!)

書籍は苦手だけど動画なら…、という方はぜひUdemyの講座をのぞいてみてもいいかもしれません。

ちなみにUdemyが素晴らしいのは質・量ともに高い水準のレビューの存在でして、ぜひ他の受講生の方のレビューもみながら講座を選んでみてください!

※手前味噌ですが私も以下の講座を公開しております!

統計学の基礎を効率的に学べるベーシック講座です。統計学の入り口となる「確率分布・推定・検定」について豊富な図を用いて説明していきます。

2021年3月リリース後すでに4500人以上の方に受講いただきベストセラーとなっています!ぜひこの機会に統計学や確率思考という一生モノのスキルを一緒に身につけましょう!

※上記リンクからですと時期によってはクーポンが自動適用されます。
※【注意!】Udemyの公式セール中は公式セール価格の方が安くなっている可能性があります!(セールについては以下記事にてご確認ください!)

Udemyとは?セールでお得な世界最大級のオンライン学習プラットフォームこの記事では世界最大級のオンライン学習プラットフォームであるUdemyをご紹介していきます!まだUdemyを使っていない方やこれから使お...

統計学の入門書をマスターする

導入ステップでデータ分析への関心・興味を確認できたなら基礎ステップに入っていきましょう!

基礎ステップの目標は明確で「統計学の入門書をマスターすること」です!

データ分析にとってやはり統計学は不可欠な学問です

「統計学は理解できないけどデータ分析はできます!」

ということはありえないですからね!笑

そして統計学には鉄板とも言える入門書がいくつかあります

例えば以下のような書籍です

  • 『統計学入門(基礎統計学Ⅰ)』
  • 『心理統計学の基礎』
  • 『基本統計学 第4版』
  • 『統計学がわかる ファーストブック』
  • 『完全独習 統計学入門』

とくにオススメなのが

  1. 『統計学入門(基礎統計学Ⅰ)』
  2. 『心理統計学の基礎』
  3. 『基本統計学 第4版』

の3冊です!!

導入ステップでデータ分析への興味・関心を確認できたなら、上記の3冊すべてを入手することを強くおすすめします!

この3冊はいずれもデータ分析を生業にしている人ならほとんどの人が知っている超有名な書籍です

どれも統計学の基本である「記述統計・確率分布・推測統計・相関/回帰分析」についてとてもよくまとまっています!

3冊ともほぼ同様の内容ですが、解説の視点が各々で異なっているので、3冊とも読んでみることでより理解が深まります!

もちろん1冊だけでもマスターできれば十分だと思いますが、1冊マスターするためにも3冊持っておくことをおすすめします!

というのも、3冊とも多少なりとも章や項目によって解説にメリハリがあるのですが、3冊あれば各々の解説が手薄な部分を補完しあうことができます

例えば

『心理統計学の基礎』は線形回帰分析の解説が超手厚いのですが確率分布が手薄だったので、その部分は確率分布の解説が手厚い『基本統計学』で補う…

といった感じで適宜3冊を使い分けて学習するのが結果として一番効率的です!

そして上記の3冊を完全マスターできればデータ分析で食べていけるだけのスキルは身についたと言えます!

tota
tota
実際、僕がデータ分析の受託仕事をする際に使う知識というのはほとんどがこの3冊に書かれている内容です
統計学おすすめ書籍12冊 | はじめて統計学を学ぶ人向けこの記事では統計学の基本を学ぶのにおすすめの本を紹介していきます! 統計学の本って多すぎ…。どれを選べばいいの? そ...

機械学習の入門書をマスターする

基礎ステップで統計学の基礎をマスターできたならば次は応用ステップですね!

応用ステップでは統計学のより専門的な内容に入るのもアリですが

上記で紹介した入門書より専門的な内容に入っていくとなると正直難易度が一気にあがります

それよりも機械学習の基礎知識を身につけるほうが難易度が低いです

そして機械学習の基礎知識を学ぶ書籍として絶対におすすめしたいのが

機械学習超おすすめ本!

『Rによる統計的学習入門』

(原著の英語版タイトル:An Introduction to Statistical Learning: with Applications in R ※通称「ISL」!!)

です!!もうめちゃくちゃおすすめです…

この本を強くおすすめする理由はたくさんあるのですが3つだけあげるとすると

  1. 最小限の数学的知識で読み進められる!
  2. 全体を通して幹と枝葉が明確で理解しやすい!
  3. 具体的な内容に落とし込まれていて考えやすい!

です

※『Rによう統計的学習入門』の詳細な紹介記事(以下)を書きました!

https://totadata.com/book_islr/

機械学習は専門性が高く数学的な要素も強いものです

正直言って文系ビジネスパーソンが理解できる範囲には限界があります

『Rによる統計的学習入門(ISL)』はその限界を突破させてくれます(笑!)

数学的な深い理解がなければたどり着かないような機械学習の本質

読み手に寄り添った圧倒的文章力で表現してくれます

だから文系でも読めてしまう=理解できてしまうんです!

もちろん機械学習の表面的なことだけ知るなら巷にあふれる導入本を読めばOKです

ですが機械学習の本質までしっかりと理解したいなら

個人的に『Rによる統計的学習入門』一択!!だと思います

原著の英語版ならWEB上に無料で公開されています(ただ日本語版も翻訳の質が高く読みやすいので思考回路が日本語の人は翻訳版を読むことをおすすめします)

tota
tota
とはいえ数学的知識というか統計学の知識が多少は必要になります。なので基礎ステップでしっかりと統計学の入門書をマスターしてからこちらに取り組むという流れをおすすめします!

エクセルからR(またはPython)に移行する

導入→基礎→応用というステップをご紹介してきましたが

それと並行して分析ツールのスキルも磨いていきたいです

はじめはエクセルの関数や分析ツールを使って統計学を用いた分析を試してみることがおすすめです

上述したようにエクセルでも多くの分析手法を実行することができます

そしてある程度エクセルを使いこなせるようになったならば

R(RStudio)にチャレンジしてみるとよいでしょう!

tota
tota
本ブログではPythonよりもRをおすすめしています!理由はエクセルからの移行しやすさと統計学との親和性です!

おすすめは導入→基礎ステップまでで統計学の基礎知識を学びながら

学んだ知識を使ってRで実際にデータを分析してみることです

その際に統計学をRで学ぶ!といったようなテーマの本を1冊持っておくとよいでしょう

おすすめの1冊は以下になります!

  • 『Rによるやさしい統計学』

Rをはじめて動かしてみるという際に最適な本です

統計学的な目次に沿って実際にRを実行していきます

理論的な説明は少ないのですが、そこについては上述した統計学の入門書で理解するとして

こちらの本はRの動かし方を知るための本という位置づけにするとよいと思います!

ただRの動かし方についてはネット上にいくらでも情報があります

なので「R [分析手法名]」で検索しながら逐次実行するという方法でもよいと思います

また統計学は別の書籍で学ぶとしてR(RStudio)を単体で学びたいという方におすすめの書籍は以下になります

  • 『RユーザのためのRStudio[実践]入門』※2021年6月に第2版出版予定!
  • 『データ分析のためのデータ可視化入門』

そしてある程度Rを動かせるようになったら上述した『Rによる統計的学習入門』の演習問題をRで動かしていくとよいでしょう

『Rによる統計的学習入門』には様々な機械学習のアルゴリズムが紹介されますが、それらをRでどう実行するかという演習がついています

サンプルデータもRにデフォルトで備わっているデータを使っていますので書籍で示される結果と同様の結果を手元で得られます

ちなみに、おそらくここで「Rってすげー!!!」となると思います笑

初心者でも統計ソフトRを使えるようになるの?

本ブログではデータ分析ツールとしてRをオススメしています

実際にはRというプログラミング言語をRStudioというソフトウェアで動かしていくことになります

このRStudioがかなりの優れものなんです!!

RStudioはこれがあるからこそRをオススメする

と言ってもよいくらい使いやすいソフトウェアです

このRStudioがある限り初心者でもRを(比較的)簡単に使えるようになります!

エクセルが使えればRも使える

エクセルよりもRの方が難しいと思われがちですが

そんなことはありません!!

エクセルもRも基本的にはやろうとしていることは同じです

ただその方法が少し違うだけですので

エクセルを使いこなせている人ならRもスムーズに操作できるはずです

おまけにRにはRStudioという無料の最強ツールがあります

RStudioに慣れてくるとむしろエクセルの方が難しく&面倒に思えてきます笑

RStudioという最強ツール

RStudioをおすすめする主な理由は

  • Webからインストールしてすぐに使い始められる!
  • いま何がどうなっているか視覚的にわかる!
  • オフラインでも実行可能!

もっとたくさんおすすめ理由はあるのですが

はじめて使う人にとって特にうれしいのは上記の点だと思います!

Webからインストールしてすぐに使い始められる!

プログラミングというのは意外とその実行環境の構築に時間を要します

特に初心者がつまずくのが「パスを通す」という作業

慣れてる人からしたら簡単なことなんですが

はじめての人にはこの「パスを通す」がとても厄介です

RStudioならパスを通す作業が不要

インストールして速攻で利用開始できます!

スタート地点に立とうとするところでいきなりややこしいと挫折しがちです

RStudioならその心配はまずありません!

いま何がどうなっているか視覚的にわかる!

それからRStudioは目に見えない部分がとても少ないです

プログラミングはコードだけ画面に表示されていて

いま何がどうなっているのか頭の中で考えないといけないのが大変…

ですがRStudioはコードの画面だけでなく

  • 実行結果が表示される画面
  • データの一覧が表示される画面
  • グラフや図が描画される画面

に分かれていていま何がどうなっているかを

適宜確認しながら分析を進められます!

エクセルユーザーが慣れ親しんだセル形式の表で確認することも簡単にできます!

オフラインでも実行可能!

そして意外と重要なのがオフラインでも実行可能!ということです

手元のPC1台あれば問題ありません

Pythonなども使いやすい実行環境がありますが

外部サーバーの利用やオンライン接続が必要になるケースがほとんどです

特に会社で使う場合にこれが意外とネックで

社内のソフトウェアインストール規制に引っかかったりします

tota
tota
僕も会社員時代にPythonの実行環境であるJupyterをインストールしようとしたら許可が降りませんでした…。Colaboratoryもまたデータの保護管理の問題で利用できず…

RStudioは手元にPC1台あればいつでもどこでも実行可能で、これがけっこうありがたいです!

プログラミングは難しくない!

RStudioは確かに便利で簡単なのですが、どうしてもプログラミングスキルを必要とします

ただRStudioでデータ分析するために必要なプログラミングスキルは難しいものではありません!

ソフトウェアやアプリの開発のために求められるプログラミングスキルは確かに難しいです

ですがデータ分析においては基本的なコードや関数だけおさえておけば問題ありません

データ分析のためのプログラミングスキルは難しくない!

ここで「コードや関数を覚えるのが大変だからやっぱり難しい…」

と感じる人もいるかもしれません

ですが普段使っているエクセルの関数を思い出してみてください

エクセルの関数って難しくないですよね?

確かに全部覚えるのは難しいかもしれないですが

基本的な関数なら簡単に覚えられるし

複雑な関数でもGoogleで検索すればすぐに解決します

実はRも同じで基本的な関数だけ頭に入れておいて

複雑な関数はその都度調べていく、という方法でOKです!

Rは情報やコミュニティが充実

「RやRStudioって困ったときに誰に助けを求めればいいの?」

と感じる人もいるかもしれません

ですがRやRStudioは情報やコミュニティが充実していて

問題解決のための情報を簡単に調べることができます!

そもそもgoogle検索するだけで質の高い情報を得られますが

例えば

といったサイトで情報を探すと比較的簡単に情報を得られます

ただR言語の公式サイトは英語ですので英語に自信がない場合は

RWikiやseekR経由で情報を探す方が効率的です

そのほかにも個人でRに関する情報を発信しているサイトも多くあります

むしろそういった個人の情報発信に助けられるケースがかなりあります!

RはWeb上の情報が充実!公式サイト以外にも多くの情報が発信されています!

さらにR言語をテーマとした活発なコミュニティもあります

日本各地でR言語に関する勉強会が開かれています

tota
tota
実は僕自身はRのコミュニティにほとんど参加していないです…。なのでリンク等は割愛しますが「R 勉強会」などと検索すると簡単に情報が得られると思います!

初心者こそデータ分析をシンプルに楽しもう!

この記事に書いてあることだけでデータ分析の全体像がつかめたと思います!

僕はデータ分析やデータ分析の講師をして生活していますが

大学は文系で完全に0からのスタートだったのでかなり遠回りしました…(トホホ)

例えば…

  • いきなり統計学の教科書にチャレンジして撃沈…
  • 無知なまま分析コンペにチャレンジして撃沈…
  • セミナーや勉強会に参加して逆に自信をなくす…

などと今思うと背伸びしすぎたなあと感じることが多々あります

まずは足元から一歩一歩進んでいくことが大切でした…

ということで、こちらの記事を読んでいただいた方にはぜひ

効率的にデータ分析を学んだり実践したりしていただきたいと思います!

 

最後まで読んでいただきありがとうございました!!

トタデタブログ管理人:tota(@tota13890499

tota
tota
さあデータ分析をはじめてみましょう!!そして、楽しんでいきましょう!!