コラムバックナンバー
株式会社Rejoui 菅 由紀子
発信元:メールマガジン2020年2月5日号より
「億劫だがやらなければならない」ことのひとつに「統計解析・機械学習およびデータ集計を行うためのプログラミング言語」を挙げられる方は多いのではないでしょうか。
データ分析を行う者にとって、データ処理・加工・集計のスキルは不可欠です。分析結果から得られた示唆の根拠を示す際に、どのような粒度のデータが、どの単位・条件のもと加工・集計・分析されたのかをきちんと説明できなければ、どんな結論も価値はありません。
現在は様々な集計・分析・可視化ツールがあり、多くのビジネスパーソンがExcelやTableau、Google アナリティクスなどを組み合わせ、日々定型レポートを分析されていると思います。そこから得られた示唆から新たなる仮説を立て、さらなる深掘り分析を行うために多変量解析や機械学習の手法を使いたい、あるいは既存のツールでは処理がしきれないほどパターンが煩雑であったり、膨大なデータ量に対応するため、R、Python、そしてSQLなど、何らかのデータ処理、統計解析プログラミング言語を確りと学ばなければと思う方は少なくないでしょう。今回は私自身や周囲の体験を通じて得たお勧めの学習方法を説明してみたいと思います。それは「入門書を写経する」という方法です。手順は以下のとおりです。
1. 入門書の手順通りに入門書のファイルで実行する
たとえばRを学ぼうと思った際、多くの方々がRのインストール方法や入門サイトを検索し、環境設定をしてデータを読み込ませるということを試されると思います。そして、多くの情報をWebサイトから得ようとされるでしょう。また「その時点で必要な処理や手法」の実行方法を得ようとされる方が多いと思います。しかし私は入門の「書籍」を手元に置き、環境設定から書に従って設定していく方法をお勧めします。
プログラミングやエンジニアリングの経験がない方がつまづきやすいのは、まず初めの環境設定です。また、次に多いのが「データがうまくインポートできない」「思うような集計ができない」課題です。環境設定ができたので「自分が処理したいと思っている手元のデータ」をいきなり読み込ませてうまくいかないというのは、RやPythonの集合学習の場面でよく目にします。これは、学習用のコードに対しインポートするデータの条件が合っていないことが理由のほとんどです。
入門書は環境設定やエラー時の対処にも言及があります。コードのパラメータにも意味合いが解説してあるものも多いです。基本的な関数は冒頭段階で色々と出てくると思いますが、これらを組み合わせるだけでも様々な処理を行うことができます。かんたんな計算式やデータのインポート、集計処理は書籍通りに実行し、それらをマスターしてから次の段階に移行します。
2.「写経」で実践する
書籍を用いる最も大きな理由はこの「写経」にあります。
WEBで検索し、実行環境にコピペして学習することも悪くはありませんが、コードは自分自身でキーボードで打ち込むことが大切です。そうすることによって「1文字違えただけで実行ができない」ことが起こりえますが、このことが反対にコードの表記を見直すきっかけとなります。データのなかから特徴を見出すときと少し似た感覚でもありますが、コードを「打ち込む」ことで、手を動かし脳が刺激され、そのコードの意味を考え、頭に入れながら学習することができるのです。写経を何度か終えた後の段階では、どこを変えれば自身が処理したいファイルを読み込ませることができるのか、変更するパラメータがどこなのかが理解できていると思います。
3. 手元のデータでやってみる
ここで初めて、自身が処理したいデータを読み込ませる段階にやってきます。写経を繰り返していれば、変更するべきポイントも見込みがつくはずです。このときも「一気にすべての処理を行う」ことは避け、処理工程をいくつかの段階に分けて実行をしていくのがおすすめです。実行時につまづくポイントを特定でき、データのどこがおかしいのかに気づくことが出来るようになるはずです。
最近よく訊ねられるのが「RとPythonどちらが良いのですか?」「SQLの勉強は必須ですか?」といった質問です。これらについては次回私見を述べてみたいと思います。
株式会社サイバーエージェント、株式会社ALBERTを経て、2016年に株式会社Rejouiを設立。DX推進支援、データ分析・利活用コンサルティング、データサイエンス教育事業などを展開。
統計ソフトRやPythonを活用した分析入門講座をはじめ、学生、企業、官公庁へ向けた統計・データサイエンス学習講座を提供。日本行動計量学会、WiDS TOKYO @ YCU、日本RNAi研究会等、数々の学会およびシンポジウムに登壇。自身がアンバサダーを務める人材育成の活動(WiDS HIROSHIMA)が評価を受け、2021年度日本統計学会統計教育賞受賞。
2024/10/30(水)
オンラインセミナー「コンテンツのKPIと評価~GA4を使った効果分析~」|2024/10/30(水)
オウンドメディアを運営し、コンテンツマーケティングに取り組む企業が増えていますが、「どのように評価すればよいかわからない」「コンバージョンが …
2024/10/10(木)
オンラインセミナー「GA4でアプリ計測の基本 アクセス解析担当者向け」|2024/10/10(木)
GA4導入が進み、WebサイトをGA4で分析することに慣れてきた方が多いのではないでしょうか。 しかしアプリについては「まだ手を付けられてい …
2024/09/25(水)
オンラインセミナー「Microsoft Clarityで深める真のユーザー理解」|2024/9/25(水)
Microsoft Clarityを使っていますか? データ計測がこれまでより不十分になることが懸念されるなか、ユーザー理解に活用できるMi …
【コラム】最終的に固有名詞で指名検索されるにはどのようなコンテンツマーケティングに取り組むべきか、と考える
株式会社真摯 いちしま 泰樹生成AIの急速な展開にやや戸惑い気味です。普段の業務や調べ物に生成AIを利用する機会が増えましたが、コンテンツ制作やアウトプットの課程が変わ …
【コラム】ブラッド・ピットと阿部慎之助監督 どちらのデータ改善策が勝負強いのか?
アナリティクスアソシエーション 大内 範行巨人がリーグ優勝を果たしました。巨人は今年から阿部慎之助が原監督に代わって20代目の監督になりました。監督の最初のシーズンで、阿部慎之助監督 …
【コラム】ダッシュボード依存症からの脱却:データ活用で本当の価値を生み出す方法
Option合同会社 柳井 隆道データ基盤やCDP(顧客データプラットフォーム)を導入したものの、ダッシュボードを作るまで、データを見るだけで満足してしまう、燃え尽きてしま …