FANCOMI Ad-Tech Blog

株式会社ファンコミュニケーションズ nend・新規事業のエンジニア・技術ブログ

非理系、非エンジニア、非分析者が新米データサイエンティストになるためにやったこと

こんにちは、先日マイケルジャクソンの命日で30歳になったh_matsumotoです。
上司曰く6月25日は欅坂46の平手友梨奈の誕生日らしいけどよく分かりません。

本日はタイトルの通り、データサイエンティストに類するようなキャリアを
持たないような方がデータサイエンティストを目指す上で参考になるを教材を
ご紹介したいと思います。

  • これまでのキャリア
  • 実践 Python データサイエンス
    • 勧める理由
  • 数学
    • 超分かる高校数学
      • 勧める理由
    • 理系なら知っておきたい数学の基本ノート
      • 勧める理由
  • gacco
    • 勧める理由
  • 易しめな統計学や機械学習の本
  • データサイエンティストとしてのマインド
  • じゃあそれで今どうなってるの?
  • 最後に

これまでのキャリア

  • 私大文系卒
  • 2016年(去年)の8月1日に当社に入社
  • 主に事務系のアウトソーシングサービス会社で色々やってました
  • Accessで社内業務用のツールの開発と保守を約4年、VBAを約2年
  • 機械学習や統計の知識はほぼ無し

実践 Python データサイエンス

勧める理由
  • プログラミング(Python)、機械学習、統計学等カバー範囲が広い
  • 104レクチャー、全編17時間の充実したコンテンツ
  • セール期間中に買うと安く(1,200円くらい)費用対効果が良すぎる
  • 各単元毎のドキュメントが付録してあり、実務の際に辞書替わりに使える

www.udemy.com
Pythonのプログラミングを学んで、それを使ってデータ解析を行い
機械学習ライブラリの使い方まで学べます。
私も最初は訳も分からないので、動画を見ながら一緒にコードを書いて
いるだけでしたが、後で振り返るとここで手を動かしながら学んだ事が
身になっていると感じます。
後で、進○ゼミじゃないですけど
あ、これudemyでやったやつだ!」ってなると思います。

続きを読む

Treasure Reporting (Reporting & Dashboarding)を使ってみた

はじめましてこんにちは、新米データサイエンティストのh_matsumoto
(中身はやや古米)です。

今回は弊社で絶賛利用中のトレジャーデータのオプションサービスである
「Treasure Reporting (Reporting & Dashboarding)」をご紹介したいと思います。
docs.treasuredata.com

紹介動画
vimeo.com


「Treasure Reporting (Reporting & Dashboarding)」はSlemma社が提供する
BIツールをOEMとして利用しています。
slemma.com

トレジャーデータに格納されたデータを使って、レポートやダッシュボードを作成し
データの可視化を行う事が出来ます。
弊社でもデータの可視化にはシステムを改修して表示、クエリの結果をCSVとして
PythonやExcel上で処理する、他のBIツールを利用するといった用途に応じて対応
してきましたが、それらと比較しても中々便利に活用出来ます。

  • Treasure Reporting (Reporting & Dashboarding)の利用用途
  • 導入方法
  • 使い方
    • 接続設定
    • データセット作成
    • レポート作成
      • デザイン設定
      • フィルタリング設定
      • 並び替え設定
      • フォーマット設定
    • ダッシュボード作成
    • 閲覧設定
  • 最後に

Treasure Reporting (Reporting & Dashboarding)の利用用途

  • 1回限りではなく頻繁に確認する事がある
  • 自分以外に共有する事がある
  • 出来るだけ手間を掛けず、簡単に済ませたい

といった場合に非常に便利に活用する事が出来ます。
具体的なシーンで言えば、営業現場等からある数値を可視化し、毎日確認出来るよう
にしたいと要望があった場合などです。
逆に、1回限りそのデータの中身を可視化したい場合などには適しません。

続きを読む

機械学習を用いた天気予報 その2

こんにちは、気象予報士のy_kawasaki(取得してもう早、15年経つらしい)です。

前回は、精度が向上するどころか、悪化するという大惨事で終わりましたが、精度向上を目指します。

ここで、日本付近の気象学的知識を投入して考えましょう。そう、天気は西から変わるんです!というわけで、安直に、静岡くらいの天気情報を入れたいと思います。

東京と静岡を読み込んで、風向をDropします。

続きを読む

機械学習を用いた天気予報 その1

こんにちは、気象予報士のy_kawasaki(取得してもう早、15年経つらしい)です。

一般的な天気予報は、数値予報モデルといわれる、物理方程式で作られた仮想の地球で数値微分を行い、気温、気圧などを予測したあと、ガイダンスといわれる、機械学習を用いた、いわゆる天気予報への翻訳を行っています。
そこで、行われていることは、http://aitc.jp/events/20160916-Seika/20160916_特別講演_気象庁における機械学習の利用.pdfで説明されているように、カルマンフィルター、ロジスティック回帰、ニューラルネットワークなどが用いられています。特に、専門的に知りたい方は、気象庁数値予報課が毎年刊行している、研修テキストに詳しく載っていますので、そちらを参照してください。



さて、今回は気象庁とは別のアプローチで機械学習で、天気を予報してみようと思います。

続きを読む

ベイズ統計モデリングに触れてみた話

こんにちは、情報科学技術研究所のy_kawasakiです。春になり天気予報が微妙にずれる(時間的に)のが気になる今日このごろです。

  • ベイズ統計モデリングとは
  • 準備
    • ベイズ統計モデリングソフト
    • PyStanのインストール
  • 実例
    • 基礎統計的データ
    • 結果
    • 結果2
    • 今後の課題
  • 参考図書
  • 付録

ベイズ統計モデリングとは

ベイズ統計学による、統計モデリングのことです!それぞれの意味は個々でググってください!

準備

ベイズ統計モデリングソフト

ベイズ統計モデリングをやるには、MCMC(マルコフ連鎖モンテカルロ法)で解く必要があるので様々なパッケージが用意されています。たとえば、BUGS言語を使ったソフトや、Stanというツールなど。ここでは、最近流行りのStanを使うことにします。Pythonから使う必要が(自分には)あるため、PyStanを利用します。

PyStanのインストール


> pip install PyStan

難しいことはありません。

実例

弊社では本社があるビルが手狭になったことから一部の部署が切り出されて、近くのビルに放り出されました(以下、本社とサテライト)。そこで、時々、本社と行き来する必要が発生して、片道どれくらいかかるのかを情報科学技術研究所的には調査する必要性が発生しました。(使命感)

そこで、被験者3名に計測を依頼したところ、A7件、B2件、C4件、計13件の下記の結果を得ることができました。なお、本社、サテライト間には、信号とエレベータが障害として存在しています。

続きを読む