F@N Ad-Tech Blog

株式会社ファンコミュニケーションズ nend・nex8・viidleのエンジニア・技術ブログ

WEBしか触ってこなかった人がアドテクサービスのビッグデータを使ってデータ分析をした

株式会社ファンコミュニケーションズ
という会社で5日間インターンをしている d_oda です。
先月まで高専の3年生でした。

インターンに参加した理由

[理由1]
WEB系の開発をずっとしてきたが
データサイエンスの知見を持ってたら何かあとで役に立つと思ったので。

[理由2]
いつもWEB系のシステムを作ってるので
0から何かを作ることをずっとやってきたわけですが、
「既存のデータから法則性を見つける」というのを
やってみたくなってきたため。

[理由3]
Findy https://findy-code.io/ という採用アプリで
メッセージが来た。ちなみに、Findy https://findy-code.io/
Githubでログインすると(多分)自動でGithub偏差値を計算してくれます。
RubyとかJavascriptのソースコードをたくさん置いてたんですが、
何故かシェルスクリプトの偏差値が一番高くて60くらいでした。

インターン内容

[5日間でやったこと]
・統計、機械学習の基礎
・簡単な特徴語抽出。サンプルデータを用いた予測やレコメンドの仕組みの実装。
・ビッグデータからインプレッションとCVを抜き出してCVRxCTRが低い&高い時間帯を調べた。
・Wifiの有無によるCVRxCTRの違いを調べた
・UserAgentごとのCVRxCTRの変動を調べた

[詳しい内容]
最初は「データサイエンス入門」みたいなテキストを渡され、それを読み
データ分析・統計の基礎・機械学習の基礎を学びつつ、ロジスティック回帰
やランダムフォレストなどの基本的なアルゴリズムを用いて
簡単な分析を行なってました。
まだ高専の3学年を終えたてだったので「確率分布」など、
習ってない事が多々あり、実装に必要な知識をこの短い期間で
全部理解するのは無理そうだなあと思ってました。
でもテキストには概念の触りの部分だけがまとめてあって、
ググりながらサクッと進められてよかったです。

ちなみに70ページくらいの結構しっかりしたテキストで、LaTeXで書かれててすごかった。
さすが上場企業だなあと、、、

その後はいきなり会社の実データを使ってデータ分析。
いくつか課題を出されて、それをずっと解いていました。
例えば、CVRxCTRが高いUserAgentを調べるために
SQLでimpとconversionイベントを抜き出してCVRを計算し、それをUserAgentでグルーピング
してmatplotlibでビジュアライズしたり、Wifi接続の有無によるCVRの違いを調査したりなど。

本格的にビッグデータを扱ったのは初めてで、最初は色々詰んでましたが
メンターさんの説明がわかりやすかったので、するする理解できました。

社内の印象

とっても広くてキレイで、皆さん優しかったです。
質問したいときにいつでも聞ける雰囲気だったし
結構皆さん自由な働き方をしていて素敵な会社でした。

あと、昇降デスクだったので立ちながらコード書いたりできて最高でした。

昼休み

毎日色んなエンジニアさんやマネージャさんにご飯に連れてって もらいました!
青学の学食がすごいコスパよかったです。

まとめ

・データ分析の基礎がだいたいわかった。
・求めたい結果から1つずつ逆算してどんなアプローチを取るのが最適解か常に考えよう。
・データの検定大事。
・機械学習系で使うツールは英語の資料がめっちゃ多いので英語力大事
・SQLはどんどん叩いて慣れよう。
・質問力が増した。

最後に

メンターの川崎さん、酒井さん、片桐さん、何度も何度も丁寧に教えていただき
本当に感謝です!(色んな方に教えてもらったのでメンターが何人いるかわからなくなってしまった)。人事の内田さん、入社から退社まで色々なことをサポートいただきありがとうございました。