こんにちは、k_oomoriです。最近、機械学習の分野でFactorization Machines (FM)という手法があることを知りました。Matrix Factorization (MF)は知っていたのですが、共にfactorizationという単語を含んでいるため、何か関係があるのだろうか?と気になり調べてみました。
ここではサンプルデータとしてFactorization Machinesの論文で使われていたものを使用します。
タイタニック (TI) | ノッティングヒルの恋人 (NH) | スターウォーズ (SW) | スタートレック (ST) | |
Alice (A) | 5 | 3 | 1 | |
2010-1 | 2010-2 | 2010-4 | ||
Bob (B) | 4 | 5 | ||
2009-5 | 2009-8 | |||
Charlie (C) | 1 | 5 | ||
2009-9 | 2009-12 |
Alice, Bob, Charlieの3人が4本の映画作品に対して評価をしたものです。上段が評価値、下段が評価を行った年月を表します。また空欄は未評価であることを示しています。問題設定としては、この未評価の部分を推定し、高評価になりそうな作品を推薦(レコメンド)したいとします。
Matrix Factorization (MF)
MFにおいては、表1の人作品の評価値の情報を次のような行列に対応付けます。
そしてこれを2つの行列の積として再現しようとします。
の列数
の行数
は与えられたデータからは決まらず、モデルの形を決めるパラメータ、即ちハイパーパラメータになります。
ここで見方を少し変えて、という行列を横ベクトルが人数分縦に並んだもの、
を縦ベクトルが作品数分横に並んだものと考えると
となります。ここで各は
次元の特徴空間内の特徴ベクトルとみなすことができます。つまり
はAliceの特徴(趣味趣向)を表すベクトルであり、
はタイタニックという作品の特徴を表しているというふうに考えることにします。すると
と
の積は
となります。ここではベクトル
と
の内積(ドット積)
を表し、行列記法の
と等価です。式(4)を(2)と比較し、すでに埋まっている部分を合わせるように、つまりできるだけ
を再現するように特徴ベクトルの値を決めることができれば、未評価の部分、例えばAliceがスタートレックを見たときの評価点の推定値を
として求めることができます。このように未評価部分を計算によって求め、その値が高いものを取り出すことによってレコメンデーションができるようになります。
今回の例は3人4作品=12点のうち7点がすでに埋まっているというそれなりに密(dense)なデータですが、人と作品の数が多くて実際の評価点が少ない疎(sparse)なデータに対しても特徴次元を低く抑えつつうまく学習することができれば、良い推定値を求めることができる可能性があります。
以上がMatrix Factorizationの基本的な考え方ですが、MFにはいくつかの発展形がありますのでそれを簡単に紹介しましょう。
バイアス項付きMatrix Factorization
上記の例ではあらゆる特徴を行列の中に押し込めましたが、人または作品片方にしか依存しない性質、つまり評価が全体的に辛口/甘口な人であるとか、誰もが高い/低い評価を与える作品といったものがあるかもしれません。それらを別パラメータとして抜き出し、そこからの逸脱を行列分解として表現したものがバイアス項付きのMatrix Factorizationです。例としてBobのタイタニックに対する評価予測値は、全体の平均を
、Bobの評価バイアスを
、タイタニックの評価バイアスを
とすると
と表されることになります。
Non-negative Matrix Factorization (NMF)
与えられたの要素の中に負の値が一つもない場合、分解後の
と
の要素も全て非負にせよという制約を置くことができます。これをNon-negative Matrix Factorization (NMF)といいます。なぜこれがより良い結果を導くかという直感的な説明としては、
特徴ベクトルの成分の中に不用意に大きな値があったとする
→全ての要素が0以上のため後からマイナスの値で打ち消すことができない
→最適化するにはどうしても慎重にならざるを得ない
ということで、罰則項による正則化に似た効果があるからではないかと、筆者個人としては解釈しています。(NMFについては過去に別の記事を書いていますので興味があればそちらもご参照ください。)
Tensor Factorization
これまでの例は人と作品という2軸のみを考えていましたが、問題設定によってはより多くの軸があり得ます。一例としてWeb広告の配信効果測定は一般に人広告枠(メディアサイト)
配信広告という3軸で行われます。従って
という人が
というサイトを訪れた際に表示された広告
をクリックする確率(Click-Through Rate, CTR)は
という"3次元"行列(縦横に加え奥行がある)として表現されます。これをfactorizationのスキームに載せるには、人
特徴
、広告枠
特徴
、広告
特徴
という3つの特徴行列を考えることで、(5)式を拡張した以下のような"内積"によって推定値を得ることができます。
通常の行列を2階のテンソルと思うことにすれば、"高次元の行列"(あまり一般的な概念ではない)は高階のテンソル(こちらは普通の概念)に対応するので*1、このような3次元以上の高次元の行列分解はTensor Factorizationと呼ばれているようです。 当然バイアス項付きのTensor Factorizationや、Non-negative Tensor Factorization (NTF)といった拡張も可能です。
Factorization Machines (FM)
さて、次はFMです。最も基本的なFMにおいては、表1のデータは次のような持ち方をします。
MFに比べるとちょっとわかりにくいですね。が入力の特徴ベクトルで、値の0/1はBoolean的な意味と思ってください。つまり
はAlice(A)とタイタニック(TI)のところにフラグが立っているだけで、1という値の大きさに意味はありません。そしてもちろん、2人以上の人(AとB)や2つ以上の作品(TIとNH)に同時に1が立つこともありません。このベクトルの次元は評価者の人数と作品数の和で、ここでは
とおきます。(上記例では
)
これを用いて、Factorization Machineの数式モデルは以下のように与えられます。
この中でが機械学習によって決めるべきパラメータで、ベクトル
の次元
は例によってハイパーパラメータです。
モデルの学習ができたとして、再びBobのタイタニックに対する評価値を推定してみましょう。引数としてを与えると、値が残るのは
と
だけなので
となります。ここでと読みかえて(6)式の右辺
と比較すると…ぴったり一致してますね!そうです、(8)式のような"誰"と"どの作品"の箇所にのみ1を立てるような特徴ベクトルの持ち方をした場合、Factorization MachineはMatrix Factorizationに一致するのです。(9)式では2次の項までに抑えていますが、これに例えば次のような3次の項
を付け加えると3階のTensor Factorizationになります。
ではなぜMFで満足せずわざわざFMのようなモデルを新しく考えるかというと、フラグ以外の属性を加えるという拡張性があるからです。このセクションの初めに"最も基本的なFM"と書いたのはこのためです。再度FMの論文から例を拝借すると
わかりやすくするために罫線を入れてあります。ここでなどにはその人が評価を行った作品に対して1/評価件数が、Timeには2008年12月から数えて何ヵ月後に評価を行ったかが入っています。このような属性を追加することにより、例えば直近に行った評価の方により重みを置くとか、過去に評価したことのある作品の影響を評価推定値に反映させるといったことが可能になります。例えばBobが2010年6月にタイタニックを評価した場合の特徴ベクトルは
となるので、その評価予測値は(9)式より
として求められます。この例で考えた項目に限らず、自分が使いたいと思った付帯属性を好きなだけモデルに加えて拡張していけるというのがFMの強みです。
Field-aware Factorization Machines (FFM)
では最後にFFMの説明をします。Factorization Machineの式(9), (14)に現れるベクトルは、例えばBobを表すベクトル
はあくまでも一つであり、内積を取る相手が作品だろうと拡張された属性だろうと常に同一のBobベクトル
を使っていました。それに対してFFMでは特徴ベクトル
のカラムをfield(日本語訳不明)と呼ばれるクラスに分け、同じBobを表現するベクトルであってもfieldごとに異なるものを用意し、内積をとる相手が属するクラスに応じて使い分けるということをします。例を挙げましょう。(9)式の2次の部分のFFM版は
となります。式(12)のケースではfieldは罫線で区切られた4つ、つまりAlice,Bob,Charlieはuser field 、TI, NH, SW, STはmovie field
、
は逆評価数field
、TimeはTime field
に属するものとします。(14)式に対応するFFM版の予測式は
となります。同じBobでも対movieのときは, 対評価数では
, 対時間では
と使い分けられています。FFMは実際にCTR予測[ Click-Through Rate Prediction | Kaggle, GitHub - guestwalk/kaggle-avazu ]や商品レコメンド[ E-Commerce Item Recommendation Based on Field-aware Factorization Machine ]などに応用されています。
HivemallでFactorization Machines
実際にこれらの手法を試すにあたり、C++で書かれたMF, FM, FFM用のライブラリ
- LIBMF: A Software for Matrix Factorization for Recommender Systems
- libFM
- LIBFFM: A Library for Field-aware Factorization Machines
は用意されているのですが、プログラムを自前で組むのはハードルが高いので、今回はSQLでお手軽に実行できるHivemallで試してみようと思います。
Hivemallとは、トレジャーデータ株式会社の油井誠氏によって開発されている機械学習ライブラリで、SQL-likeなクエリを使ってプログラミングレスで学習から予測までの機械学習の一連の処理を実行することができるというものです。トレジャーデータサービス(TDS)を導入してログを格納していれば、そのデータに対して手軽に分析をかけることができます。
HivemallでMatrix Factorizationを行うやり方については、油井さんによるわかりやすい解説記事(HivemallでMatrix Factorization - Qiita)がありますのでそちらをご参照ください。Factorization Machinesについてもトレジャーデータの
公式ドキュメントがあるのですが、そちらの例には付帯属性(context information)が含まれていないようなので(2016/6/12現在)、今回は(12)のデータを使ったFMのやり方を示してみようと思います。
以下の例では、データベースは全てfm_test_dbを使うものとします。まず、次のようなCSVファイルを作ってトレジャーデータのobserved_dataテーブルにアップロードします。これくらいの小さなデータであればブラウザからFile Uploadするのが一番楽です。
userId,movieId,n1,n2,n3,n4,months,rating,time A,TI,0.333333,0.333333,0.333333,0.000001,13,5,0 A,NH,0.333333,0.333333,0.333333,0.000001,14,3,0 A,SW,0.333333,0.333333,0.333333,0.000001,16,1,0 B,SW,0.000001,0.000001,0.5,0.5,5,4,0 B,ST,0.000001,0.000001,0.5,0.5,8,5,0 C,TI,0.5,0.000001,0.5,0.000001,9,1,0 C,SW,0.5,0.000001,0.5,0.000001,12,5,0
トレジャーデータに入れるときは時刻を表すカラム(time)が必要なので、UNIX epoch (0)をダミーで指定しています。またn1などの値を0にしてしまうと次のステップでfeatureに取り込まれなくなってしまうようなので、非常に小さな値()としています。次いでこれを形式変換してobserved_featuresテーブルに保存します。*2
$ td table:create fm_test_db observed_features $ td query -w --type hive -d fm_test_db " INSERT OVERWRITE TABLE observed_features select rowid() as rowid, concat_array( categorical_features(array('userid', 'movieid'), userid, movieid), quantitative_features(array('n1', 'n2', 'n3', 'n4', 'months'), n1, n2, n3, n4, rescale(months, 0, 18)) ) as features, rating from observed_data"
質的変数(値の大きさに意味のないもの)はcategorical_featuresに、量的変数はquantitative_featuresに渡し、concat_arrayで結合します。rescaleは変数を0-1の範囲に規格化したい場合に使用します。このコマンドを実行するとobserved_featuresテーブルには以下のようなデータが入ります。
通常、機械学習ではデータセットを学習用データと検証用データに分け、学習の結果得られたモデルの精度の検証を行うのですが、今回は元データが7レコードしかないため全てを学習に使用します。検証用データを分ける方法については公式ドキュメントを参照してください。
では学習を行います。
$ td table:create fm_test_db fm_model $ td query -w -x --type hive -d fm_test_db " INSERT OVERWRITE TABLE fm_model select feature, avg(Wi) as Wi, array_avg(Vif) as Vif from ( select train_fm(features, rating, '-f 2 -iters 50 -min 1 -max 5') as (feature, Wi, Vif) from observed_features ) t group by feature"
train_fmに与えたオプションパラメータは次のような意味です:itersは学習の際のイテレーションの回数を指定します。f(factorの頭文字)は特徴ベクトル空間の次元で、現在の例ではラブストーリー系とSF系という2種類のジャンルの映画を考えていることからとしました。min, maxには目的変数(現在の場合は映画に対する5段階評価)の値の範囲を指定しますが、学習後のモデルによる予測値が厳密にmin~maxの間に収まるというものではなく、学習のヒント程度とのことです。さて、得られたfm_modelは以下のようになります。
(9)式と比較すると、Wiがそれぞれのバイアス、Vifが特徴を表すベクトル(ここでは2次元)に対応していることがわかります。
モデルの学習が済んだので、予測を行いましょう。予測用データとして、すでに学習用に使ったものも含めた3人×4作品の全12通りの組み合わせを用います。monthsには、2010年6月に評価を行うという想定で18を入れます。
userId,movieId,n1,n2,n3,n4,months,time A,TI,0.333333,0.333333,0.333333,0.000001,18,0 A,NH,0.333333,0.333333,0.333333,0.000001,18,0 A,SW,0.333333,0.333333,0.333333,0.000001,18,0 A,ST,0.25,0.25,0.25,0.25,18,0 B,TI,0.333333,0.000001,0.333333,0.333333,18,0 B,NH,0.000001,0.333333,0.333333,0.333333,18,0 B,SW,0.000001,0.000001,0.5,0.5,18,0 B,ST,0.000001,0.000001,0.5,0.5,18,0 C,TI,0.5,0.000001,0.5,0.000001,18,0 C,NH,0.333333,0.333333,0.333333,0.000001,18,0 C,SW,0.5,0.000001,0.5,0.000001,18,0 C,ST,0.333333,0.000001,0.333333,0.333333,18,0
これをto_be_predictedテーブルに格納したとして、先ほどと同じようにfeaturesに変換します。
$ td table:create fm_test_db features_to_be_predicted $ td query -w --type hive -d fm_test_db " INSERT OVERWRITE TABLE features_to_be_predicted select rowid() as rowid, concat_array( categorical_features(array('userid', 'movieid'), userid, movieid), quantitative_features(array('n1', 'n2', 'n3', 'n4', 'months'), n1, n2, n3, n4, rescale(months, 0, 18)) ) as features from to_be_predicted"
さらにこれをexplodeします。
$ td table:create fm_test_db features_to_be_predicted_exploded $ td query -x -w --type hive -d fm_test_db " INSERT OVERWRITE TABLE features_to_be_predicted_exploded select rowid, extract_feature(fv) as feature, extract_weight(fv) as Xi from features_to_be_predicted t1 LATERAL VIEW explode(add_bias(features)) t2 as fv"
features_to_be_predicted_explodedに格納されるデータのうちAlice×タイタニックのものを抜き出すと以下のようになります。
これで準備が整いました。いよいよ予測です。
$ td table:create fm_test_db fm_predict_result $ td query -w -x --type hive -d fm_test_db " INSERT OVERWRITE TABLE fm_predict_result select t1.rowid, fm_predict(p1.Wi, p1.Vif, t1.Xi) as predicted from features_to_be_predicted_exploded t1 LEFT OUTER JOIN fm_model p1 ON (t1.feature = p1.feature) group by t1.rowid"
これを(1)式のような行列で表現すると
(1)式を再掲します。
これらを比較すると、評価値があるところについてはその値がある程度再現されており、未評価部分も埋まっていることが見て取れます。これにより、例えばCharlieに対してレコメンドを行う際には、ノッティングヒルの恋人(約2.60)よりもスタートレック(約5.18)の方が高評価になりそうということがわかります。
HivemallにはFFMも近いうちに実装予定(2016/6/12現在)とのことですので、利用可能になったら試してみたいと思います。
References
[1] S. Rendle, "Factorization Machines," http://www.csie.ntu.edu.tw/~b97053/paper/Rendle2010FM.pdf
[2] http://www.csie.ntu.edu.tw/~r01922136/slides/ffm.pdf
[3] HivemallでMatrix Factorization - Qiita
[4] MovieLens 20m Rating Prediction using Factorization Machine – Arm Treasure Data
[5] Factorization Machinesについて調べてみた - Qiita
[6] Factorization Machinesのおはなし。 | 分析のおはなし。
[7] Factorization Machines (ICDM 2010) 読んだ - 糞糞糞ネット弁慶
*1:物理屋、特に相対論屋さんとしては行列とテンソルを同一視することに違和感があるかもしれません(例:クリストッフェル記号は3つ足を持つので成分表記としては"3次元行列"として書けるが一般座標変換の下でテンソルとしての変換性を有しない)が、細かいことを気にしたら負けです。
*2:tdコマンドの詳細はこちらを参照してください→インストール, コマンドリファレンス