Veit'15

タイトル:

Learning Visual Clothing Style with Heterogeneous Dyadic Co-occurrences

掲載:

ICCV 2015

リンク:

https://vision.cornell.edu/se3/projects/clothing-style/

 

1. どんなもの?

Cross-category reccomendation。Siamese CNNというネットワークを利用してcompatibilityを学習。Siamese CNNは画像のペアを入力として与え、それにポジ/ネガのラベルがついているものっぽい。

 

2. 先行研究と比べてどこがすごい?

McAuley'15がImageNetで特徴抽出->線形位変換を学習だったのに対して、こちらはImagenetから抽出した特徴をSiamese CNNに繋げてfine-tuneして変換まで学習。

 

3. 手法のキモはどこ?

特徴抽出と変換の同時学習。Dyadicを異なるカテゴリー間に限定することで精度が向上することを示しているが、これはAmazonデータセットがこの毛球に向いていないことを示唆している。

 

4. どうやって有効だと判断した?

Link predictionのAUCと、主観評価。

 

5. 議論はある?

結果の画像を見ると、明らかにvisual compatibilityを学習していない。学習しているのはco-purchase。co-purchaseを画像特徴を利用して予想しているに過ぎない。

 

6. 次に読むべき論文は?

Siamese CNN

Moutafis'16

タイトル:

An Overview of and Empirical Comparison of Distance Metric Learning Methods

掲載:

IEEE Trans. Cybernetics

リンク:

http://cbl.uh.edu/pub_files/TCYB16.pdf

 

1. どんなもの?

Metric learningのサーベイ。2011-2013に出版された手法を

1 アンサンブル

2 非線形

3 正則化

4 確率的

5 コスト変化? (Cost-Variant, よくわからん)

に分類したうえで、顔認証を題材として統一的な実験を行なっている。

実験結果によると、Sub-SMLやKISSMEなどの手法が強い。

 

2. 先行研究と比べてどこがすごい?

統一的な実験を行なっている。

 

3. 手法のキモはどこ?

省略

 

4. どうやって有効打と判断した?

 顔認証を題材とした実験

 

5. 議論はある?

2011-2013と網羅された研究は多く無い。また、全ての手法が実験されたわけではない。

 

6. 次に読むべき論文は?

Sub-SML (Cao'13)

KISSME (Kostinger'12)

McAuley '15

タイトル:

Image-based Recommendations on Styles and Substitutes

掲載:

SIGIR 2015

リンク:

http://cseweb.ucsd.edu/~jmcauley/

 

1. どんなもの?

画像アイテムのcross-category推薦。特徴量はimageNet。compatibleなアイテム同士の特徴ベクトルの差分のL2ノルムが小さくなるような線形変換を学習。

 

2. 先行研究と比べてどこがすごい?

クロスカテゴリーであること。

 

3. 手法のキモはどこ?

線形変換はマハラノビス行列を基本とするがパラメタ多すぎで学習不能のため、その低ランク近似を学習する。

実際のところ、線形変換は単に最尤推定されておりマハラノビス行列とどのように関連で受けられているのかは不明。

 

4. どうやって有効打と判断した?

Amazonのco-purchaseデータセット

お題「わたしのアイドル」

 

5. 議論はある?

ユーザ行列を追加してパーソナライズ拡張も可能。ただし詳しく検証はされてなさそう。

 

6. 次に読むべき論文は?