Veit'15

タイトル:

Learning Visual Clothing Style with Heterogeneous Dyadic Co-occurrences

掲載:

ICCV 2015

リンク:

https://vision.cornell.edu/se3/projects/clothing-style/

 

1. どんなもの?

Cross-category reccomendation。Siamese CNNというネットワークを利用してcompatibilityを学習。Siamese CNNは画像のペアを入力として与え、それにポジ/ネガのラベルがついているものっぽい。

 

2. 先行研究と比べてどこがすごい?

McAuley'15がImageNetで特徴抽出->線形位変換を学習だったのに対して、こちらはImagenetから抽出した特徴をSiamese CNNに繋げてfine-tuneして変換まで学習。

 

3. 手法のキモはどこ?

特徴抽出と変換の同時学習。Dyadicを異なるカテゴリー間に限定することで精度が向上することを示しているが、これはAmazonデータセットがこの毛球に向いていないことを示唆している。

 

4. どうやって有効だと判断した?

Link predictionのAUCと、主観評価。

 

5. 議論はある?

結果の画像を見ると、明らかにvisual compatibilityを学習していない。学習しているのはco-purchase。co-purchaseを画像特徴を利用して予想しているに過ぎない。

 

6. 次に読むべき論文は?

Siamese CNN