再識別(Re-identification)について調べた

#re-identification

2018年5月号の「情報処理」(ちゃんとモニタアンケートも書いた)でPWS Cup 2017を題材に匿名化・再識別が取り上げられていて楽しそうだったのでいろいろ調べてリンクをまとめた。 PWS Cupは学生だけでは参加できないそうだが、本戦で使用されたデータは公開されている。

海外ではArvind Narayananという人が有名らしい。日本だと中川裕志先生のスライドがたくさん出てくる。 語彙力が足りないので英語論文がすらすら読めない…じっくり時間をかければ理解できそうな気はするが。

PWS CupとNetflix Prizeの事例の違い、re-identificationとde-anonymizationの違いもイマイチわからなくて混乱している。 個々の履歴などのレコードがある1人に属することを見破る(=識別する)のがre-identificationで、その個人がだれだれという段階まで割り出すのがde-anonymizationだろうか。

コードを探るとPyTorchなどを使ったものも出てくる。ということは機械学習を勉強してみる必要があるのかな。 寮に戻ったらちゃんと機械学習の本読み進めます…