匿名化された個人情報は99.98%の精度で個人を再特定できるという研究結果が発表される

投稿日:

by しんや

ここ数年でAI(人工知能)という言葉がすっかり私たちの生活に馴染んできたように思えます。あらゆる企業や製品がAIを活用していると謳っており、これからも様々な分野に進出していくでしょう。

そのAIの技術に必要なのが学習データと呼ばれる大量のデータセット(住所や閲覧履歴や購入履歴など)ですが、当然これらは多くの個人情報を含むため常に匿名化されて利用されてきました。

しかし今回、その「匿名化」が実は正確に働いていない、つまり匿名化されたはずのデータから再び個人を再特定できてしまう可能性を示唆した研究結果が発表されました。

「匿名化された」データセットから99%の個人を特定

Yves-Alexandre de Montjoye氏の研究チームは、匿名化されたデータセットから個人が再特定される可能性を正確に評価できる統計的方法を開発しました。

それにより明らかになったことは、15種の人口統計学的属性を用いれば、あらゆるデータセットでアメリカのマサチューセッツ州の住人99.98%が特定可能ということです。

実はこの研究以前から、クレジットカードのデータセットから4つの情報をランダムに抽出しただけで90%の人を再特定できることや、4つの時空間地点からなるデータセットから95%の人を正確に特定できることが発表されていました。

ただ、今回の研究の成果は、データセットから個人を特定することがどの程度可能かをデータとして正確に見積もれる統計モデル作り出したところにあります。

そして、それにより分かったことはわずか15種類の人口統計学的属性からほぼ100%の精度で個人を特的できてしまうということで、これはGDPR(EU一般データ保護規則)やCCPA(カリフォルニア消費者プライバシー法)が果たして本当に機能しているのか疑問を投げかける結果になりました。

さらに悪いことに、現時点ではこのような匿名化されたと考えられているデータは合法的に手に入れられるため、データの再特定によるプライバシーを保護の危険性が存在しています。

最近では、Amazon EchoやGoogle AssistantそしてSiriが収集した音声データを外部業者に委託することで精度の向上を図っていることが判明しています。

当然彼らはそれらのデータにはなんら個人を特定できるようなものは含まれていないと語り、それらのデータはプライバシーを保護するための厳格ルールにのっとり処理されていると説明していますが、果たし本当に彼らが語る通りに個人を特定できないのかという疑問も出てきます。

彼らが再特定する方法を知らないだけで、もしも第三者に渡れば99.98%の精度で特定されてしまう可能性があるかもしれません。

とはいっても、今の時代に全ての電子機器を断つというのも無理な話ではあるので、私たちにできる対策といえば信頼できないメーカの製品を無闇に使用しないことや現代のデータ保護法が十分で、またその法に則っているのかをチェックすることではないでしょうか。

個人情報に関する関連記事

アプリのトラッキングから個人情報を守るために今すぐ出来る対策!あなたのiPhoneは大丈夫?

5400種類以上のiPhoneアプリが個人情報を「第三者に送信している」ことが発覚

日本人の個人情報2億件、中国のアングラサイトで販売か…。迷惑メールや詐欺に注意

Facebookがサードパーティアプリの個人情報をも買収していた事が判明

他人事じゃない!Snapchatがユーザーの個人情報ややり取りを盗み見ていた事が判明

参考:TechCrunch

関連記事