RAKUS Developers Blog | ラクス エンジニアブログ

株式会社ラクスのITエンジニアによる技術ブログです。

イベント詳細についてはこちらをクリック

【全ITエンジニア必修】匿名化された個人情報とは何なのか:データ匿名化 第1回

こんにちは、株式会社ラクスで横断的にITエンジニアの育成や、技術推進、採用促進などを行っている開発管理課に所属している鈴木です。

今回は社内選抜メンバーで行っている発の来にせん手をうつプロジェクト(通称:かみせんプロジェクト)」で、今期取り扱っている「データ匿名化(個人情報の匿名化)」についてお話ししたいと思います。今のところ全7回を予定していますのでお付き合いいただければと思います。

なお、かみせんプロジェクトについてはこちらの記事で紹介していますので、気になる方はこちらも併せてごらんください。

tech-blog.rakus.co.jp

連載目次

個人情報の匿名化

2015年に個人情報保護法が改正され、世間的にも個人情報の扱いに今まで以上に気を使う機会が増えてきました。エンジニアの目線だと2014年ごろから流行り始めたビッグデータの入力となる大量のデータの前処理として注目されるようになったと思います。2014年にはO'reillyから専門書の邦訳版も出版されました*1

データ匿名化手法 ―ヘルスデータ事例に学ぶ個人情報保護

データ匿名化手法 ―ヘルスデータ事例に学ぶ個人情報保護

しかし、個人情報の扱いについては法律に定められているということもあり、具体的にどのように扱えばよいのかわかりにくい部分があると感じています。これについて個人情報の扱いについて最低限どうすればよいのか、それぞれの言葉が何を指しているのか*2をITエンジニア目線でお話ししていければと思います。なおお約束ですが、私は法律の専門家ではないので記載の内容を自社サービスに適用する場合などは専門家に相談したうえでお願いします。

そもそも個人情報とは

個人情報保護法で定められていることを記載。

個人情報についての取り扱いは一般論などで定められているわけではなく、平成29年5月30日に施行された個人情報の保護に関する法律(略称、新個人情報保護法)によって定められています。

法的な解釈

個人情報は新個人情報保護法 第一章 総則の中で以下のように定義されています。

第二条 この法律において「個人情報」とは、生存する個人に関する情報であって、次の各号のいずれかに該当するものをいう。

一 当該情報に含まれる氏名、生年月日その他の記述等(文書、図画若しくは電磁的記録(電磁的方式(電子的方式、磁気的方式その他人の知覚によっては認識することができない方式をいう。次項第二号において同じ。)で作られる記録をいう。第十八条第二項において同じ。)に記載され、若しくは記録され、又は音声、動作その他の方法を用いて表された一切の事項(個人識別符号を除く。)をいう。以下同じ。)により特定の個人を識別することができるもの(他の情報と容易に照合することができ、それにより特定の個人を識別することができることとなるものを含む。)

二 個人識別符号が含まれるもの

『個人情報の保護に関する法律』より引用

このままだとわかりにくいので分解してみます。

当該情報に含まれる氏名、生年月日その他の記述等により特定の個人を識別することができるもの

その他の記述等とあるために範囲が特定しがたいですが、比較的わかりやすいと思います。

他の情報と容易に照合することができ、それにより特定の個人を識別することができることとなるものを含む

氏名など単体で特定できるものに限らず、組み合わせによって特定できる情報も含まれるということです。例えば「〇〇交番の隣に住んでいる」「おじいさん」という組み合わせは「〇〇交番の周囲の住居(住所の範囲)」だけや「おじいさん(性別と年齢の範囲)」だけでは個人を特定できなくても2つの情報が組み合わさったときに特定できる場合はこれも個人情報として扱われることになります(単体で個人を識別できる識別子に対して準識別子と呼ばれる)。

文書、図画若しくは電磁的記録に記載され、若しくは記録され、又は音声、動作その他の方法を用いて表された一切の事項(個人識別符号を除く。)をいう

これは記録の方法がアナログ、デジタルの区別がなく、文字や図案(図、表、写真など)だけではなく音声や動作なども区別もなく該当するということになります。

個人識別符号が含まれるもの

「個人識別符号」というのは聞きなれないですが、以下のように定められています。

2 この法律において「個人識別符号」とは、次の各号のいずれかに該当する文字、番号、記号その他の符号のうち、政令で定めるものをいう。

一 特定の個人の身体の一部の特徴を電子計算機の用に供するために変換した文字、番号、記号その他の符号であって、当該特定の個人を識別することができるもの

二 個人に提供される役務の利用若しくは個人に販売される商品の購入に関し割り当てられ、又は個人に発行されるカードその他の書類に記載され、若しくは電磁的方式により記録された文字、番号、記号その他の符号であって、その利用者若しくは購入者又は発行を受ける者ごとに異なるものとなるように割り当てられ、又は記載され、若しくは記録されることにより、特定の利用者若しくは購入者又は発行を受ける者を識別することができるもの

『個人情報の保護に関する法律』より引用

何を指しているのか少しわかりにくいですが、こちらは個人情報保護員会が公開している個人情報保護の基本という資料の9ページ目がわかりやすいです。

「個人識別符号」は以下①②のいずれかに該当するものであり、政令・規則で個別に指定 される。
① 身体の一部の特徴を電子計算機のために変換した符号
⇒DNA、顔、虹彩、声紋、歩行の態様、手指の静脈、指紋・掌紋
② サービス利用や書類において対象者ごとに割り振られる符号
⇒公的な番号
旅券番号、基礎年金番号、免許証番号、住民票コード、マイナンバー、各種保険証等
『個人情報保護の基本』より引用(PDF)

匿名化とは

これらの個人情報を含む情報を再利用可能な形にすることを一般に匿名化、再利用可能なデータを匿名化データなどと呼びますが、これも同じく新個人情報保護法にて定義されています。

法的な解釈

法律上は匿名化データのことは「匿名加工情報」と表現され、個人情報と同じく新個人情報保護法 第一章 総則の中で以下のように定義されています。

9 この法律において「匿名加工情報」とは、次の各号に掲げる個人情報の区分に応じて当該各号に定める措置を講じて特定の個人を識別することができないように個人情報を加工して得られる個人に関する情報であって、当該個人情報を復元することができないようにしたものをいう。

一 第一項第一号に該当する個人情報 当該個人情報に含まれる記述等の一部を削除すること(当該一部の記述等を復元することのできる規則性を有しない方法により他の記述等に置き換えることを含む。)。

二 第一項第二号に該当する個人情報 当該個人情報に含まれる個人識別符号の全部を削除すること(当該個人識別符号を復元することのできる規則性を有しない方法により他の記述等に置き換えることを含む。)。

『個人情報の保護に関する法律』より引用

こちらも一つずつ見ていきたいと思います。

第一項第一号に該当する個人情報

こちらは先述した

当該情報に含まれる氏名、生年月日その他の記述等により特定の個人を識別することができるもの

という個人識別符号以外の部分に該当する情報です。

当該個人情報に含まれる記述等の一部を削除すること。

「記述等の一部を削除」は文字通りのなのでわかりやすいです。例えば住所であれば「東京都渋谷区千駄ヶ谷5-27-11」*3の後半を削除して「東京都渋谷区」にすればよさそうです。

当該一部の記述等を復元することのできる規則性を有しない方法により他の記述等に置き換えることを含む。

非可逆な情報で置き換えることでも「削除」として扱われるようです。ただし注意しなければならないのは置き換えた後の情報が他の情報と容易に照合することができ、それにより特定の個人を識別することができることとなるものになっていてはいけないので、置き換えた後も個人情報に該当しないか確認する必要があるでしょう。

第一項第二号に該当する個人情報

こちらは「個人識別符号」に該当する情報についてです。

当該個人情報に含まれる個人識別符号の全部を削除すること

こちらは先ほどと異なるのは「個人識別符号の全部を削除」となっている部分です。例えばクレジットカード番号であれば「下数桁を置き換える」といった方法ではなく「すべての桁を存在しない番号に置き換える」といった対応が必要なようです。

当該個人識別符号を復元することのできる規則性を有しない方法により他の記述等に置き換えることを含む

個人識別符号についても非可逆な情報で置き換えることでも「削除」として扱われるようです。こちらも同様に置き換え後の情報が個人情報となっていないことは確認する必要があります。

まとめ

ここまで法律上の「個人情報」「匿名加工情報」の定義をかみ砕きながら読み解いてきました。

しかし実際の「匿名加工情報」に加工するにあたっては加工対象となるデータに応じてケースバイケースの対応を行っていく必要があります。この連載では実際のデータの加工をどのように進めていくのかを順を追って紹介してみたいと思います。

ただし、ここまで触れてきたとおり個人情報の匿名化には法的解釈があるので、実業務に適用する場合などは専門家に問い合わせて確認してから取り扱っていただければと思います。

この連載では最低限やらないといけないだろうことや、各用語がどういうものを指しているのかをエンジニア視点で解説していきたいと思います。


次回は匿名化した個人情報が本当に個人を特定できないのか、個人を特定できないとはどういうことなのかをお話ししたいと思います。

連載目次

*1:ちなみにこちらの『データ匿名化手法』は序盤が匿名化手法一般の話題で、中盤以降が医療系データでの事例をもとに解説されていますが、序盤の特に2章は何度も繰り返し読み込んだほどよくまとまっているのでオススメです。

*2:意外と字面からの想像では正しく理解できない用語もちらほらあります。

*3:弊社の住所です。

Copyright © RAKUS Co., Ltd. All rights reserved.