
2019 年に初めて公開されたこの記事では、プライバシー コンピューティングのビジネス モデルを理解するための最も基本的な入門知識を紹介します。原題:「データは石油よりも価値があるが、どうやってそれを達成するのか?」 "; 著者: 李華。
「ブローカーズ」は2017年には早くも表紙記事を掲載し、今日の時代で最も価値のあるリソースは「データが石油に代わる」と述べた。しかし今日に至るまで、「データオイル」の主権を所有する一般の人々は依然としてこの貴重なリソースの恩恵を受けることができません。
それどころか、これらのデータは、その所有者に深刻なプライバシー漏洩の問題ももたらします。
美しいビジョンと現実の間にはなぜ大きなギャップがあるのでしょうか?データの所有権とデータの価値はどのように実現できるのでしょうか?本稿では、この問題に関するいくつかのヒントを明らかにし、思考枠組みの確立に貢献することを期待して、既存の実践から議論を試みます。
データを販売することはできません
営業電話を受けた経験は誰でもあると思います。人々の個人データの大部分は売買されており、電話番号や一部の消費者情報などの最も単純なデータは、現時点でもどこかで再び売られるのを待っている可能性があります。
データは実際にお金で販売され、そのお金はデータにアクセスできる機関に送られます。
この現象は誤解を招きがちです。つまり、データを販売することでデータの価値を実現できる、つまり法的規定と技術的手段の助けを借りてデータ主権を獲得した後、これらのデータを販売できると考えているのです。データ価値を取得し、「石油」を売ってお金を得る。
しかし、これは間違いで、データを売買することはできません。この問題について詳しく説明する前に、データの所有権とデータの使用権を区別する必要があります。
世界の大部分の資産にとって、売買は資産の所有権の移転を意味します。つまり、一方の当事者が所有権を獲得し、もう一方の当事者が所有権を失います。ただし、データを売買してもデータの所有権は移転されません。データを販売したとしても、データの所有権は依然としてお客様に属します。
したがって、データに関するトランザクションは、実際にはデータの所有権ではなく、データの使用権に関するトランザクションです。しかし、データは無限にコピーできるため、データを販売した場合、購入者がそれをどのように使用するか、またデータが販売されるかどうかは保証されません。データを所有しています。
違法なデータ取引は、データ所有者の権利利益を考慮しないため、直接データを売買しますが、本当にデータの所有権を所有している場合、データの価値を実現するために、データを売買することはできません。
では、データを失わずにデータへのアクセスを交換するにはどうすればよいでしょうか?答えは、データそのものを取引するのではなく、取引データの計算結果のみを取引することです。つまり、購入者はこれらのデータを使用して計算を実行し、望ましい結果を得ることができますが、元のデータ自体を取得することはできません。
これは、データの所有権とデータの価値について議論するときに理解する必要がある最初の、そしておそらく最も重要なことです。データの価値はデータを販売することによって実現することはできず、データの結果を販売することによってのみ実現されます。
つまり、データの所有権と使用権を分離し、データを使用する権利のみを取引する必要があるのです。
プライバシー コンピューティングはユーザーのプライバシー問題だけを対象とするものではありません
データを販売するだけで成果を実現するにはどうすればよいでしょうか?答えは、プライベート コンピューティングによるものです。
プライバシーコンピューティングとは、元のデータを公開せずにデータを計算し、計算結果を検証できるようにすることです。完全準同型暗号化や安全なマルチパーティ コンピューティングなどの複数の研究方向が含まれており、その動作原理を紹介する専門的な技術記事が多数あります。さらに詳しく知りたい場合は、それらをチェックしてください。
ここで、明確にする必要がある 2 番目の曖昧さがあります。つまり、プライバシー コンピューティングは、ユーザーのプライバシーを保護するためだけでなく、データ使用権トランザクションを実現するための基礎、つまりデータの価値を実現するための基礎でもあります。
なぜこのような明確化が必要なのかというと、「プライバシーコンピューティング」はプライバシー保護技術の一つとして容易に理解され、「プライバシー」に焦点が当てられているが、実際には「プライバシーコンピューティング」の焦点は「計算」にあるからである。
ブロックチェーン業界では、ユーザーのプライバシーを強化する手段として、暗号通貨取引やブロックチェーン上でプライバシーコンピューティングがよく使われているため、ユーザーのプライバシーを実現するものとしてプライバシーコンピューティングが理解されやすいのですが、この理解は間違っていません。それはプライバシー コンピューティングを小さな分野に限定します。
おそらく別の角度から見るとより明確になるでしょう。私たちはデータの問題をユーザーのプライバシーの問題とデータの価値の問題に分けます。ユーザープライバシーの問題は、ユーザーに関するオリジナルデータが公開されず、ユーザーのプライバシーが暴露されないという問題を解決することであり、この問題は、特定の範囲内での一種のデータプライバシー保護と考えることができます。 。
現段階では、プライベート コンピューティングの役割は、プライバシー保護に対する代替アプローチとなります。
ユーザーがデータ プライバシーを取得した後、ユーザーまたは企業がデータをそこに置き、何もしないことを選択した場合、話は終わります。しかし、ユーザーまたは企業がさらに進んでデータの価値を取得したい場合は、データを取り出す必要があります。物事は次の段階に入っていますが、このとき、データが利用されるライフサイクル全体にわたって漏洩しないようにさまざまな手段を講じる必要があり、これがデータプライバシーの全範囲と考えることができます。保護。
データの価値を実現する方法は、元のデータを公開せずにデータ結果を販売し、データ利用を実行することであるため、現段階では、プライバシー コンピューティングの役割はもはやオプションの方法ではなく、必要な手段です。コンピューティングはこの目標を達成できます。
データを石油に例えると、プライバシーコンピューティングは石油精製の最初のプロセスであり、ユーザーのプライバシーを確保することを前提に、「原油」をさまざまな製品に変換する基盤となります。
すべてのデータが同様の値を持つわけではありません
すべてのデータが同様の価値を持つわけではなく、すべてのデータがデータ価値を達成できるわけではありません。これは、データの価値について議論するときに明確にする必要があるもう 1 つの場所かもしれません。
データの複雑さと多様性を理解した場合にのみ、さまざまな状況に応じて法的および技術的にさまざまな用語や方法を使用して、問題を実際に解決することが可能になります。
この記事では、アプリケーションの観点からデータ カテゴリを簡単に分類し、このタイプのデータのデータ値を紹介します。ここで提案するデータ分類方法は必ずしも包括的かつ正確であるわけではなく、議論の基本的な枠組みを確立するのに役立つだけです。
データは次の 3 つのカテゴリに分類できます。
最初のカテゴリは ID データです。
2 番目のカテゴリは行動データです。
3 番目のカテゴリは、生産性価値データです。
1 つ目のタイプの ID データは、ID 番号、電話番号、アカウント情報など、インターネットや現実世界での登録と身元確認に使用されます。このタイプの情報は、違法業界にとって最も価値のあるものであり、かつては漏洩すると、ユーザーに重大な危害をもたらす可能性があり、安全上大きな危険があります。しかし、正式なデータ業界にとって、この種の情報には計算上の価値がなく、意味のある結果を計算することはできません。
したがって、この種のデータ自体は、プライバシー コンピューティングを通じてデータの価値を実現する方法を考慮する必要はありません。
2 番目のカテゴリは行動データで、これにはインターネット上のユーザーの閲覧履歴、消費データ、ユーザーの製品使用習慣データが含まれます。これらのデータを計算してユーザーの個人的なポートレートを作成し、そのポートレートに基づいて広告をプッシュしたり、コンテンツをプッシュしたり、サービスを提供したり、さらにはユーザーに意見を販売したりすることもできます。
行動データには 2 種類の価値があります。1 つは広告の価値です。ほとんどの広告がインターネット業界全体をサポートしていることは誰もが知っています。もう 1 つは、製品がユーザーを理解し、より適切にパーソナライズされたサービスをユーザーに提供するのに役立つことです。
世界中で広く懸念され議論されている現在のデータ所有権の問題は、主にこのタイプのデータに焦点を当てています。長い間、この種のデータはさまざまな権限が明確にされておらず、人々はそのことに注目していませんでしたが、これらのデータの計算結果がますます影響を与えるために使用されるようになるまで、私たちは問題の深刻さに気づきませんでした。または私たちを制御します。
画期的な出来事は、2018 年の Facebook データゲート事件です。この事件では、ケンブリッジ・アナリティカというデータ運用会社が5000万人以上のフェイスブックユーザーのデータを取得し、データ計算によって政治的立場に揺れる人々を選別し、正確に一致する政治プロパガンダ広告を掲載することで、アメリカの選挙に影響を与えたという。そしてイギリスのEU離脱国民投票。
良いニュースは、この種のデータの所有権を私たちが取り戻しつつあるようだということです。欧州連合によって公布された一般データ保護規則 (GDPR) では、データを生成する個人がデータ主体であり、その個人データの消去を要求する権利、および異議を申し立て、要求する権利があると規定されています。彼の個人データの処理を停止します。
悪いニュースは、データの使用権を取り戻せなかったことです。前述したように、データの価値はデータの使用権の取引に基づいているため、この種のデータを目的に使用するのはまだ遠いです。ユーザーに起因するデータ価値を実現します。その難しさは次の点にあります。
一方で、史上最も厳しいデータ保護規制と言われても、GDPRは企業がデータを使用する前に、どのようなデータが使用されているのか、そのデータをどう扱うのかをユーザーに通知することだけを義務付けています。企業によるデータの悪用を制限するだけで、企業によるデータの使用を制限するものではありません。
一方で、この種のデータは製品がユーザーを理解するのに役立つため、企業がユーザーエクスペリエンスの向上を理由にデータを使用することを拒否するのは難しいようです。現在、企業はそうしています。ユーザーがユーザーエクスペリエンスを犠牲にして、企業に行動データを使用する権利を持たないと要求することは困難であるように思われ、企業にそのようなデータの2つの使用を積極的に分離し、広告価値の一部を移転するよう要求することはさらに困難であるように思われます。
これは、企業がこれまでと同じようにデータを扱うことができることを意味するのでしょうか?あまり。上記のデータの所有権と使用権の分離は文字通りのものであることがわかります。企業はデータを使用する権利だけを持っていますが、元のデータ自体を「取得」して使用しているため、悪用やセキュリティのためにデータが依然として存在していることになります。 . 問題の側面。
また、国民のプライバシー意識の覚醒と、さまざまな国でのデータ保護法の公布(データを使用する企業にセキュリティ責任を課す)のせいで、ひとたび問題が発生すると、企業はユーザーからの抵抗や巨額の罰金に直面する可能性があるため、Google が, Appleなどの企業は現在、プライベートコンピューティングの分野で多くの研究を行っています。
Googleを例に挙げると、同社の「Federated Learning」では、機械学習モデルを各デバイスに統合し、ユーザーパラメータを集約してクラウドに送信する際のプライバシーを保護する集約アルゴリズムとシステムエンジニアリングによってプライバシーコンピューティングを実現する。
ただし、プライバシー コンピューティングによる企業によるデータの所有権と使用権の分離は、ユーザーがデータ使用権を交換するためのものではなく、データ使用のリスクを軽減し、プライバシー漏洩の告発を回避することを望んでいることを再度指摘する必要があります。ユーザーデータは引き続き無料で使用できます。
したがって、ユーザーがこの種のデータのデータ価値を取得するまでには長い道のりがあり、最大の困難は認識にあり、データの所有権と使用権を強く意識して初めて、政府にデータ保護の厳格化を促すことができます。規制を強化するか、今日の集中サーバー モデルを破壊する新しいインターネット アーキテクチャを推進します。
「生産性価値データ」が最も価値がある
「アイデンティティデータ」と「行動データ」を理解した後、この記事では「生産性価値データ」と呼ぶ 3 番目のタイプのデータを紹介します。
このタイプのデータの主な用途は、機械学習を行って AI をトレーニングすることですが、もう 1 つの主な用途は、科学研究、製品設計、意思決定などを支援するためにデータ分析を行うことです。この種のデータは適切に活用されれば、社会をより効率的かつ友好的な方向に発展させることができる、一種の生産性です。
3 番目のタイプのデータは、収集範囲が最も広く、データ量が最も多くなります。個人の医療データや財務データ、個人の製品の使用習慣データなど、人間から得られるもののほか、センサーによって収集された大気状態データ、自動運転データなどの IoT デバイスから得られるものもあります。
データソースの一部は、インターネット製品のユーザーである 2 番目のタイプのデータと同じですが、収集されるデータの処理方法と目的が異なります。2 番目のタイプのデータはユーザーから取得してユーザーのために使用されます。 2 番目のタイプのデータはユーザーから取得され、ユーザーのために使用され、3 種類のデータは集計され、データ主体全体で使用されます。データ自体の観点から見ると、特定のデータを第 2 タイプのデータと第 3 タイプのデータの両方として考えることができます。
3 番目のタイプのデータは最も大きなデータ価値を持ち、データ価値を実現するためにデータ使用権の取引市場に最初に参入する可能性もあります。
2 番目のタイプのデータとは異なり、インターネット企業はデータを使用する権利を持ち、自らデータを使用するため、データ取引を行う必要はありません。生産性価値データの適用シナリオでは、権利を持たない役割が存在します。データを使用したいが、データを使用したい。この観点から、3 番目のタイプのデータは、資産化できるすべてのデータの集合を指すと考えることができます。
3 番目のタイプのデータの使用方法をよりよく理解するために、医療データを例として取り上げます。科学研究機関や製薬工場が大量の医療データに支えられていれば、病気の研究や新薬の開発をより効果的かつ迅速に行うことができますが、データリソースを持つ医療機関は、ユーザーのプライバシーの問題や自らの利益のため、これらのデータを共有しません。 . 他の機関でも利用できます。
プライバシー計算を通じてデータの所有権と使用権を分離すれば、データ使用権の取引市場を確立でき、さまざまな医療機関、科学研究機関、製薬工場のデータをこのプラットフォーム上で接続できる――よく言われることだ。データのサイロを打破することです。これらの機関はデータを交換したり、共同疾患研究のためにデータを共有したりできます。
病気を診断できる AI をトレーニングしたい場合は、上記の方法でデータの島を打破し、より包括的なデータを AI に提供する必要もあります。
繰り返しになりますが、現段階では、たとえデータの取引や価値が実現したとしても、データ使用権の法的範囲や使用範囲が明確ではないため、私たち個人がすべての価値を取り戻すことは依然として困難であるということです。データの。
データの所有権とアクセスは現代の最も重要な問題の 1 つであり、『人類の歴史』の著者である歴史家ユヴァル ノア ハラリ氏は次のように述べています。データ権限の規制について。」
データ自体は複雑で多様性があるため、世論、法律、テクノロジーによって問題全体が解決されることを期待するよりも、明確な境界と正確な説明を使用して小さな点から問題を定義して解決する方が迅速かつ効果的である可能性があります。方法。さまざまなデータ カテゴリをより具体的に分類して分析することも、さまざまな分類基準を使用してデータ分類について議論し、これに基づいてデータ プライバシー、データ所有権、データ価値実現の問題について議論することもできます。
「データは油」を再理解する
データはよく石油に例えられます。
死海沿岸で人類が楔形文字で天然油を採取した記録はあるが、アブラハム・キスナーが石炭から灯油を抽出する方法を発明したのは1846年になってからであり、1853年にイグナシー・ヴカシェヴィチとヤンが近代石油の歴史を書いた。石油産業は、原油から精製灯油を分留したときに始まりました。
しかし、これは始まりにすぎず、灯油ランプの燃料としての石油は特別なものではなく、後に内燃機関として使われて初めて爆発する可能性があり、世界で最も重要な資源となります。
データと石油の類似点は、データだけでは不十分であり、データの「精製技術」を実現することによってのみデータ産業の時代を開くことができるという点です。
データと石油の違いは、石油にはまず製油所があり、その後に内燃機関の需要があるのに対し、データには膨大な使用需要があるものの、この需要をサポートする成熟した技術やインフラが存在しないことです。
参考文献:
参考文献:
1.《Federated Learning: Collaborative Machine Learning without Centralized Training Data》
2.《Helping organizations do more without collecting more data》