
2019년 처음 발간된 이 글은 프라이버시 컴퓨팅 비즈니스 모델을 이해하기 위한 가장 기본적인 입문 지식을 소개한다. 원제: "데이터는 석유보다 귀한데 어떻게 얻을 수 있을까?" "; 저자: Li Hua.
"브로커스"는 2017년 초에 표지 기사를 통해 "데이터가 석유를 대체할 것"이라며 현 시대의 가장 가치 있는 자원으로 꼽았다. 그러나 오늘날까지 "데이터 오일"의 주권을 소유한 일반 사람들은 여전히 이 귀중한 자원의 혜택을 받을 수 없습니다.
반대로 이러한 데이터는 소유자에게 심각한 개인 정보 유출 문제를 가져옵니다.
아름다운 비전과 현실 사이에는 왜 엄청난 간극이 존재할까요? 데이터 소유권과 데이터 가치는 어떻게 실현될 수 있습니까? 이 글은 몇 가지 단서를 명확히 하고 이 문제에 대한 사고의 틀을 확립하는 데 기여하기를 바라면서 기존 관행에서 논의를 시도합니다.
우리는 데이터를 팔 수 없습니다
나는 우리 각자가 판매 전화를 받은 경험이 있다고 믿습니다. 대부분의 사람들의 개인 데이터는 구매 및 판매되었으며, 전화 번호 및 일부 소비자 정보와 같은 가장 간단한 데이터는 현재 어딘가에서 다시 판매되기를 기다리고 있습니다.
데이터는 돈을 위해 판매되며 돈은 우리 데이터에 액세스할 수 있는 기관으로 이동합니다.
이러한 현상은 데이터를 판매함으로써 데이터의 가치를 실현할 수 있다고 생각하는 경향이 있습니다. 데이터 값을 얻고 돈을 위해 "석유"를 판매합니다.
그러나 이것은 잘못된 것입니다. 우리는 데이터를 사고 팔 수 없습니다. 이 문제를 자세히 설명하기 전에 데이터 소유권과 데이터 사용 권한을 구분해야 합니다.
전 세계 대부분의 자산에서 구매 및 판매는 자산 소유권의 이전을 의미합니다. 즉, 한 당사자는 소유권을 얻고 다른 당사자는 소유권을 잃습니다. 그러나 데이터를 사고파는 것은 데이터의 소유권을 이전하지 않으며, 데이터를 판매했지만 데이터의 소유권은 여전히 귀하에게 있습니다.
따라서 데이터에 대한 거래는 실제로는 데이터 소유권에 관한 것이 아니라 데이터 사용 권한에 관한 거래입니다. 하지만 데이터는 무한히 복사될 수 있기 때문에 우리가 데이터를 팔면 구매자가 그것을 어떻게 사용할 것인지, 또 그 데이터가 다시 팔릴 것인지에 대한 보장이 없습니다. 데이터를 소유합니다.
불법적인 데이터 거래는 데이터 소유자의 권익에 관심이 없기 때문에 데이터를 직접 사고팔지만, 우리가 진정으로 데이터 소유권을 소유한 상태에서는 데이터의 가치를 실현하기 위해 데이터를 사고팔 수 없습니다.
그렇다면 데이터를 잃지 않고 데이터에 대한 액세스 권한을 어떻게 교환합니까? 답은 데이터 자체를 거래하는 것이 아니라 거래 데이터의 계산 결과만을 거래하는 것입니다. 즉, 구매자는 이러한 데이터를 사용하여 계산을 수행하고 원하는 결과를 얻을 수 있지만 구매자는 원본 데이터 자체를 얻을 수 없습니다.
이것은 데이터 소유권과 데이터 가치를 논의할 때 이해해야 할 첫 번째이자 아마도 가장 중요한 것입니다. 데이터를 판매함으로써 데이터 가치를 실현할 수 없으며 데이터 결과를 판매해야만 합니다.
즉, 데이터의 소유권과 사용권을 분리하고 데이터 사용권만을 거래해야 합니다.
프라이버시 컴퓨팅은 사용자 프라이버시 문제만을 위한 것이 아닙니다.
데이터만 파는 결과를 어떻게 실현할 것인가? 대답은 개인 컴퓨팅을 통해서입니다.
프라이버시 컴퓨팅은 원본 데이터를 노출하지 않고 데이터를 계산하고 계산 결과를 확인할 수 있습니다. 완전 동형 암호화 및 안전한 다자간 컴퓨팅과 같은 여러 연구 방향이 포함되어 있으며 작동 원리를 소개하는 전문 기술 기사가 많이 있습니다. 이에 대해 더 알고 싶다면 확인할 수 있습니다.
여기서 명확히 해야 할 두 번째 모호성이 있습니다. 즉, 프라이버시 컴퓨팅은 사용자의 프라이버시를 보호하기 위한 것일 뿐만 아니라 데이터 사용 권한 거래를 실현하기 위한 기반, 즉 데이터 가치를 실현하기 위한 기반이기도 합니다.
이러한 해명이 필요한 이유는 "프라이버시 컴퓨팅"이 또 다른 프라이버시 보호 기술로 이해하기 쉽고 "프라이버시"에 초점이 맞춰져 있지만 사실 "프라이버시 컴퓨팅"의 초점은 "컴퓨팅"에 있기 때문입니다.
블록체인 업계에서는 암호화폐 거래와 블록체인 상에서 사용자의 프라이버시를 강화하는 수단으로 프라이버시 컴퓨팅이 자주 사용되기 때문에 사람들이 프라이버시 컴퓨팅을 사용자의 프라이버시를 실현하는 역할을 하는 것으로 이해하기 쉽습니다. 프라이버시 컴퓨팅을 작은 분야로 제한합니다.
아마도 다른 각도에서 보는 것이 더 명확할 것입니다. 우리는 데이터 문제를 사용자 개인 정보 보호 문제와 데이터 가치 문제로 나누었습니다. 사용자 개인 정보 보호 문제는 사용자와 관련된 원본 데이터가 공개되지 않고 사용자의 개인 정보가 노출되지 않는 문제를 해결하는 것입니다.이 문제는 특정 범위 내에서 일종의 데이터 개인 정보 보호라고 볼 수 있습니다. .
이 단계에서 개인 컴퓨팅의 역할은 개인 정보 보호에 대한 대안적인 접근 방식입니다.
사용자가 데이터 프라이버시를 얻은 후 그/기업이 거기에 데이터를 넣고 아무것도 하지 않기로 선택하면 이야기는 끝났지만, 사용자/기업이 더 나아가 데이터의 가치를 얻으려면 데이터를 빼내야 합니다. 다음 단계에 접어들었습니다. 이때 데이터가 사용되는 전체 수명 주기 동안 데이터가 유출되지 않도록 다양한 방법을 사용해야 합니다. 이는 완전한 데이터 프라이버시라고 할 수 있습니다. 보호.
이 단계에서 프라이버시 컴퓨팅의 역할은 더 이상 선택적인 방법이 아니라 필요한 경로이며, 데이터의 가치를 실현하는 방법은 데이터 원본을 노출하지 않고 데이터 결과를 판매하고 데이터 사용을 수행하는 것이기 때문입니다. 컴퓨팅은 이 목표를 달성할 수 있습니다.
데이터를 석유에 비유하면 프라이버시 컴퓨팅은 석유 정제의 첫 번째 과정이며 사용자 프라이버시 보장을 전제로 "원유"를 다양한 제품으로 변환하는 기반입니다.
모든 데이터가 비슷한 값을 갖는 것은 아닙니다.
모든 데이터가 비슷한 가치를 갖는 것은 아니며 모든 데이터가 데이터 가치를 달성할 수 있는 것은 아닙니다.
데이터의 복잡성과 다양성을 이해할 때에만 상황에 따라 법적, 기술적으로 다른 용어와 방법을 사용하여 문제를 진정으로 해결할 수 있습니다.
이 글에서는 응용 관점에서 데이터 범주를 단순하게 구분한 다음 이러한 데이터 유형의 데이터 값을 소개합니다. 여기서 제안하는 데이터 분류 방법은 반드시 포괄적이고 정확할 필요는 없으며 논의를 위한 기본 프레임워크를 설정하는 역할을 할 뿐입니다.
데이터를 세 가지 범주로 나눌 수 있습니다.
첫 번째 범주는 ID 데이터입니다.
두 번째 범주는 행동 데이터입니다.
세 번째 범주는 생산성 가치 데이터입니다.
첫 번째 유형의 신원 데이터는 주민등록번호, 전화번호, 계좌 정보 등 인터넷과 현실 세계에서 등록 및 신원 확인에 사용됩니다. 이러한 유형의 정보는 불법 산업에 가장 큰 가치가 있으며, 한 번 누출되면 사용자에게 심각한 피해를 입힐 수 있으며 큰 안전 위험이 있습니다. 그러나 공식 데이터 산업의 경우 이러한 종류의 정보는 계산 가치가 없으며 의미 있는 결과를 계산할 수 없습니다.
따라서 이러한 유형의 데이터 자체는 프라이버시 컴퓨팅을 통해 데이터 가치를 구현하는 방법을 고려할 필요가 없습니다.
두 번째 범주는 행동 데이터로 인터넷에서 사용자 검색 추적, 소비 데이터 및 사용자 제품 사용 습관 데이터를 포함합니다. 이 데이터는 사용자의 개인 초상화를 만든 다음 광고를 푸시하고 콘텐츠를 푸시하고 서비스를 제공하며 초상화를 기반으로 사용자에게 의견을 판매하기 위해 계산할 수 있습니다.
행동 데이터에는 두 가지 유형의 가치가 있습니다. 하나는 광고의 가치입니다. 거의 광고가 전체 인터넷 산업을 지원한다는 것은 우리 모두가 알고 있습니다.
전 세계적으로 광범위하게 우려되고 논의되는 현재 데이터 소유권 문제는 주로 이러한 유형의 데이터에 중점을 둡니다. 오랫동안 이러한 유형의 데이터에 대한 다양한 권한이 명확하지 않았고 사람들이 관심을 기울이지 않았으며 이러한 데이터의 계산 결과가 점점 더 영향을 미치기 전까지 문제의 심각성을 깨닫지 못했습니다. 또는 우리를 통제하십시오.
획기적인 사건은 2018년 페이스북 데이터 게이트 사건입니다. 이번 사건에서 케임브리지 애널리티카(Cambridge Analytica)라는 데이터 운영업체는 5000만 명 이상의 페이스북 사용자 데이터를 확보했고, 데이터 계산을 통해 정치적 입장에 흔들리는 이들을 걸러내고 이들에게 정밀하게 매칭되는 정치 선전 광고를 게재해 미국 대선에 영향을 미쳤다. 그리고 영국 브렉시트 국민투표.
좋은 소식은 우리가 이러한 유형의 데이터에 대한 소유권을 되찾고 있는 것으로 보인다는 것입니다. 유럽연합(EU)이 공포한 개인정보보호법(GDPR)은 데이터를 생성하는 개인을 데이터 주체로 규정하고 있으며, 그는 자신의 개인 데이터 삭제를 요청할 권리와 반대 및 요청할 권리를 가진다. 그의 개인 데이터 처리를 중지합니다.
안타까운 점은 우리가 데이터 사용권을 돌려받지 못했다는 점인데, 앞서 언급한 것처럼 데이터의 가치는 데이터 사용권의 거래를 기반으로 하기 때문에 우리가 이런 유형의 데이터를 사용하기에는 아직 멀었습니다. 사용자에게 귀속되는 데이터 가치 실현 . 난이도는 다음과 같습니다.
한편으로 GDPR은 역사상 가장 엄격한 데이터 보호 규정이라고 해도 기업이 데이터를 사용하기 전에 어떤 데이터가 사용되고 있으며 데이터로 무엇을 해야 하는지 사용자에게 알리기만 하면 됩니다. 기업의 데이터 남용을 제한할 뿐 기업의 데이터 사용을 제한하지는 않습니다.
반면에 이러한 유형의 데이터는 제품이 사용자를 이해하는 데 도움이 될 수 있기 때문에 기업이 사용자 경험 향상을 이유로 데이터를 사용하는 것을 거부할 수는 없을 것 같습니다. 사용자가 기업이 어떠한 행동 데이터도 사용할 권리가 없다고 요구하기 위해 사용자 경험을 희생하는 것은 어려운 것 같고, 그러한 데이터의 두 가지 사용을 적극적으로 분리하고 광고 가치의 일부를 이전하도록 기업에 요구하는 것은 더욱 어려워 보입니다.
이것은 기업이 데이터로 예전처럼 일을 할 수 있다는 것을 의미합니까? 설마. 우리는 위에서 언급한 데이터 소유권과 사용 권한의 분리가 문자 그대로일 뿐이라는 것을 알게 될 것입니다.기업은 데이터 사용 권한만 있지만 원본 데이터 자체를 "획득"하여 사용하므로 남용 및 보안을 위해 데이터가 여전히 존재합니다. .문제의 측면.
그리고 공공 프라이버시 의식의 각성 및 각국의 데이터 보호법의 공포(데이터를 사용하는 기업에 보안 책임 부여)로 인해 일단 문제가 발생하면 기업은 사용자의 반발과 막대한 벌금에 직면할 수 있으므로 Google이 , Apple과 같은 회사는 오늘날 개인 컴퓨팅 분야에서 많은 연구를 수행하고 있습니다.
Google을 예로 들면 "Federated Learning"은 기계 학습 모델을 각 장치에 통합하고 사용자 매개 변수를 요약하여 클라우드로 보낼 때 개인 정보 보호 집계 알고리즘 및 시스템 엔지니어링을 통해 개인 정보 보호 컴퓨팅을 실현합니다.
그러나 프라이버시 컴퓨팅을 통해 기업이 데이터 소유권과 사용권을 분리하는 것은 사용자가 데이터 사용권을 거래하는 것이 아니라 데이터 사용 위험을 줄이고 개인정보 유출 혐의를 피하고자 한다는 점을 다시 한 번 지적할 필요가 있습니다. 계속해서 사용자 데이터를 무료로 사용하세요.
따라서 사용자가 이러한 유형의 데이터의 데이터 가치를 얻는 것은 먼 길입니다. 가장 큰 어려움은 인식에 있습니다. 데이터 소유권 및 사용 권한에 대한 강력한 인식이 있어야만 정부가 더 엄격한 데이터 보호를 도입하도록 압력을 가할 수 있습니다. 규정 , 또는 오늘날의 중앙 집중식 서버 모델을 파괴하기 위해 새로운 인터넷 아키텍처를 홍보합니다.
"생산성 가치 데이터"는 가장 가치 있는
"신원 데이터"와 "행동 데이터"를 이해한 후 이 기사에서 "생산성 가치 데이터"라고 하는 세 번째 유형의 데이터를 소개합니다.
이러한 유형의 데이터의 주요 용도는 기계 학습을 수행하고 AI를 교육하는 것이며, 또 다른 주요 용도는 과학 연구, 제품 설계, 의사 결정 등에 도움이 되는 데이터 분석을 수행하는 것입니다. 이러한 데이터를 적절히 활용하면 사회가 보다 효율적이고 친근한 방향으로 발전할 수 있는 원동력이 되는 일종의 생산성입니다.
세 번째 유형의 데이터는 수집 범위가 가장 넓고 데이터 양이 가장 많습니다. 개인의 의료 및 금융 데이터, 개인의 제품 사용 습관 데이터 등 사람에게서 나올 수도 있고, 센서로 수집한 대기 상태 데이터, 자율주행 데이터 등 IoT 기기에서도 나올 수 있다.
데이터 소스 중 일부는 인터넷 제품의 사용자인 제2형 데이터와 동일하지만 수집된 데이터의 처리 방법 및 목적이 다릅니다. 두 번째 유형의 데이터는 사용자로부터 얻어 사용자를 위해 사용되며, 세 가지 유형의 데이터는 데이터 주체 간에 집계되어 사용됩니다. 데이터 자체의 관점에서 우리는 특정 데이터를 두 번째 유형의 데이터이자 세 번째 유형의 데이터로 간주할 수 있습니다.
세 번째 유형의 데이터는 데이터 가치가 가장 크며 데이터 가치를 실현하기 위해 데이터 사용권 거래 시장에 가장 먼저 진입할 수도 있습니다.
두 번째 유형의 데이터와 달리 인터넷 회사는 데이터를 사용할 권리가 있고 데이터 자체를 사용할 수 있으며 데이터 트랜잭션을 수행할 필요가 없습니다.생산성 가치 데이터의 응용 시나리오에는 권한을 소유하지 않는 역할이 있습니다. 데이터를 사용하고 싶지만 데이터를 사용하고 싶습니다. 이러한 관점에서 세 번째 유형의 데이터는 대문자화할 수 있는 모든 데이터의 집합을 의미한다고 생각할 수 있습니다.
세 번째 유형의 데이터를 사용하는 방법을 더 잘 이해하기 위해 의료 데이터를 예로 들 수 있습니다. 과학 연구 기관이나 제약 공장이 많은 양의 의료 데이터를 지원하면 질병을 연구하고 신약을 더 빠르게 개발할 수 있지만 데이터 자원이 있는 의료 기관은 사용자 개인 정보 보호 문제와 자신의 이익 때문에 이러한 데이터를 공유하지 않습니다. . 다른 기관에서 사용할 수 있습니다.
개인 정보 계산을 통해 데이터의 소유권과 사용 권한을 분리하면 데이터 사용 권한에 대한 거래 시장을 구축할 수 있으며 다른 의료 기관, 과학 연구 기관 및 제약 공장의 데이터를 이 플랫폼에서 연결할 수 있습니다. 데이터 사일로를 허물고 있습니다. 이러한 기관은 공동 질병 연구를 위해 데이터를 거래하거나 공유할 수 있습니다.
질병을 진단할 수 있는 AI를 훈련시키려면 위의 방법을 통해 데이터 섬을 깨뜨려 AI에게 점점 더 포괄적인 데이터를 제공해야 합니다.
반복해야 할 것은 이 단계에서 데이터의 거래와 가치가 실현되더라도 데이터 사용권한의 법적, 사용경계가 명확하지 않기 때문에 개인으로서는 여전히 그 가치를 모두 되찾기 어렵다는 점이다. 데이터의.
데이터 소유권과 액세스는 우리 시대의 가장 중요한 문제 중 하나입니다."A Brief History of Humanity"의 저자인 역사학자 유발 노아 하라리(Yuval Noah Harari)에 따르면 데이터 권한 규제에 대해.”
데이터 자체의 복잡성과 다양성으로 인해 여론, 입법, 기술이 문제를 전체적으로 해결할 수 있기를 바라는 것보다 명확한 경계와 정확한 설명으로 작은 점에서 문제를 정의하고 해결하는 것이 빠르고 효과적일 수 있습니다. 방법. 서로 다른 데이터 범주를 보다 구체적으로 분류하고 분석하거나, 서로 다른 분류 기준을 사용하여 데이터 분류를 논의한 다음 이를 기반으로 데이터 프라이버시, 데이터 소유권 및 데이터 가치 실현 문제를 논의할 수 있습니다.
"데이터는 석유다" 다시 이해하기
데이터는 종종 석유와 비교됩니다.
설형 문자로 사해 연안을 따라 인간이 천연 기름을 수집했다는 기록이 있지만 아브라함 키스너가 석탄에서 등유를 추출하는 방법을 발명한 것은 1846년이 되어서였고, 1853년 이그나시 부카시에비츠와 얀이 현대 석유의 역사를 석유 산업은 정제된 등유가 원유에서 분리되면서 시작되었습니다.
그러나 이것은 시작에 불과합니다.등유 램프의 연료인 석유는 특별한 것이 아니라 나중에 내연 기관에 사용될 때만 큰 잠재력을 가지고 폭발하며 세계에서 가장 중요한 자원이 됩니다.
데이터와 석유의 공통점은 데이터만으로는 충분하지 않다는 점, 데이터의 '정제 기술'을 실현해야만 데이터 산업의 시대를 열 수 있다는 점이다.
데이터와 석유의 차이점은 석유는 먼저 정유소가 있고 그 다음에는 내연기관에 대한 수요가 있는 반면 데이터는 사용 수요가 많지만 이 수요를 지원할 성숙한 기술과 인프라가 없다는 것입니다.
참조:
참조:
1.《Federated Learning: Collaborative Machine Learning without Centralized Training Data》
2.《Helping organizations do more without collecting more data》