

Bài viết này, được xuất bản lần đầu vào năm 2019, giới thiệu kiến thức nhập môn cơ bản nhất để hiểu mô hình kinh doanh của điện toán riêng tư. Tiêu đề gốc: "Dữ liệu quý hơn dầu, nhưng làm thế nào để đạt được nó?" "; Tác giả: Lý Hoa.
"Các nhà môi giới" đã xuất bản một bài báo vào đầu năm 2017, nói rằng "dữ liệu sẽ thay thế dầu mỏ" là nguồn tài nguyên quý giá nhất trong thời đại ngày nay. Nhưng cho đến hôm nay, những người dân thường sở hữu chủ quyền “dầu dữ liệu” vẫn không thể hưởng lợi từ nguồn tài nguyên quý giá này.
Ngược lại, những dữ liệu này cũng gây ra các vấn đề rò rỉ quyền riêng tư nghiêm trọng cho chủ sở hữu của chúng.
Tại sao có một khoảng cách rất lớn giữa tầm nhìn đẹp và thực tế? Làm cách nào để nhận ra quyền sở hữu dữ liệu và giá trị dữ liệu? Bài viết này cố gắng thảo luận từ thực tiễn hiện có, mong làm sáng tỏ một số manh mối và góp phần hình thành một khung tư duy về vấn đề này.
chúng tôi không thể bán dữ liệu
Tôi tin rằng mỗi chúng ta đều đã từng có kinh nghiệm nhận các cuộc gọi bán hàng. Phần lớn dữ liệu cá nhân của mọi người đã được mua và bán, đơn giản nhất như số điện thoại và một số thông tin người tiêu dùng, những dữ liệu này có thể đang chờ để được bán lại ở đâu đó vào lúc này.
Dữ liệu được bán để lấy tiền và tiền sẽ được chuyển đến các tổ chức có quyền truy cập vào dữ liệu của chúng tôi.
Hiện tượng này có xu hướng dẫn đến sự hiểu lầm, đó là chúng tôi nghĩ rằng chúng tôi có thể nhận ra giá trị của dữ liệu bằng cách bán dữ liệu, nghĩa là sau khi chúng tôi có chủ quyền dữ liệu với sự trợ giúp của các quy định pháp luật và phương tiện kỹ thuật, chúng tôi có thể bán những dữ liệu này cho những người cần nó Để lấy giá trị dữ liệu và bán "dầu" lấy tiền.
Nhưng điều này là sai, chúng tôi không thể mua hoặc bán dữ liệu. Trước khi giải thích chi tiết về vấn đề này, chúng ta cần phân biệt giữa quyền sở hữu dữ liệu và quyền sử dụng dữ liệu.
Đối với đại đa số tài sản trên thế giới, mua bán có nghĩa là chuyển giao quyền sở hữu tài sản: một bên giành được quyền sở hữu, còn bên kia mất quyền sở hữu. Nhưng việc mua bán dữ liệu sẽ không chuyển quyền sở hữu dữ liệu, bạn đã bán dữ liệu nhưng quyền sở hữu dữ liệu vẫn thuộc về bạn.
Do đó, giao dịch xung quanh dữ liệu thực sự là giao dịch xung quanh quyền sử dụng dữ liệu, không phải quyền sở hữu dữ liệu. Nhưng vì dữ liệu có thể được sao chép vô tận nên nếu chúng tôi bán dữ liệu, không có gì đảm bảo người mua sẽ sử dụng nó như thế nào và liệu dữ liệu có được bán lại hay không. sở hữu dữ liệu.
Giao dịch dữ liệu bất hợp pháp trực tiếp mua và bán dữ liệu vì họ không quan tâm đến quyền và lợi ích của chủ sở hữu dữ liệu, nhưng khi chúng tôi thực sự sở hữu dữ liệu, để nhận ra giá trị của dữ liệu, chúng tôi không thể mua hoặc bán dữ liệu.
Vậy làm thế nào để bạn trao đổi quyền truy cập vào dữ liệu mà không làm mất nó? Câu trả lời không phải là bản thân dữ liệu giao dịch mà chỉ là kết quả tính toán của dữ liệu giao dịch. Điều đó có nghĩa là, người mua có thể sử dụng những dữ liệu này để thực hiện các phép tính và thu được kết quả mong muốn, nhưng người mua không thể tự lấy dữ liệu gốc.
Đây là điều đầu tiên và có lẽ là quan trọng nhất cần hiểu khi chúng ta thảo luận về quyền sở hữu dữ liệu và giá trị dữ liệu: chúng ta không thể nhận ra giá trị dữ liệu bằng cách bán dữ liệu, chỉ bằng cách bán kết quả dữ liệu.
Nói cách khác, chúng ta cần tách quyền sở hữu dữ liệu khỏi quyền sử dụng và chỉ giao dịch quyền sử dụng dữ liệu.
Điện toán bảo mật không chỉ dành cho các vấn đề về quyền riêng tư của người dùng
Làm thế nào để nhận ra kết quả của việc chỉ bán dữ liệu? Câu trả lời là: thông qua máy tính cá nhân.
Điện toán riêng tư là tính toán dữ liệu mà không để lộ dữ liệu gốc và kết quả tính toán có thể được xác minh. Nó bao gồm nhiều hướng nghiên cứu như mã hóa đồng cấu hoàn toàn và điện toán đa bên an toàn.Có rất nhiều bài báo kỹ thuật chuyên nghiệp giới thiệu về nguyên tắc hoạt động của chúng, nếu bạn muốn biết thêm về chúng, bạn có thể xem qua.
Ở đây chúng ta có một điểm mơ hồ thứ hai cần được làm rõ, đó là: điện toán riêng tư không chỉ để bảo vệ quyền riêng tư của người dùng mà còn là cơ sở để thực hiện các giao dịch quyền sử dụng dữ liệu, tức là cơ sở để thực hiện giá trị dữ liệu.
Lý do cần làm rõ điều này là vì "điện toán riêng tư" dễ hiểu là một công nghệ bảo vệ quyền riêng tư khác và trọng tâm được đặt vào "quyền riêng tư", nhưng trên thực tế, trọng tâm của "điện toán riêng tư" là "tính toán".
Trong ngành công nghiệp chuỗi khối, vì điện toán bảo mật thường được sử dụng trong các giao dịch tiền điện tử và trên chuỗi khối như một phương pháp để nâng cao quyền riêng tư của người dùng, nên mọi người dễ hiểu điện toán bảo mật là phục vụ cho việc hiện thực hóa quyền riêng tư của người dùng. nó giới hạn điện toán riêng tư trong một lĩnh vực nhỏ.
Có lẽ sẽ rõ ràng hơn nếu nhìn nó từ một góc độ khác. Chúng tôi chia vấn đề dữ liệu thành các vấn đề về quyền riêng tư của người dùng và các vấn đề về giá trị dữ liệu. Vấn đề về quyền riêng tư của người dùng là giải quyết vấn đề dữ liệu gốc liên quan đến người dùng sẽ không bị tiết lộ và quyền riêng tư của người dùng sẽ không bị lộ, chúng ta có thể coi vấn đề này là một loại bảo vệ quyền riêng tư dữ liệu trong một phạm vi cụ thể .
Ở giai đoạn này, vai trò của máy tính cá nhân là một cách tiếp cận khác để bảo vệ quyền riêng tư.
Sau khi người dùng có được quyền riêng tư về dữ liệu, nếu anh ta/doanh nghiệp chọn để dữ liệu ở đó và không làm gì cả, câu chuyện sẽ kết thúc; nhưng nếu người dùng/doanh nghiệp muốn tiến xa hơn và nhận được giá trị của dữ liệu, họ phải lấy dữ liệu ra và sử dụng nó. Mọi thứ đã bước sang giai đoạn tiếp theo. Lúc này, cần sử dụng nhiều phương pháp khác nhau để đảm bảo dữ liệu không bị rò rỉ trong toàn bộ vòng đời sử dụng. Chúng ta có thể coi đây là phạm vi bảo mật dữ liệu đầy đủ sự bảo vệ.
Ở giai đoạn này, vai trò của điện toán quyền riêng tư không còn là một phương pháp tùy chọn mà là một con đường cần thiết, bởi vì cách để nhận ra giá trị của dữ liệu là bán kết quả dữ liệu mà không để lộ dữ liệu gốc và thực hiện việc sử dụng dữ liệu. máy tính có thể đạt được mục tiêu này.
Nếu so sánh dữ liệu với dầu mỏ, thì điện toán bảo mật chính là quá trình lọc dầu đầu tiên, là cơ sở để chúng tôi chuyển đổi "dầu thô" thành các sản phẩm khác nhau với tiền đề đảm bảo quyền riêng tư của người dùng.
Không phải tất cả dữ liệu đều có giá trị tương tự
Không phải dữ liệu nào cũng có giá trị như nhau, và không phải dữ liệu nào cũng đạt được giá trị dữ liệu, đây có thể là một chỗ nữa chúng ta cần làm rõ khi bàn về giá trị dữ liệu.
Chỉ khi chúng ta hiểu được sự phức tạp và đa dạng của dữ liệu, thì mới có thể sử dụng các thuật ngữ và phương pháp khác nhau một cách hợp pháp và kỹ thuật cho các tình huống khác nhau để thực sự giải quyết vấn đề.
Bài viết này sẽ cố gắng phân chia đơn giản các loại dữ liệu theo quan điểm ứng dụng, sau đó giới thiệu giá trị dữ liệu của loại dữ liệu này. Phương pháp phân loại dữ liệu được đề xuất ở đây không nhất thiết phải toàn diện và chính xác, nó chỉ dùng để thiết lập một khuôn khổ cơ bản cho thảo luận.
Chúng ta có thể chia dữ liệu thành ba loại:
Loại đầu tiên là dữ liệu nhận dạng;
Loại thứ hai là dữ liệu hành vi;
Loại thứ ba là dữ liệu giá trị năng suất.
Loại dữ liệu nhận dạng đầu tiên được sử dụng để đăng ký và xác định danh tính trên Internet và trong thế giới thực, chẳng hạn như số ID, số điện thoại, thông tin tài khoản, v.v. Loại thông tin này có giá trị lớn nhất đối với ngành bất hợp pháp và một khi bị rò rỉ, nó cũng sẽ gây hại nghiêm trọng cho người dùng. Nhưng đối với ngành dữ liệu chính thức, loại thông tin này không có giá trị tính toán và họ không thể tính toán các kết quả có ý nghĩa.
Do đó, bản thân loại dữ liệu này không cần xem xét cách nhận ra giá trị dữ liệu thông qua điện toán riêng tư.
Loại thứ hai là dữ liệu hành vi, bao gồm dấu vết duyệt web của người dùng trên Internet, dữ liệu tiêu dùng và dữ liệu thói quen sử dụng sản phẩm của người dùng. Những dữ liệu này có thể được tính toán để tạo chân dung cá nhân của người dùng, sau đó đẩy quảng cáo, đẩy nội dung, cung cấp dịch vụ và thậm chí bán ý kiến cho người dùng dựa trên chân dung.
Dữ liệu hành vi có hai loại giá trị, một là giá trị của quảng cáo, chúng ta đều biết rằng hầu như quảng cáo hỗ trợ toàn bộ ngành công nghiệp Internet, hai là nó có thể giúp sản phẩm hiểu người dùng và cung cấp cho người dùng các dịch vụ được cá nhân hóa tốt hơn.
Các vấn đề về quyền sở hữu dữ liệu đang được quan tâm và thảo luận rộng rãi trên thế giới hiện nay chủ yếu tập trung vào loại dữ liệu này. Trong một thời gian dài, các quyền khác nhau của loại dữ liệu này không rõ ràng và mọi người không chú ý đến nó, chúng tôi đã không nhận ra mức độ nghiêm trọng của vấn đề cho đến khi kết quả tính toán của những dữ liệu này được sử dụng ngày càng nhiều để gây ảnh hưởng hoặc kiểm soát chúng tôi.
Sự kiện mang tính bước ngoặt là sự cố cổng dữ liệu Facebook năm 2018. Trong vụ việc này, một công ty vận hành dữ liệu có tên Cambridge Analytica đã lấy được dữ liệu của hơn 50 triệu người dùng Facebook, thông qua tính toán dữ liệu, họ sàng lọc ra những người có quan điểm chính trị và đặt quảng cáo tuyên truyền chính trị phù hợp chính xác lên họ, từ đó ảnh hưởng đến cuộc bầu cử Hoa Kỳ và cuộc trưng cầu dân ý về Brexit của Vương quốc Anh.
Tin vui là có vẻ như chúng tôi đang lấy lại quyền sở hữu loại dữ liệu này. Quy định bảo vệ dữ liệu chung (GDPR) do Liên minh châu Âu ban hành quy định rằng cá nhân tạo dữ liệu là chủ thể dữ liệu và anh ta có quyền yêu cầu xóa dữ liệu cá nhân của mình, cũng như quyền phản đối và yêu cầu ngừng xử lý dữ liệu cá nhân của anh ấy.
Tin xấu là chúng tôi đã không lấy lại quyền sử dụng dữ liệu. Như đã đề cập trước đó, giá trị của dữ liệu dựa trên giao dịch quyền sử dụng dữ liệu, vì vậy chúng tôi vẫn còn rất lâu mới có thể sử dụng loại dữ liệu này để nhận ra giá trị dữ liệu được quy cho người dùng. . Khó khăn của nó nằm ở chỗ:
Một mặt, ngay cả khi nó được gọi là quy định bảo vệ dữ liệu nghiêm ngặt nhất trong lịch sử, GDPR chỉ yêu cầu các công ty thông báo cho người dùng về dữ liệu nào đang được sử dụng và phải làm gì với dữ liệu trước khi sử dụng dữ liệu, nghĩa là nó chỉ hạn chế doanh nghiệp lạm dụng dữ liệu chứ không hạn chế việc doanh nghiệp sử dụng dữ liệu.
Mặt khác, vì loại dữ liệu này có thể được sử dụng để giúp các sản phẩm hiểu người dùng, nên có vẻ như khó có thể nói không với các công ty sử dụng dữ liệu với lý do cải thiện trải nghiệm người dùng — điều mà họ đang làm hiện nay. Người dùng có vẻ khó hy sinh trải nghiệm người dùng để yêu cầu các công ty không có quyền sử dụng bất kỳ dữ liệu hành vi nào và dường như càng khó hơn để yêu cầu các công ty chủ động tách hai mục đích sử dụng dữ liệu đó và chuyển một phần giá trị quảng cáo.
Điều này có nghĩa là các doanh nghiệp vẫn có thể làm mọi thứ theo cách họ đã từng làm với dữ liệu? Không thực sự. Chúng ta sẽ thấy rằng sự tách biệt giữa quyền sở hữu và quyền sử dụng dữ liệu nói trên chỉ là nghĩa đen, mặc dù các công ty chỉ có quyền sử dụng dữ liệu nhưng họ lại “lấy” và sử dụng chính dữ liệu gốc, điều này khiến dữ liệu vẫn tồn tại để lạm dụng và bảo mật .các khía cạnh của vấn đề.
Và do nhận thức về quyền riêng tư của công chúng được đánh thức và việc ban hành luật bảo vệ dữ liệu ở nhiều quốc gia khác nhau (đặt trách nhiệm bảo mật cho các công ty sử dụng dữ liệu), nên một khi có vấn đề phát sinh, các công ty có thể phải đối mặt với sự phản kháng từ người dùng và những khoản tiền phạt khổng lồ, vì vậy chúng ta có thể thấy rằng Google , Các công ty như Apple ngày nay đang thực hiện rất nhiều nghiên cứu trong lĩnh vực máy tính cá nhân.
Lấy Google làm ví dụ, "Học tập liên kết" của nó tích hợp các mô hình máy học vào từng thiết bị và thực hiện điện toán bảo mật thông qua các thuật toán tổng hợp bảo vệ quyền riêng tư và kỹ thuật hệ thống khi tóm tắt các tham số của người dùng và gửi chúng lên đám mây.
Nhưng cần phải chỉ ra một lần nữa rằng việc tách biệt quyền sở hữu và quyền sử dụng dữ liệu của các doanh nghiệp thông qua điện toán riêng tư không phải để người dùng trao đổi quyền sử dụng dữ liệu, họ hy vọng sẽ giảm rủi ro sử dụng dữ liệu và tránh bị cáo buộc rò rỉ quyền riêng tư. tiếp tục sử dụng dữ liệu người dùng miễn phí.
Vì vậy, để người dùng có được giá trị dữ liệu của loại dữ liệu này là một chặng đường dài, khó khăn lớn nhất nằm ở nhận thức, chỉ khi nhận thức rõ ràng về quyền sở hữu và quyền sử dụng dữ liệu, chúng ta mới có thể thúc đẩy chính phủ đưa ra biện pháp bảo vệ dữ liệu chặt chẽ hơn hoặc thúc đẩy một kiến trúc Internet mới để phá vỡ mô hình máy chủ tập trung ngày nay.
"Dữ liệu giá trị năng suất" là giá trị nhất
Sau khi hiểu "dữ liệu nhận dạng" và "dữ liệu hành vi", chúng tôi sẽ giới thiệu loại dữ liệu thứ ba mà chúng tôi gọi là "dữ liệu giá trị năng suất" trong bài viết này.
Công dụng chính của loại dữ liệu này là để học máy và đào tạo AI; một công dụng chính khác là phân tích dữ liệu để hỗ trợ nghiên cứu khoa học, thiết kế sản phẩm, ra quyết định, v.v. Loại dữ liệu này nếu được sử dụng hợp lý có thể thúc đẩy xã hội phát triển theo hướng hiệu quả và thân thiện hơn, chúng là một loại năng suất.
Loại dữ liệu thứ ba có phạm vi thu thập rộng nhất và lượng dữ liệu lớn nhất. Nó có thể đến từ con người, chẳng hạn như dữ liệu y tế cá nhân và dữ liệu tài chính, dữ liệu thói quen sử dụng sản phẩm cá nhân, v.v.; nó cũng có thể đến từ các thiết bị IoT, chẳng hạn như dữ liệu điều kiện khí quyển được thu thập bởi các cảm biến, dữ liệu lái xe tự động, v.v.
Một số nguồn dữ liệu của nó giống với loại dữ liệu thứ hai, đó là người dùng các sản phẩm Internet, nhưng phương pháp xử lý và mục đích của dữ liệu được thu thập là khác nhau: loại dữ liệu thứ hai được lấy từ người dùng và được sử dụng cho người dùng, trong khi loại dữ liệu thứ hai được lấy từ người dùng và được sử dụng cho người dùng.Ba loại dữ liệu được tổng hợp và sử dụng trên các chủ thể dữ liệu. Từ góc độ của chính dữ liệu, chúng ta có thể coi một dữ liệu nào đó vừa là loại dữ liệu thứ hai vừa là loại dữ liệu thứ ba.
Loại dữ liệu thứ ba có giá trị dữ liệu lớn nhất và họ cũng có thể là những người đầu tiên tham gia thị trường giao dịch quyền sử dụng dữ liệu để nhận ra giá trị dữ liệu.
Khác với loại dữ liệu thứ hai, các công ty Internet có quyền sử dụng dữ liệu và tự sử dụng dữ liệu, không cần thực hiện các giao dịch dữ liệu. để sử dụng dữ liệu nhưng muốn sử dụng dữ liệu. Từ quan điểm này, chúng ta có thể nghĩ rằng loại dữ liệu thứ ba đề cập đến tập hợp tất cả các dữ liệu có thể được viết hoa.
Chúng ta có thể lấy dữ liệu y tế làm ví dụ để hiểu rõ hơn về cách sử dụng loại dữ liệu thứ ba. Nếu các tổ chức nghiên cứu khoa học hoặc nhà máy dược phẩm được hỗ trợ bởi một lượng lớn dữ liệu y tế, họ có thể nghiên cứu các loại bệnh và phát triển các loại thuốc mới tốt hơn và nhanh hơn. .có sẵn cho các tổ chức khác.
Nếu chúng tôi tách quyền sở hữu và quyền sử dụng dữ liệu thông qua tính toán quyền riêng tư, chúng tôi có thể thiết lập thị trường giao dịch quyền sử dụng dữ liệu và dữ liệu của các tổ chức y tế, tổ chức nghiên cứu khoa học và nhà máy dược phẩm khác nhau có thể được kết nối trên nền tảng này - câu nói phổ biến đang Phá vỡ các silo dữ liệu—các tổ chức này có thể trao đổi dữ liệu hoặc chia sẻ dữ liệu để nghiên cứu bệnh khớp.
Nếu chúng ta muốn đào tạo AI có khả năng chẩn đoán bệnh, chúng ta cũng cần phá vỡ các đảo dữ liệu thông qua các phương pháp trên, để cung cấp cho AI dữ liệu ngày càng toàn diện hơn.
Điều cần nhắc lại là ở giai đoạn này, ngay cả khi giao dịch và giá trị của dữ liệu được thực hiện, do ranh giới pháp lý và sử dụng của quyền sử dụng dữ liệu không rõ ràng, chúng ta với tư cách cá nhân vẫn khó lấy lại toàn bộ giá trị Dữ liệu.
Quyền sở hữu và truy cập dữ liệu là một trong những vấn đề quan trọng nhất của thời đại chúng ta.Theo nhà sử học Yuval Noah Harari, tác giả cuốn "Lược sử nhân loại", "Nếu chúng ta muốn tránh tập trung hóa vào tay một nhóm nhỏ giới tinh hoa thì tất cả về việc điều chỉnh quyền truy cập dữ liệu.
Do tính phức tạp và đa dạng của dữ liệu, có thể nhanh chóng và hiệu quả để xác định và giải quyết vấn đề từ những điểm nhỏ với ranh giới rõ ràng và mô tả chính xác, thay vì hy vọng rằng dư luận, luật pháp và công nghệ có thể giải quyết vấn đề một cách tổng thể phương pháp. Chúng ta có thể phân loại và phân tích các danh mục dữ liệu khác nhau một cách cụ thể hơn hoặc sử dụng các tiêu chuẩn phân loại khác nhau để thảo luận về phân loại dữ liệu, sau đó thảo luận về các vấn đề về quyền riêng tư, quyền sở hữu dữ liệu và nhận thức giá trị dữ liệu dựa trên điều này.
Hiểu lại "dữ liệu là dầu mỏ"
Dữ liệu thường được so sánh với dầu mỏ.
Mặc dù có những ghi chép về việc con người thu thập dầu tự nhiên dọc theo bờ Biển Chết bằng chữ hình nêm, nhưng mãi đến năm 1846, Abraham Kisner mới phát minh ra phương pháp chiết xuất dầu hỏa từ than đá, và vào năm 1853, Ignacy Vukasiewicz và Jan Lịch sử dầu mỏ hiện đại ngành công nghiệp thực sự bắt đầu khi dầu hỏa tinh chế được phân đoạn từ dầu thô.
Nhưng đây mới chỉ là bắt đầu, dầu mỏ làm nhiên liệu cho đèn dầu không phải là đặc biệt, chỉ khi nó được sử dụng trong động cơ đốt trong sau này, nó mới bùng nổ với tiềm năng to lớn và trở thành nguồn tài nguyên quan trọng nhất trên thế giới.
Điểm giống nhau giữa dữ liệu và dầu mỏ là chỉ dữ liệu thôi thì chưa đủ, chỉ khi thực hiện được "kỹ thuật tinh chỉnh" dữ liệu thì mới có thể mở ra kỷ nguyên của ngành dữ liệu.
Sự khác biệt giữa dữ liệu và dầu là dầu có các nhà máy lọc dầu trước, sau đó mới có nhu cầu về động cơ đốt trong, trong khi dữ liệu có nhu cầu sử dụng rất lớn nhưng không có công nghệ và cơ sở hạ tầng trưởng thành để hỗ trợ nhu cầu này.
Người giới thiệu:
Người giới thiệu:
1.《Federated Learning: Collaborative Machine Learning without Centralized Training Data》
2.《Helping organizations do more without collecting more data》
