Giá trị của dòng dõi dữ liệu là gì?

Giá trị của dòng dõi dữ liệu là gì?

Trong quá trình tạo và sử dụng dữ liệu sẽ phát sinh nhiều vấn đề khác nhau và chúng tôi sẽ xử lý chúng theo đó. Ví dụ, liên quan đến tính chính xác của dữ liệu, sự thay đổi của dữ liệu, giá trị thực sự mà dữ liệu tạo ra, liệu tính bảo mật dữ liệu có thể được đảm bảo hay không, v.v., bài viết này giải thích cách phân tích dòng dõi dữ liệu giải quyết những vấn đề này trong quy trình quản trị dữ liệu.

Giá trị 1: Xóa tan nghi ngờ về dữ liệu

Trong công việc hàng ngày, tôi tin rằng mọi người thường gặp phải những tình huống như vậy. Nhân viên kinh doanh hoặc lãnh đạo cấp cao thường có những nghi ngờ lớn về dữ liệu hoặc dữ liệu chỉ số trong báo cáo trên màn hình máy tính: “Độ lệch dữ liệu lớn như vậy, có vấn đề gì không?” "Tại sao dữ liệu này lại không nhất quán với dữ liệu ngoại tuyến, có vấn đề gì với logic tính toán của bạn không?" "Tại sao đối với lĩnh vực doanh thu bán hàng tháng này, hệ thống A lại có số này, hệ thống B lại có số này, bạn dùng cỡ số nào để nhập số?"... Đối mặt với hàng loạt vấn đề này, bộ phận dữ liệu đang bận rộn điều tra và giải đáp những nghi ngờ của người dùng về dữ liệu báo cáo.

Khi đối mặt với sự nghi ngờ của người dùng về độ tin cậy và tính xác thực của dữ liệu được báo cáo, các vấn đề sau đây có thể khiến dữ liệu bị sai lệch:

  • Các vấn đề về tính kịp thời: thiếu tài nguyên cụm dữ liệu lớn hoặc lỗi hệ thống nền tảng dẫn đến chậm trễ nhiệm vụ;
  • Các vấn đề về chất lượng mã phát triển, phạm vi thu thập dữ liệu không rõ ràng hoặc không chính xác dẫn đến lỗi trong dữ liệu tính toán;
  • Logic tính toán của các quy tắc kinh doanh đã được thay đổi, nhưng hệ thống không được cập nhật đồng bộ, dẫn đến sự không nhất quán giữa dữ liệu trực tuyến và ngoại tuyến;
  • Các vấn đề về chất lượng dữ liệu, cho dù dữ liệu trực tuyến hay ngoại tuyến đều không chính xác, không đầy đủ hoặc không kịp thời, dẫn đến dữ liệu bị sai lệch;

Đối mặt với các vấn đề dữ liệu trên, các phương pháp khắc phục sự cố truyền thống rất dài dòng và không hiệu quả:

  • Bước 1: Tìm giao diện API của nguồn chỉ báo báo cáo và xác định bảng dữ liệu nguồn.
  • Bước 2: Tìm tác vụ đồng bộ hóa dữ liệu tương ứng với bảng dữ liệu nguồn và tác vụ đầu ra của bảng Hive để kiểm tra xem tác vụ có được thực thi bình thường không.
  • Bước 3: Tìm thượng nguồn của tác vụ xử lý bảng Hive và kiểm tra từng lớp để đảm bảo rằng các tác vụ của toàn bộ liên kết được thực hiện bình thường, vì các vấn đề về tính kịp thời là vấn đề thường gặp nhất, phổ biến nhất và dễ xử lý nhất.
  • Bước 4: Sau khi kiểm tra luồng xử lý dữ liệu có bình thường không, hãy xem mã xử lý của bảng đầu ra chỉ báo để xem có bất kỳ thay đổi nào của con người gần đây không. Thứ hai, kiểm tra logic tương ứng bằng cách lật mã và xác định vị trí bảng dữ liệu có vấn đề từng bước theo cấp độ mã của quá trình xử lý chỉ báo.
  • Bước 5: Sau khi kiểm tra từng lớp, vấn đề đã được xác định, nhưng phải mất một thời gian để khắc phục sự cố và chạy lại dữ liệu. Phải thông báo ngay cho bộ phận hạ nguồn để tránh các quyết định và ứng dụng sai lầm do dữ liệu không chính xác, chẳng hạn như tính nhầm khách hàng cũ thành khách hàng mới, dẫn đến thất thoát chi phí tiếp thị, v.v.

Khi phát hiện ra dữ liệu bất thường, mối lo ngại của người dùng về tính xác thực và độ tin cậy của dữ liệu sẽ được xác nhận và người dùng sẽ dần mất lòng tin vào dữ liệu. Điều này không những không cải thiện được hiệu quả sử dụng dữ liệu mà còn đòi hỏi nhân viên quản lý dữ liệu phải kiểm tra lại từng dữ liệu bị nghi vấn nhiều lần. Vì dữ liệu phải trải qua nhiều liên kết xử lý từ khâu sản xuất đến khâu vận hành các ứng dụng kinh doanh, nên khi báo cáo về phía doanh nghiệp hoặc dịch vụ ứng dụng dữ liệu có bất thường, cần phải xác định vị trí sự cố, khắc phục sự cố và sửa chữa càng sớm càng tốt.

Nếu chúng ta dựa vào việc dịch mã thủ công từng lớp thì hiệu quả sẽ rất thấp. Một mặt, nhân lực phát triển dữ liệu sẽ được dành cho việc khắc phục sự cố, mặt khác, thời gian xác định vấn đề càng lâu thì tác động và tổn thất cho doanh nghiệp càng lớn.

Nếu sử dụng công nghệ phân tích dòng dữ liệu, hiệu quả xử lý sự cố có thể được cải thiện đáng kể, đặc biệt là khả năng trực quan hóa dòng dữ liệu, cho phép người dùng kiểm tra độc lập nguồn dữ liệu và liên kết, đồng thời phát hiện trực quan liên kết sản xuất dữ liệu và xem có bất kỳ bất thường nào ở mỗi liên kết hay không.

Điều này có thể nhanh chóng xua tan nghi ngờ của người dùng về độ tin cậy của dữ liệu được báo cáo.

Giá trị 2: Đánh giá nhanh tác động của những thay đổi dữ liệu

Trong quá trình phát triển dữ liệu, dòng dõi dữ liệu có thể cung cấp hai giá trị: cải thiện hiệu quả giải quyết vấn đề và đánh giá tác động của dữ liệu một cách hiệu quả.

Theo góc nhìn dữ liệu đơn giản, các chiều của dòng dõi dữ liệu bao gồm cơ sở dữ liệu, bảng, trường, hệ thống và ứng dụng, nghĩa là dữ liệu được lưu trữ trong bảng nào trong cơ sở dữ liệu nào, các trường tương ứng là gì và các thuộc tính của trường, hệ thống mà dữ liệu thuộc về và các ứng dụng liên quan đến dữ liệu.

Theo quan điểm kinh doanh, chiều hướng của dòng dõi dữ liệu chủ yếu là dòng kinh doanh mà dữ liệu thuộc về. Khi nói đến kinh doanh, cần phải sắp xếp logic tạo dữ liệu, logic sử dụng dữ liệu và mối quan hệ giữa các ngành kinh doanh.

Dòng dõi dữ liệu rất quan trọng đối với quản trị dữ liệu – bao gồm tuân thủ, chất lượng dữ liệu, quyền riêng tư và bảo mật dữ liệu. Nó cũng quan trọng đối với phân tích dữ liệu và khoa học dữ liệu. Khả năng lập bản đồ và xác minh cách truy cập và thay đổi dữ liệu rất quan trọng đối với tính minh bạch của dữ liệu.

Nó giúp tạo ra các bản ghi chi tiết về các nguồn dữ liệu cụ thể. Nó cũng cho thấy dữ liệu được thay đổi, tác động và sử dụng như thế nào. Dòng dõi dữ liệu cũng giúp phản hồi các truy vấn về kiểm toán tuân thủ và báo cáo dễ dàng hơn. Nó cũng giúp cải thiện tình hình bảo mật bằng cách cho phép các tổ chức theo dõi và xác định các rủi ro tiềm ẩn trong luồng dữ liệu.

Dòng dõi dữ liệu giúp các tổ chức chủ động xác định và khắc phục các khoảng trống dữ liệu cần thiết cho các ứng dụng kinh doanh. Điều này đặc biệt hữu ích cho các sáng kiến ​​phân tích dữ liệu và nâng cao trải nghiệm của khách hàng.

Việc thu thập dữ liệu nhạy cảm khiến các tổ chức phải chịu sự giám sát của cơ quan quản lý và bị lạm dụng trong kinh doanh. Dòng dõi dữ liệu cho thấy dữ liệu nhạy cảm và dữ liệu quan trọng khác của doanh nghiệp di chuyển như thế nào trong toàn bộ tổ chức. Bằng cách này, bạn có thể đảm bảo chính sách của mình phù hợp với các biện pháp kiểm soát hiện hành.

Đối với hoạt động CNTT, dòng dõi dữ liệu giúp trực quan hóa tác động của những thay đổi dữ liệu đối với các ứng dụng và phân tích tiếp theo. Nó cũng giúp hiểu được những rủi ro khi thay đổi quy trình kinh doanh. Nó cho phép bạn có cách tiếp cận chủ động hơn đối với việc quản lý thay đổi. Nó cũng cải thiện hiệu quả hoạt động bằng cách giảm các quy trình thủ công tốn thời gian và giảm chi phí bằng cách loại bỏ dữ liệu trùng lặp và các kho dữ liệu.

Ngoài ra, dòng dõi dữ liệu cho phép thực hiện thành công các sáng kiến ​​di chuyển dữ liệu đám mây và hiện đại hóa, thúc đẩy quá trình chuyển đổi. Dòng dõi dữ liệu có thể giúp hình dung cách các đối tượng dữ liệu và luồng dữ liệu khác nhau liên quan và kết nối với nhau như thế nào trong biểu đồ dữ liệu. Sự hiểu biết sâu sắc này giúp các kiến ​​trúc sư dữ liệu dễ dàng dự đoán cách dữ liệu di chuyển hoặc thay đổi sẽ ảnh hưởng đến chính dữ liệu đó như thế nào. Việc dự đoán tác động đến các quy trình và ứng dụng hạ nguồn phụ thuộc vào nó cũng như xác nhận các thay đổi cũng trở nên dễ dàng hơn.

Giá trị 3: Công cụ đo lường đánh giá giá trị tài sản dữ liệu

Trong thời đại số, dữ liệu được coi rộng rãi là một tài sản kinh doanh quan trọng. Định nghĩa chung về tài sản dữ liệu là các nguồn dữ liệu được ghi lại dưới dạng vật lý hoặc điện tử do cá nhân hoặc doanh nghiệp sở hữu hoặc kiểm soát và có thể mang lại lợi ích kinh tế trong tương lai cho doanh nghiệp. Các đặc điểm chính của tài sản dữ liệu là:

  • Quyền dữ liệu riêng ((quyền khám phá, quyền sử dụng, quyền sở hữu));
  • có giá trị lớn;
  • Có thể đo lường được;
  • Một tập dữ liệu có thể đọc được.

Tóm lại, dữ liệu có nhiều người dùng hơn (phía cầu), khối lượng sử dụng lớn hơn và được cập nhật thường xuyên hơn có xu hướng có giá trị hơn. Ví dụ, Trung tâm nghiên cứu CRIC là bộ phận R&D chuyên nghiệp của CRIC Information Group, một công ty con của E-House China. Trong mười năm qua, chúng tôi đã cam kết nghiên cứu sâu rộng về ngành bất động sản và các vấn đề doanh nghiệp.

Nhiều công ty chi tiền để mua dữ liệu kết quả nghiên cứu của họ. Giá trị của dữ liệu này rất rõ ràng nên có thể gọi là tài sản của công ty; Nền tảng giao dịch dữ liệu lớn Quý Dương có thể đóng gói dữ liệu của riêng mình thành các dịch vụ và API để khách hàng mua và sử dụng; nền tảng tổng hợp, Qichacha và Tianyancha cung cấp các truy vấn thông tin doanh nghiệp. Đây đều là những giao dịch dữ liệu có giá trị rõ ràng và có thể quy đổi được. Những dữ liệu này thực sự sẽ trở thành dữ liệu được chia sẻ giữa các công ty, tức là tài sản dữ liệu.

Vì vậy, dựa trên những ý tưởng này, cách biến dữ liệu thành tài sản có giá trị có thể phụ thuộc vào việc dữ liệu này có giá trị giao dịch tiềm năng hiện tại hay trong tương lai hay không.

Dựa trên các vấn đề trên, dòng dõi dữ liệu có thể được sử dụng như một công cụ đo lường để đánh giá giá trị của tài sản dữ liệu. Giá trị cụ thể như sau:

Dòng dõi dữ liệu có thể ghi lại rõ ràng chi phí mua sắm và sản xuất dữ liệu. Ngay cả với quá trình xử lý tiếp theo, chi phí dữ liệu vẫn có thể được ghi lại rõ ràng trong toàn bộ chu kỳ dữ liệu. Giải quyết vấn đề về sự không chắc chắn ban đầu trong việc ghi nhận tài sản dữ liệu.

Ví dụ, chúng ta có thể ghi lại giá trị đã ghi lại của dữ liệu mua từ nhà cung cấp dữ liệu. Nếu đó là tài sản như chỉ số dữ liệu được hình thành thông qua quá trình xử lý thủ công trong công ty, chúng tôi có thể tiếp tục theo dõi giá trị chi phí của dữ liệu huyết thống và cuối cùng lập thành bản tóm tắt.

Vì dòng dõi dữ liệu phản ánh bản chất đa nguồn của dữ liệu nên trong quá trình xử lý từng mục dữ liệu, chúng ta có thể xác nhận thêm các tài sản dữ liệu đã hình thành. Ví dụ, chi phí của một dữ liệu chỉ số nhất định, bao gồm tổng hợp và xử lý dữ liệu, có thể được chia sẻ.

Dòng dõi dữ liệu phản ánh vòng đời của dữ liệu và toàn bộ quá trình từ khi tạo dữ liệu đến khi dữ liệu bị xóa. Khi dữ liệu được niêm phong hoặc hủy, nó thực sự đại diện cho thời hạn sử dụng của tài sản dữ liệu được ghi lại. Điều này có thể đo lường thêm giá trị tài sản. Đặc biệt khi doanh nghiệp phát triển và dữ liệu tiếp tục tăng, số lượng tác vụ và bảng dữ liệu sẽ tiếp tục tăng, điều này sẽ tiếp tục làm tăng chi phí cho các nguồn dữ liệu lớn.

Bằng cách xây dựng dòng dữ liệu liên kết đầy đủ và chính xác, chúng tôi có thể xác định người dùng dữ liệu hạ nguồn, tạo điều kiện thuận lợi cho việc giao tiếp và đồng bộ hóa thông tin, đồng thời nhanh chóng ngắt kết nối các dịch vụ đã lâu không được sử dụng, giúp tiết kiệm chi phí dữ liệu.

Tài sản dữ liệu cần phải xem xét liệu dữ liệu có được lưu hành (tức là những gì chúng ta gọi là chia sẻ) hay không. Hầu hết các dự án dữ liệu của chúng tôi phục vụ nhu cầu quản lý nội bộ.

Chúng ta cũng cần xem xét liệu một số dữ liệu tham khảo có đang lưu hành trên thị trường hay không, chẳng hạn như báo cáo tài chính, dữ liệu hoạt động, chỉ số kỹ thuật, v.v. được công bố trên trang web chính thức, để hình thành tài sản dữ liệu lưu hành (sản phẩm hóa).

Cho dù dữ liệu được sử dụng nội bộ hay chia sẻ bên ngoài, chúng ta cần phải đo lường giá trị của nó. Điều này đòi hỏi phải sử dụng các công nghệ tương tự như dòng dõi dữ liệu để tiến hành đăng ký trực tuyến các tài sản dữ liệu.

Một mặt, việc đánh giá giá trị dữ liệu có thể tạo điều kiện thuận lợi cho việc định giá trong các giao dịch chia sẻ dữ liệu. Một khía cạnh rất quan trọng khác là hình thành mức độ bảo vệ an ninh dữ liệu dựa trên giá trị định lượng của tài sản dữ liệu.

Đánh giá mức độ bảo vệ an ninh dữ liệu truyền thống thường chỉ dựa vào các yêu cầu quy định có liên quan và kinh nghiệm kinh doanh, thiếu cơ sở đánh giá trong các tình huống ứng dụng cụ thể và tách biệt khỏi các tình huống ứng dụng và giá trị kinh doanh thực sự của dữ liệu.

Dòng dõi dữ liệu cung cấp phương pháp đánh giá dựa trên ứng dụng thực tế của dữ liệu: càng nhiều người dùng (phía cầu), khối lượng sử dụng càng lớn, giá trị càng lớn và tần suất cập nhật càng cao thì mức độ bảo vệ an ninh dữ liệu càng cao.

Tóm lại, để biến dữ liệu thành tài sản, chúng ta phải hình thành một loạt các hệ thống và phương tiện kỹ thuật xung quanh "chuỗi giá trị dữ liệu" để đảm bảo giá trị có thể được định lượng và đo lường. Dòng dõi dữ liệu là công nghệ quan trọng để trực quan hóa quy trình từ dữ liệu thô, tài nguyên dữ liệu đến sản phẩm dữ liệu và tài sản dữ liệu.

Giá trị 4: Thêm khóa "đạo đức" vào việc lạm dụng dữ liệu

Trong những năm gần đây, dữ liệu lớn đã giúp cuộc sống của con người ngày càng tiện lợi hơn, nhưng sự hỗn loạn xảy ra sau đó như dữ liệu lớn giết chết khách hàng cũ, lạm dụng công nghệ nhận dạng khuôn mặt và yêu cầu cấp phép quá mức đã gây tổn hại đến lợi ích hợp pháp của công chúng. Đối mặt với nhiều sự hỗn loạn, công chúng thường cảm thấy khốn khổ nhưng bất lực.

Một trong những lý do chính dẫn đến tình trạng lạm dụng dữ liệu là lượng lớn dữ liệu thuộc sở hữu của các siêu nền tảng và quyền sở hữu dữ liệu trong quá trình sản xuất, thu thập, lưu thông và sử dụng là không rõ ràng.

Để ứng phó với những thách thức trên, chúng tôi đã dần cải thiện một số biện pháp bảo mật, chẳng hạn như: kiểm soát và cô lập truy cập, triển khai các biện pháp cô lập truy cập đa thuê bao, phân loại và xếp loại bảo mật dữ liệu, hỗ trợ kiểm soát truy cập bắt buộc dựa trên thẻ, cung cấp mô hình ủy quyền truy cập dữ liệu dựa trên ACL và kiểm soát truy cập chế độ xem dữ liệu. Nó cũng cung cấp các chức năng mã hóa và giải mã dữ liệu, quản lý khóa thống nhất và dịch vụ xác thực truy cập, nhật ký kiểm tra truy cập dữ liệu, v.v.

Điều quan trọng cần lưu ý là công nghệ phân tích dòng dữ liệu là phương tiện chính để giải quyết tình trạng lạm dụng dữ liệu. Bằng cách theo dõi nguồn gốc dữ liệu, chúng ta có thể xác nhận nguồn, chủ sở hữu và luồng dữ liệu.

Theo cách này, chúng tôi có thể cung cấp thông tin cụ thể dựa trên vòng đời dữ liệu, chẳng hạn như thu thập, lưu trữ, sử dụng, truyền tải, chia sẻ, xuất bản và hủy bỏ, để chúng tôi có thể thực hiện các biện pháp quản lý có mục tiêu. Đặc biệt, việc giải quyết mối quan hệ quyền giữa người tạo dữ liệu, người dùng và người khai thác sẽ giúp tránh tình trạng lạm dụng sau khi quyền sở hữu dữ liệu được xác nhận.

Dòng dõi dữ liệu gián tiếp cung cấp cơ chế tuân thủ để kiểm toán, cải thiện quản lý rủi ro và đảm bảo dữ liệu được lưu trữ và xử lý theo các chính sách và quy định quản trị dữ liệu. Ví dụ, luật GDPR được ban hành vào năm 2016 để bảo vệ dữ liệu cá nhân của người dân ở EU và EEA, giúp cá nhân kiểm soát dữ liệu của mình tốt hơn.

Tại Hoa Kỳ, các tiểu bang riêng lẻ như California đã ban hành các chính sách như Đạo luật bảo mật người tiêu dùng California (CCPA), yêu cầu các doanh nghiệp phải thông báo cho người tiêu dùng về việc thu thập dữ liệu của họ. Loại luật này coi việc lưu trữ và bảo mật dữ liệu là ưu tiên hàng đầu và nếu không có công nghệ phân tích dòng dõi dữ liệu hoặc các công cụ liên quan, các tổ chức sẽ thấy vấn đề không tuân thủ là một nhiệm vụ tốn kém và mất thời gian.

Dòng dõi dữ liệu là một công cụ mạnh mẽ trong thời đại quản lý và kiểm soát dữ liệu tinh vi. Nếu doanh nghiệp có thể tận dụng tốt thì chắc chắn sẽ đạt được thành công lớn trong lĩnh vực tài sản dữ liệu.

<<:  Với lượng người theo dõi tăng 2,93 triệu trong 30 ngày, Luckin Coffee và Mixue Ice City đã trở thành hố đen về lượng truy cập như thế nào?

>>:  Thay vì nói về cuộc hội ngộ “lớn”, tốt hơn hết hãy tập trung vào sự hoàn hảo “nhỏ” trong tiếp thị Tết Trung thu

Gợi ý

Nhận biết giá trị người dùng và giao dịch [Chương cuối]

Tác giả bài viết này thảo luận về giá trị người d...

Phân tích từng bước: một dự án phân tích dữ liệu tuyệt vời

Trong thế giới phân tích dữ liệu, mọi dự án giống...

Doanh nghiệp và cá nhân nên định vị mình như thế nào khi tạo tài khoản video?

Bài viết này mô tả cách định vị tài khoản video t...