Trong quá trình phỏng vấn sản phẩm dữ liệu, dữ liệu không khớp và các chỉ số không nhất quán là những rào cản không thể tránh khỏi trong quá trình vận hành dựa trên dữ liệu. Bài toán này có thể dễ dàng kiểm tra xem ứng viên có thực sự có kinh nghiệm thực tế hay không. Giải quyết cụ thể thế nào? Vui lòng xem chia sẻ của tác giả.
Trong các cuộc phỏng vấn về sản phẩm dữ liệu, hệ thống chỉ báo và tiêu chuẩn chỉ báo là những câu hỏi thường gặp, chủ yếu là vì chỉ báo dữ liệu là các tình huống ứng dụng cốt lõi của phân tích dựa trên dữ liệu, và sự không khớp dữ liệu và chỉ báo không nhất quán là những rào cản không thể tránh khỏi trong quy trình vận hành dựa trên dữ liệu. Câu hỏi này có thể dễ dàng kiểm tra xem ứng viên có thực sự có kinh nghiệm thực tế hay không. 1. Đầu tiên, hãy nhận ra sự tồn tại khách quan của các chỉ số không nhất quán Trong quá trình phân tích và ứng dụng dữ liệu, dữ liệu không khớp thường xảy ra do nhiều lý do như quy ước đặt tên, logic xử lý dữ liệu, định nghĩa nghiệp vụ, phương pháp thống kê, v.v., bao gồm: - Cùng một tên có nhiều ý nghĩa khác nhau . Tên chỉ số giống nhau nhưng có giá trị thống kê không nhất quán. Không có hạn chế nào về tiêu chuẩn đặt tên. Nhiều doanh nghiệp chỉ bắt đầu từ bộ phận riêng của mình và thiếu tầm nhìn toàn cầu. Ví dụ, doanh thu có tầm cỡ tài chính phải được tính toán chặt chẽ theo logic chặt chẽ để tính toán từng xu thực sự thu được và chi trả, trong khi phía sản phẩm/hoạt động lại xem xét nhiều hơn đến hiệu ứng chuyển đổi. Tuy nhiên, trong báo cáo theo dõi KPI của từng đơn vị, chỉ số này được gọi là doanh thu.
- Cùng một ý nghĩa nhưng tên gọi khác nhau . Các chỉ số thống nhất và nhất quán về mặt logic, nhưng tên của các sản phẩm khác nhau lại không nhất quán. Các giai đoạn khác nhau hoặc các bên kinh doanh/quản lý sản phẩm khác nhau đặt tên cho các chỉ số khác nhau, dẫn đến tên gọi khác nhau cho cùng một chỉ số trên các trang sản phẩm dữ liệu khác nhau.
- Định nghĩa không rõ ràng , nó chỉ là một từ đồng nghĩa, chẳng hạn như số lượng người dùng hoạt động: số lượng người dùng truy cập
- Việc đặt tên khó hiểu , ý nghĩa không rõ ràng và mơ hồ, hoặc quá chuyên môn và chỉ người tạo ra chỉ báo mới có thể hiểu được. Ví dụ, chỉ số tỷ lệ chuyển đổi bao gồm tỷ lệ chuyển đổi tạo đơn hàng và tỷ lệ chuyển đổi hoàn tất đơn hàng. Gọi đơn giản là tỷ lệ chuyển đổi thì rất khó hiểu.
- Logic không chính xác và mô tả về cỡ chỉ báo không đúng. Ví dụ, chỉ báo UV được mô tả là "đã loại bỏ trùng lặp theo ID thiết bị". Trên thực tế, logic loại bỏ trùng lặp của các nền tảng khác nhau không nhất quán. Ví dụ, các chương trình nhỏ của WeChat loại bỏ trùng lặp theo UnionID, các APP loại bỏ trùng lặp theo DeviceID và PC và H5 loại bỏ trùng lặp theo loginkey.
- Dữ liệu khó theo dõi và nguồn dữ liệu của các chỉ số sản phẩm dữ liệu thiếu khả năng theo dõi liên kết trực quan. Để khắc phục sự cố dữ liệu chỉ báo bất thường, cần phải xem qua mã để biết nguồn dữ liệu, đây là một quá trình dài và tốn thời gian. Vào buổi sáng, khi có phản hồi của doanh nghiệp về các vấn đề chỉ số, có thể phải mất cả buổi sáng mới đưa ra được kết luận.
- Chất lượng dữ liệu kém và các vấn đề phổ biến trong quản lý chỉ số thường dẫn đến giảm đáng kể niềm tin của doanh nghiệp vào các chỉ số dữ liệu. Khi phát hiện dữ liệu có biến động, phản ứng đầu tiên là xác nhận với bộ phận dữ liệu xem có vấn đề gì với dữ liệu hay không, thay vì xem xét bất kỳ thay đổi nào trong doanh nghiệp.
2. Phân tích nguyên nhân của vấn đề Vấn đề chỉ số dữ liệu không nhất quán chủ yếu là do những lý do sau: - Cơ cấu tổ chức và phân chia chức năng : Các tổ chức hoặc phòng ban khác nhau có thể có chức năng và nhiệm vụ khác nhau, dẫn đến nhu cầu và trọng tâm vào dữ liệu khác nhau. Ví dụ, bộ phận sản phẩm tập trung vào việc tải xuống, kích hoạt và chuyển đổi ứng dụng; bộ phận điều hành tập trung vào hoạt động của người dùng và khối lượng giao dịch; phòng tiếp thị tập trung vào việc theo dõi liên kết phân phối quảng cáo, v.v. Do đó, có thể sử dụng các chỉ số và định nghĩa khác nhau để đo lường hiệu suất.
- Thiếu tiêu chuẩn thống nhất : Mỗi phòng ban đều có nhu cầu phân tích dữ liệu riêng. Nếu không có bộ phận thu thập dữ liệu thống nhất, mỗi bộ phận sẽ hoạt động độc lập, dẫn đến thiếu các tiêu chuẩn thống nhất. Cùng một tên nhưng ý nghĩa khác nhau hoặc các chỉ số mơ hồ thường xuất hiện, khiến người dùng sử dụng các chỉ số không chính xác.
- Lỗi của con người : Trong quá trình xử lý và phân tích dữ liệu, lỗi của con người cũng có thể dẫn đến các chỉ số không nhất quán. Ví dụ, lỗi có thể xảy ra trong quá trình làm sạch và chuyển đổi dữ liệu và có thể có sự sai lệch trong việc lựa chọn phương pháp thống kê. Các chỉ số do nhiều nhà phát triển dữ liệu khác nhau phát triển và những thay đổi hợp lý được thực hiện ở các giai đoạn khác nhau có thể dẫn đến dữ liệu không khớp.
3. Ý tưởng và phương pháp giải quyết vấn đề Xây dựng và quản lý hệ thống chỉ số: Dựa trên các mục tiêu chiến lược chung và kế hoạch kinh doanh, chúng tôi dần thiết lập hệ thống chỉ số phản ánh đầy đủ tình hình kinh doanh, bao gồm các chỉ số cốt lõi, logic thống kê chỉ số, v.v., để đảm bảo tất cả các ngành kinh doanh đều tuân theo cùng một định nghĩa và tầm cỡ chỉ số, đồng thời thiết lập quy trình SOP để sản xuất chỉ số. Xây dựng tiêu chuẩn dữ liệu: làm rõ các chỉ số mà doanh nghiệp công nhận, xây dựng các tiêu chuẩn dữ liệu để mô tả ý nghĩa của dữ liệu lớp thuộc tính và các quy tắc kinh doanh mà doanh nghiệp cần tuân thủ, đảm bảo mọi người có sự hiểu biết và tuân thủ chung đối với cùng một dữ liệu. Xác nhận nguồn dữ liệu và phương pháp xử lý: Trước khi xử lý và phân tích dữ liệu, cần xác nhận xem nguồn dữ liệu và phương pháp xử lý có nhất quán hay không. Nếu có bất kỳ sự không nhất quán nào, cần phải có sự điều chỉnh và sửa chữa tương ứng. Kiểm tra cỡ dữ liệu: Khi xử lý và phân tích dữ liệu, cần kiểm tra xem cỡ dữ liệu được các ngành nghề kinh doanh khác nhau sử dụng có nhất quán hay không để đảm bảo tính đồng nhất về cỡ chỉ tiêu. Hệ thống hóa quản lý chỉ số: Khái niệm quản lý chỉ số đã tồn tại trong nhiều năm. Nhiều công ty Internet đang xây dựng nền tảng quản lý riêng của mình. Sau khi đọc nhiều bài viết về việc xây dựng hệ thống quản lý chỉ số, bạn sẽ thấy rằng những việc họ làm về cơ bản là giống nhau. Bài viết chủ yếu tập trung vào những điểm khó khăn trong quản lý chỉ số, với phương pháp luận là lý thuyết OneData của Alibaba. Cùng một việc chỉ cần thực hiện một lần, việc còn lại là cung cấp các giải pháp sản xuất để việc xây dựng và tái sử dụng chỉ số được chuẩn hóa và hiệu quả hơn. Chủ yếu bao gồm: - Thiết lập cơ chế điều phối sản xuất chỉ tiêu. Việc ra đời các chỉ số phải trải qua quá trình ứng dụng theo nhu cầu, rà soát, phát triển dữ liệu và ứng dụng trực tuyến. Quá trình tạo chỉ số phải được khép kín để tránh tình trạng “ô nhiễm” do tính ngẫu nhiên trong quá trình xây dựng chỉ số.
- Xây dựng thông số kỹ thuật đặt tên chỉ báo và mô tả cỡ nòng, tích hợp các quy tắc vào nền tảng dưới dạng các chỉ báo nguyên tử + hạn chế kinh doanh + kích thước thống kê và kiểm soát đầu ra của chỉ báo thông qua các quy tắc hệ thống
- Từ điển chỉ số trực tuyến giúp giải quyết các vấn đề về chỉ số quản lý tài liệu ngoại tuyến (Excel) như khó khăn trong việc chia sẻ, cập nhật không kịp thời và thiếu kiểm soát thẩm quyền.
- Liên kết logic dữ liệu chỉ báo, nghĩa là ngoài việc duy trì siêu dữ liệu kinh doanh của chỉ báo, còn cần thiết lập siêu dữ liệu kỹ thuật của chỉ báo, dữ liệu chỉ báo được lấy từ mô hình nào, trường nào và logic tính toán nào
- Đầu ra chỉ báo: Giá trị lớn nhất của quản lý chỉ báo là cung cấp đầu ra dữ liệu cho các sản phẩm dữ liệu, đồng bộ hóa mô hình lớp Hive với các công cụ truy vấn như MySQL, Greenplumn, Kylin, CK, v.v. có hiệu suất truy vấn tốt hơn và có thể phản hồi trong vài giây, đồng thời trực tiếp lấy dữ liệu bằng cách gọi phương thức kết nối JDBC thông qua giao diện.
Đào tạo và truyền thông : Tăng cường truyền thông và đào tạo giữa các ngành kinh doanh khác nhau để đảm bảo mọi người đều có sự hiểu biết và nhận thức chung về các chỉ số dữ liệu và giảm thiểu sự hiểu lầm và mơ hồ. |