Nói về ứng dụng của "độ lệch chuẩn" trong toán học

Nói về ứng dụng của "độ lệch chuẩn" trong toán học

Điều mà nhiều người trong chúng ta thiếu không phải là lý thuyết phân tích dữ liệu mà là khả năng áp dụng lý thuyết vào các tình huống thực tế. Bài viết này sử dụng ngôn ngữ đơn giản và các ví dụ từ công việc và cuộc sống để hướng dẫn chúng ta cách xác định tính ổn định và độ tin cậy của dữ liệu bằng cách tính độ lệch chuẩn, xác định xem có giá trị ngoại lệ trong dữ liệu hay không và tối ưu hóa kế hoạch lấy mẫu dữ liệu.

Tôi tự hỏi liệu có ai từng có trải nghiệm tương tự không? Bạn đã bao giờ bị sếp chỉ trích vì không nộp kết quả kinh doanh cuối cùng đúng hạn do theo đuổi các thuật toán và công cụ cao cấp chưa? Bạn đã bao giờ đưa ra kết luận và đề xuất toàn diện dựa trên một điểm phân tích dữ liệu duy nhất chưa? Bạn đã bao giờ đưa ra kết luận đảo ngược nguyên nhân và kết quả hoặc "thiên kiến ​​người sống sót" khiến doanh nghiệp của bạn đi chệch hướng chưa?

Mọi người đều đã từng trải qua những trải nghiệm này ở một mức độ nào đó, vậy tại sao chúng ta lại mắc phải những sai lầm này? Bởi vì chúng ta thiếu một số tư duy phân tích dữ liệu cơ bản. Điều mà nhiều người trong chúng ta thiếu không phải là lý thuyết phân tích dữ liệu mà là khả năng áp dụng lý thuyết vào các tình huống thực tế. Lý thuyết + tình huống thực tế = phương pháp luận. Làm thế nào để áp dụng lý thuyết có vẻ mơ hồ này vào công việc thực tế đòi hỏi phải truyền đạt nó thông qua các trường hợp đơn giản, dễ hiểu và ngôn ngữ gần như bản ngữ . Dù bạn đang ở giai đoạn hay trình độ nào, chúng tôi đều bắt đầu từ những trường hợp phổ biến nhất trong cuộc sống và công việc, sử dụng những từ ngữ trực tiếp nhất để giải thích lý thuyết một cách rõ ràng để bạn có thể thực sự nắm vững tư duy cơ bản và các nguyên tắc phân tích dữ liệu. Đây cũng chính là mục đích ban đầu của việc viết loạt bài viết này.

Vì được viết bằng ngôn ngữ dễ hiểu nên loạt bài viết này không có công thức khó hiểu hay quy trình phức tạp. Tôi chỉ hy vọng sử dụng ngôn ngữ đơn giản, kết hợp với nhiều ví dụ từ công việc và cuộc sống, để giúp bạn học cách giải quyết những vấn đề này theo góc độ phân tích dữ liệu và nắm vững một số kiến ​​thức cơ bản nhất về phân tích dữ liệu . Khi chúng ta nhìn lại cùng một sự vật, suy nghĩ của chúng ta sẽ khác so với trước. Chúng ta có thể diễn giải những gì đang diễn ra xung quanh mình theo góc nhìn dữ liệu và sử dụng tư duy dữ liệu để đưa ra phán đoán.

1. Đưa ra một ví dụ

Với tư cách là nhà phân tích dữ liệu, độ lệch chuẩn là một trong những khái niệm mà chúng ta quen thuộc nhất. Đây là một trong những chỉ số quan trọng để mô tả hình dạng phân phối và mức độ phân tán của dữ liệu. Trong bài viết này, tôi sẽ phân tích độ lệch chuẩn từ nhiều góc độ, bao gồm định nghĩa, chức năng, tình huống ứng dụng, v.v. và minh họa tầm quan trọng của nó trong phân tích dữ liệu thông qua các trường hợp thực tế.

1. Độ lệch chuẩn là gì?

Độ lệch chuẩn là một thống kê đo lường mức độ biến thiên của một tập hợp dữ liệu. Bản chất của nó là mô tả mức độ phân tán của dữ liệu. Độ lệch chuẩn càng lớn thì dữ liệu càng phân tán; độ lệch chuẩn càng nhỏ thì dữ liệu càng tập trung . Độ lệch chuẩn là giá trị trung bình của khoảng cách giữa tất cả dữ liệu trong một mẫu hoặc quần thể và giá trị trung bình. Nói một cách đơn giản, độ lệch chuẩn là thước đo mức độ phân tán của một tập dữ liệu so với giá trị trung bình của nó.

2. Vai trò của độ lệch chuẩn

Độ lệch chuẩn đóng một số vai trò quan trọng trong phân tích dữ liệu:

2.1 Mô tả hình dạng phân phối dữ liệu

Độ lệch chuẩn có thể giúp chúng ta xác định sự phân phối dữ liệu. Khi độ lệch chuẩn nhỏ, dữ liệu tập trung gần giá trị trung bình và mô hình phân phối tương đối tập trung; khi độ lệch chuẩn lớn, dữ liệu phân tán nhiều hơn so với giá trị trung bình và mô hình phân phối tương đối rải rác. Thông qua độ lệch chuẩn, chúng ta có thể hiểu sơ bộ về hình dạng của dữ liệu và từ đó lựa chọn phương pháp phân tích phù hợp.

2.2 Đo lường tính rời rạc của dữ liệu

Độ lệch chuẩn có thể đo lường mức độ phân tán của một tập dữ liệu và do đó xác định tính ổn định của dữ liệu . Độ lệch chuẩn càng nhỏ thì độ phân tán dữ liệu càng nhỏ và sự thay đổi dữ liệu càng ổn định; độ lệch chuẩn càng lớn thì độ phân tán dữ liệu càng lớn và dữ liệu thay đổi càng không ổn định. Thông qua độ lệch chuẩn, chúng ta có thể đánh giá tính ổn định của dữ liệu và từ đó xác định chiến lược kiểm soát rủi ro tương ứng.

2.3 Mối quan hệ giữa độ lệch chuẩn và trung bình

Độ lệch chuẩn có liên quan chặt chẽ đến giá trị trung bình. Khi phân phối dữ liệu tập trung, độ lệch chuẩn nhỏ và giá trị trung bình chính xác hơn; khi phân phối dữ liệu phân tán hơn, độ lệch chuẩn lớn và giá trị trung bình kém chính xác hơn. Trong phân tích dữ liệu, chúng ta cần xem xét cả độ lệch chuẩn và giá trị trung bình để xác định độ tin cậy và độ chính xác của dữ liệu .

2. Trường hợp phân tích dữ liệu

Trường hợp: Phân tích lưu lượng truy cập của người dùng trang web Giả sử một công ty Internet muốn phân tích lưu lượng truy cập của người dùng vào trang web của mình để xác định kế hoạch hoạt động. Đầu tiên, công ty thu thập dữ liệu truy cập của người dùng trong một tháng, tổng cộng là 30 ngày. Chúng ta có thể xác định tính ổn định của quyền truy cập của người dùng bằng cách tính độ lệch chuẩn.

Đầu tiên, chúng tôi sắp xếp lượt truy cập của người dùng theo ngày và sau đó tính toán mức trung bình. Như thể hiện trong bảng sau:

Trung bình = (500 + 550 + 480 + … + 520) / 30 = 510

Tiếp theo, chúng tôi tính toán sự khác biệt giữa số lượt truy cập mỗi ngày và số lượt truy cập trung bình rồi bình phương nó. Như thể hiện trong bảng sau:

Sau đó, chúng ta chia tổng bình phương của các hiệu số cho tổng số ngày và lấy căn bậc hai của kết quả để có được độ lệch chuẩn. Như hình dưới đây:

Độ lệch chuẩn = √(100 + 1600 + 900 + … + 100) / 30 = 31,62

Bằng cách tính độ lệch chuẩn, chúng ta có thể xác định tính ổn định của quyền truy cập của người dùng. Nếu độ lệch chuẩn nhỏ thì có nghĩa là lưu lượng người dùng tương đối ổn định và chúng ta có thể áp dụng kế hoạch hoạt động ổn định hơn; nếu độ lệch chuẩn lớn, điều đó có nghĩa là lưu lượng người dùng dao động rất lớn và chúng ta cần cân nhắc một kế hoạch hoạt động linh hoạt hơn.

3. Các tình huống sử dụng độ lệch chuẩn

1. Xác định độ tin cậy của dữ liệu

Trong quá trình phân tích dữ liệu, chúng ta thường cần đánh giá độ tin cậy của dữ liệu. Độ lệch chuẩn là một trong những chỉ số quan trọng để xác định dữ liệu có ổn định hay không. Nếu độ lệch chuẩn nhỏ, điều đó có nghĩa là dữ liệu tương đối ổn định và chúng ta có thể sử dụng dữ liệu tương đối an toàn. Nếu độ lệch chuẩn lớn, điều đó có nghĩa là dữ liệu dao động rất nhiều và chúng ta cần xem xét độ tin cậy của dữ liệu để tránh ảnh hưởng đến độ chính xác của kết quả phân tích.

2. Xác định xem dữ liệu có bất thường không

Trong quá trình phân tích dữ liệu, chúng ta cũng cần xác định xem có giá trị ngoại lệ nào trong dữ liệu hay không. Nếu giá trị của một điểm dữ liệu vượt xa giá trị của các điểm dữ liệu khác, nguyên nhân có thể là do lỗi nhập dữ liệu hoặc do chính dữ liệu đó có vấn đề. Chúng ta có thể xác định dữ liệu có bất thường hay không bằng cách tính độ lệch chuẩn. Nếu giá trị của dữ liệu vượt quá 2-3 lần độ lệch chuẩn của giá trị trung bình, chúng ta có thể coi đó là giá trị ngoại lai .

3. Tối ưu hóa sơ đồ lấy mẫu dữ liệu

Khi thực hiện phân tích dữ liệu, chúng ta thường cần lấy mẫu dữ liệu để có thể nhanh chóng rút ra kết luận. Tuy nhiên, bản thân việc lấy mẫu cũng có thể gây ra lỗi, do đó chúng ta cần tối ưu hóa phương án lấy mẫu để giảm thiểu lỗi. Độ lệch chuẩn có thể giúp chúng ta đo lường quy mô của lỗi lấy mẫu. Nếu độ lệch chuẩn nhỏ, điều đó có nghĩa là lỗi lấy mẫu nhỏ và chúng ta có thể sử dụng kích thước mẫu nhỏ hơn để có được kết luận chính xác hơn. Nếu độ lệch chuẩn lớn, điều đó có nghĩa là lỗi lấy mẫu lớn và chúng ta cần thu thập nhiều dữ liệu mẫu hơn để giảm lỗi .

IV. Phần kết luận

Độ lệch chuẩn là một chỉ số rất quan trọng trong phân tích dữ liệu. Nó có thể mô tả hình dạng phân phối dữ liệu và đo mức độ phân tán của dữ liệu. Nó có liên quan chặt chẽ đến giá trị trung bình. Trong quá trình phân tích dữ liệu, chúng ta có thể xác định tính ổn định và độ tin cậy của dữ liệu, xác định xem có giá trị ngoại lai trong dữ liệu hay không và tối ưu hóa kế hoạch lấy mẫu dữ liệu bằng cách tính độ lệch chuẩn. Vì vậy, chúng ta cần hiểu sâu sắc về khái niệm và phương pháp tính độ lệch chuẩn và vận dụng linh hoạt vào thực tế để nâng cao độ chính xác và hiệu quả phân tích dữ liệu.

Tác giả: Data Analysis Planet

Nguồn: Tài khoản công khai WeChat "Data Analysis Planet" (ID: data-xingqiu)

<<:  Ý tưởng phát triển IP của Nezha Automobile: Tầm nhìn tốt không phải là "búa" và không cần phải "siêu"

>>:  Các thương hiệu tiêu dùng mới đang nhắm mục tiêu vào các lễ hội âm nhạc của giới trẻ

Gợi ý

Các công ty lớn tiến hành nghiên cứu người dùng như thế nào?

Nhiều công ty lớn hiện nay có công nghệ và nhân t...

Kuaishou, Bilibili và Xiaohongshu đang cố gắng phát triển trong năm 618

Trong cuộc cạnh tranh khốc liệt của chương trình ...

Nokia 6300 giá bao nhiêu (Giá Nokia 6300 mới nhất)

Ngày xửa ngày xưa, chúng ta chỉ có thể nói về lịch...

Vở kịch ngắn Trái Phải 60 Ngày

Chỉ trong vòng 60 ngày, ngành công nghiệp phim ng...

Tạo ra tương lai (dẫn đầu bằng sự đổi mới)

Các trò chơi trực tuyến quy mô lớn đã thu hút được...