What to do when you find an issue with your data?



1. Đặt vấn đề
Trong quá trình làm việc với vai trò Data Analytics, không ít vấn đề xảy ra với tập dữ liệu khi bạn bắt đầu tiến hành vào bước Analyze. Có thể là không có dữ liệu bạn cần, hoặc bạn không có đầy đủ dữ liệu.
Trong một số trường hợp, sử dụng Proxy data thay thế cho dữ liệu thực tế. Kiểu như thay thế dầu cho bơ trong công thức nấu ăn khi tủ lạnh của bạn hết bơ mất rồi ^^. Trong các trường hợp khác, không có sự thay thế hợp lý thì lựa chọn duy nhất của bạn là phải thu thập thêm dữ liệu.

2. Điều gì làm dữ liệu không đủ?
  • Dữ liệu chỉ đến từ một nguồn duy nhất
  • Cập nhật liên tục và không đầy đủ
  • Đã lỗi thời
  • Bị giới hạn về mặt địa lý
3. Các giải pháp khả thi

Để đối phó với tình trạng không đủ dữ liệu bạn có thể:
  • Xác định xu hướng trong dữ liệu có sẵn
  • Chờ thêm dữ liệu nếu thời gian cho phép
  • Thảo luận với các bên liên quan và điều chỉnh mục tiêu phân tích
  • Tìm kiếm tập dữ liệu mới
Dưới đây mình sẽ nêu 1 số vấn đề và kèm theo là một số phương pháp khả thi mình đã tổng hợp được.

4. Kết luận

Và để nhận biết data errors hay not enough data thì có 1 phương pháp đó là dùng cây quyết định (Decision tree), dùng các câu hỏi yes/no để xác định nguồn gốc của vấn đề (phương pháp Problem ID mình sẽ đề cập vào một bài viết khác)


Hi vọng những tips trên có thể giúp những bạn mới tiếp cận tìm hiểu Data Analytics có thể áp dụng trong quá trình phân tích dữ liệu của mình.

See you soon!

Keywords

  • Data insufficient
  • Data integrity
  • Proxy data
  • Problem ID

View at Medium

Comments

Popular Posts