Dữ liệu tối – Dark data – là gì?
Theo Gartner, dữ liệu tối đề cập đến tài sản thông tin mà các tổ chức thu thập, xử lý và lưu trữ trong các hoạt động kinh doanh thông thường nhưng thường không sử dụng được cho các mục đích khác, chẳng hạn như phân tích, quan hệ kinh doanh và kiếm tiền trực tiếp.
Hầu hết các công ty ngày nay đều lưu trữ một lượng lớn dữ liệu tối. Trong cuộc khảo sát nghiên cứu toàn cầu của Splunk với hơn 1.300 người ra quyết định về CNTT và kinh doanh, 60% số người được hỏi cho biết rằng một nửa hoặc nhiều dữ liệu của tổ chức của họ được coi là tối tăm. Toàn bộ 1/3 số người được hỏi cho biết số tiền này là từ 75% trở lên.
Dữ liệu tối tích lũy vì các tổ chức đã chấp nhận ý tưởng rằng việc lưu trữ tất cả thông tin mà họ có thể thu thập được trong các hồ dữ liệu lớn là rất có giá trị. Điều này một phần là do sự ra đời của phương pháp lưu trữ rẻ tiền, khiến việc lưu trữ nhiều dữ liệu như vậy trở nên dễ dàng – trong trường hợp một ngày nào đó nó trở nên có giá trị.
Cuối cùng, hầu hết các công ty không bao giờ sử dụng dù chỉ một phần nhỏ những gì họ lưu trữ vì kho lưu trữ không ghi lại nhãn siêu dữ liệu một cách thích hợp, một số dữ liệu ở định dạng mà các công cụ tích hợp không thể đọc được hoặc dữ liệu không thể truy xuất được thông qua truy vấn.
Dữ liệu tối là yếu tố hạn chế chính trong việc tạo ra phân tích dữ liệu tốt vì chất lượng của bất kỳ phân tích dữ liệu nào đều phụ thuộc vào lượng thông tin có thể truy cập được bằng các công cụ phân tích, cả kịp thời và đầy đủ chi tiết.
Các vấn đề khác với dữ liệu tối là nó tạo ra trách nhiệm pháp lý, chi phí lưu trữ đáng kể và bỏ lỡ cơ hội do các nhóm không nhận ra dữ liệu nào có thể có sẵn cho họ.
Tại sao dữ liệu bị tối
Có nhiều nguyên nhân khiến dữ liệu của tổ chức bị tối, bao gồm:
- Thiếu nhận thức: Dữ liệu thu được trong quá trình hoạt động kinh doanh thông thường thường bị tối tăm do các tổ chức không biết đến sự tồn tại của dữ liệu đó hoặc không hiểu giá trị hoặc mức độ liên quan của dữ liệu đó.
- Dữ liệu bị kẹt trong các bộ phận riêng biệt: Khi các bộ phận khác nhau trong tổ chức thu thập và lưu trữ dữ liệu một cách độc lập, điều đó có thể dẫn đến sự phân mảnh và cô lập dữ liệu. Các kho dữ liệu này có thể không thể truy cập hoặc hiển thị đối với các nhóm khác, những người có khả năng nhận thấy dữ liệu khá có giá trị.
- Thiếu quản trị dữ liệu: Nếu không có khuôn khổ quản trị dữ liệu mạnh mẽ, các tổ chức có thể gặp khó khăn trong việc quản lý và theo dõi dữ liệu trên hệ sinh thái của họ một cách hiệu quả. Điều này khiến dữ liệu trở nên vô tổ chức, bị mất và không thể sử dụng được.
- Hệ thống cũ: Khi các tổ chức nâng cấp phần mềm và phần cứng, các hệ thống cũ hơn có thể ngừng hoạt động hoặc trở nên ít phù hợp hơn. Dữ liệu được lưu trữ trong các hệ thống cũ này sẽ không còn hoạt động nếu không thể tích hợp với các công cụ phân tích hiện đại của tổ chức.
- Tích hợp dữ liệu chưa hoàn chỉnh: Quy trình tích hợp dữ liệu không đầy đủ hoặc không hiệu quả tích hợp dữ liệu có thể dẫn đến thiếu sót và không nhất quán về dữ liệu. Điều này có thể khiến một số tập dữ liệu nhất định không thể truy cập được hoặc không được liên kết đúng cách với các nguồn dữ liệu khác.
- Thay đổi mức độ ưu tiên kinh doanh: Khi các ưu tiên kinh doanh phát triển, một số tập dữ liệu nhất định có thể trở nên kém liên quan hơn hoặc không tập trung. Dữ liệu từng được sử dụng tích cực có thể bị ẩn đi khi mục tiêu của tổ chức thay đổi.
- Nguồn lực và trình độ hiểu biết hạn chế: Các tổ chức có nguồn lực hạn chế có thể ưu tiên thu thập và lưu trữ dữ liệu hơn là phân tích dữ liệu. Ngoài ra, việc nhân viên không hiểu rõ về dữ liệu có thể cản trở việc khám phá và sử dụng dữ liệu có giá trị.
- Vấn đề về chất lượng dữ liệu: Chất lượng dữ liệu kém , chẳng hạn như dữ liệu không chính xác hoặc không đầy đủ, có thể dẫn đến dữ liệu bị giảm giá hoặc bị bỏ qua. Dữ liệu được cho là không đáng tin cậy sẽ ít có khả năng được sử dụng hơn, khiến dữ liệu trở nên tối tăm.
- Mục đích tuân thủ quy định: Nhiều tiêu chuẩn quản lý và tuân thủ buộc các tổ chức phải tuân theo các quy định nghiêm ngặt về thời gian họ phải lưu trữ dữ liệu nhạy cảm. Cuối cùng, họ thường lưu trữ dữ liệu đó rất lâu sau khoảng thời gian bắt buộc vì không theo dõi được dữ liệu nhạy cảm nào sẽ bị hủy.
- Dữ liệu dư thừa, lỗi thời, tầm thường (ROT): ROT được tạo khi nhân viên lưu nhiều bản sao của cùng một thông tin, thông tin lỗi thời và thông tin không liên quan không giúp tổ chức đáp ứng yêu cầu của tổ chức. mục tiêu.
Các loại dữ liệu tối
Xét về khả năng phát hiện các sáng kiến phân tích dữ liệu đầy đủ và kịp thời, dữ liệu tối có thể là dữ liệu có cấu trúc, dữ liệu phi cấu trúc hoặc dữ liệu bán cấu trúc.
Dữ liệu có cấu trúc là thông tin được thêm vào các trường cơ sở dữ liệu hoặc bảng tính được xác định rõ ràng trước khi được lưu trữ.
Tệp nhật ký máy chủ, Internet of Things (IoT) dữ liệu cảm biến, quản lý quan hệ khách hàng (CRM ) cơ sở dữ liệu và hệ thống hoạch định nguồn lực doanh nghiệp (ERP) là ví dụ về dữ liệu tối được tạo từ nguồn dữ liệu có cấu trúc.
Mặc dù hầu hết các dạng dữ liệu nhạy cảm, như báo cáo ngân hàng điện tử, hồ sơ y tế và dữ liệu khách hàng được mã hóa thường ở dạng có cấu trúc nhưng rất khó xem và phân loại do các vấn đề về quyền.
Không giống như dữ liệu có cấu trúc, dữ liệu phi cấu trúc bao gồm thông tin không thể được sắp xếp trong cơ sở dữ liệu hoặc bảng tính để phân tích mà không cần chuyển đổi, mã hóa, phân tầng và cấu trúc.
Thư từ qua email, tệp PDF, tài liệu văn bản, bài đăng trên mạng xã hội, bản ghi trung tâm cuộc gọi, nhật ký trò chuyện và đoạn video giám sát là những ví dụ về dữ liệu tối được tạo từ các nguồn dữ liệu phi cấu trúc.
Dữ liệu bán cấu trúc là dữ liệu phi cấu trúc chứa một số thông tin trong các trường dữ liệu được xác định. Mặc dù không dễ dàng phát hiện dữ liệu tối như dữ liệu có cấu trúc nhưng nó có thể được tìm kiếm hoặc lập danh mục.
Ví dụ bao gồm mã HTML, hóa đơn, đồ thị, bảng và tài liệu XML.
Chi phí của dữ liệu tối
Chi phí lưu trữ dữ liệu tối có thể rất lớn và vượt xa chi phí tài chính trực tiếp của việc lưu trữ dữ liệu tối. Chi phí trực tiếp và gián tiếp bao gồm:
Chi phí lưu trữ dữ liệu
Việc lưu trữ dữ liệu, ngay cả khi dữ liệu đó không được sử dụng tích cực, cần có cơ sở hạ tầng lưu trữ vật lý hoặc kỹ thuật số. Điều này có thể bao gồm máy chủ, trung tâm dữ liệu, giải pháp lưu trữ đám mây và hệ thống sao lưu. Càng có nhiều dữ liệu trong hệ sinh thái của bạn thì bạn càng cần nhiều dung lượng lưu trữ dữ liệu, điều này dẫn đến chi phí cơ sở hạ tầng tăng lên.
Chi phí trách nhiệm
Các chính phủ đã ban hành một loạt luật về quyền riêng tư toàn cầu trong nhiều năm qua, áp dụng cho tất cả dữ liệu—ngay cả những dữ liệu không được sử dụng trong kho phân tích.Chi phí cơ hội
Nhiều công ty đánh mất cơ hội khi không sử dụng dữ liệu này. Mặc dù việc loại bỏ dữ liệu tối thực sự không thể sử dụng được là điều tốt—do rủi ro và chi phí—nhưng trước tiên bạn nên phân tích dữ liệu nào có sẵn để xác định dữ liệu nào có thể sử dụng được.
Chi phí kém hiệu quả
Việc quản lý khối lượng lớn dữ liệu, bao gồm cả dữ liệu tối, có thể làm chậm quá trình truy xuất và phân tích dữ liệu. Nhân viên có thể mất nhiều thời gian hơn để tìm kiếm thông tin liên quan, dẫn đến giảm năng suất và tăng chi phí lao động.
Chi phí rủi ro
Dữ liệu tối có thể gây ra rủi ro do thiếu an ninh mạng, vi phạm dữ liệu, vi phạm tuân thủ và mất dữ liệu. Những rủi ro này có thể dẫn đến thiệt hại về danh tiếng và hậu quả tài chính.
Vấn đề về chất lượng dữ liệu và dữ liệu tối
Đôi khi dữ liệu tối được tạo do vấn đề về chất lượng dữ liệu.
Ví dụ: bản ghi âm từ bản ghi âm được tạo tự động nhưng AI đã tạo bản ghi đó mắc một số lỗi trong bản ghi âm. Tuy nhiên, ai đó vẫn giữ bản ghi và nghĩ rằng họ sẽ giải quyết nó vào một lúc nào đó, điều mà họ không bao giờ làm.
Khi các tổ chức cố gắng làm sạch dữ liệu kém chất lượng, đôi khi họ bỏ sót nguyên nhân gây ra sự cố. Nếu không có sự hiểu biết đúng đắn thì không thể đảm bảo rằng vấn đề về chất lượng dữ liệu sẽ không tiếp tục xảy ra trong tương lai.
Sau đó, tình huống này trở nên mang tính chu kỳ, vì thay vì chỉ áp dụng các chính sách xóa đối với dữ liệu đen tồn tại mà không bao giờ được sử dụng, các tổ chức lại để dữ liệu đó tiếp tục tồn tại và góp phần khiến vấn đề về chất lượng dữ liệu ngày càng gia tăng.
May mắn thay, có ba bước quản lý chất lượng dữ liệu mà các tổ chức có thể thực hiện để giúp giảm bớt vấn đề này:
- Phân tích và xác định tình huống “nguyên trạng”: Để ưu tiên các vấn đề, trước tiên hãy xác định tất cả các vấn đề hiện tại, tiêu chuẩn dữ liệu hiện có và tác động kinh doanh.
- Ngăn dữ liệu xấu tái diễn: Tiếp theo, đánh giá nguyên nhân gốc rễ của từng vấn đề và áp dụng các nguồn lực để giải quyết vấn đề một cách bền vững để sự cố đó không xảy ra lần nữa.
- Thường xuyên trao đổi trong suốt quá trình: Chia sẻ những gì đang xảy ra, những gì nhóm đang làm, tác động của công việc đó và cách những nỗ lực đó kết nối với mục tiêu kinh doanh.
Cách chiếu sáng dữ liệu tối
Đối với tất cả các vấn đề về chi phí và chất lượng dữ liệu của dữ liệu tối, đều có những mặt tích cực. Như Splunk đã nói, “dữ liệu tối có thể là một trong những tài nguyên lớn nhất chưa được khai thác của tổ chức”.
Bằng cách áp dụng phương pháp tiếp cận chủ động để quản lý dữ liệu tối, các tổ chức có thể làm sáng tỏ dữ liệu tối. Điều này không chỉ giảm trách nhiệm pháp lý và chi phí mà còn cung cấp cho các nhóm tài nguyên cần thiết để khám phá thông tin chuyên sâu từ dữ liệu ẩn.
Khi nói đến việc xử lý dữ liệu tối và có khả năng sử dụng nó để đưa ra quyết định dựa trên dữ liệu tốt hơn, có một số phương pháp hay nhất cần tuân theo:
Phá vỡ silo
Dữ liệu tối thường xuất hiện do các rào cản bên trong tổ chức. Một nhóm tạo ra dữ liệu có thể hữu ích cho nhóm khác nhưng nhóm kia không biết về dữ liệu đó. Việc phá vỡ các silo đó sẽ giúp dữ liệu đó có sẵn cho nhóm cần nó. Nó đi từ việc ngồi yên đến việc cung cấp giá trị to lớn.
Cải thiện quản lý dữ liệu
Điều quan trọng là phải hiểu dữ liệu nào tồn tại trong tổ chức. Nỗ lực này bắt đầu bằng cách phân loại tất cả dữ liệu trong tổ chức để có được cái nhìn đầy đủ và chính xác. Từ đó, các nhóm có thể bắt đầu sắp xếp dữ liệu của mình tốt hơn với mục tiêu giúp các cá nhân trong nhóm dễ dàng tìm thấy và sử dụng những gì họ cần.
Đặt chính sách quản trị dữ liệu
Việc giới thiệu chính sách quản trị dữ liệu có thể giúp cải thiện thách thức này về lâu dài. Chính sách này phải đề cập đến cách tất cả dữ liệu đến được xem xét và đưa ra hướng dẫn rõ ràng về những gì cần được giữ lại (và được sắp xếp để duy trì việc quản lý dữ liệu rõ ràng), được lưu trữ hoặc tiêu hủy. Một phần quan trọng của chính sách này là nghiêm ngặt về dữ liệu nào sẽ bị hủy và khi nào. Việc thực thi quản trị dữ liệu và thường xuyên xem xét các biện pháp thực hành có thể giúp giảm thiểu lượng dữ liệu tối sẽ không bao giờ được sử dụng.
Sử dụng các công cụ ML và AI để phân tích dữ liệu
Để giúp khám phá dữ liệu tối, học máy (ML) và trí tuệ nhân tạo (AI) có thể thực hiện công việc nặng nhọc trong việc phân loại dữ liệu tối bằng cách thực hiện phân tích trên dữ liệu có thể chứa những hiểu biết sâu sắc có giá trị. Ngoài ra, tự động hóa ML có thể trợ giúp các quy định tuân thủ quyền riêng tư dữ liệu bằng cách tự động loại bỏ thông tin nhạy cảm khỏi dữ liệu được lưu trữ.