Ngay cả khi bạn chưa bao giờ nghe đến thuật ngữ siêu dữ liệu, bạn chắc chắn đã quen thuộc với nó – bạn có thể sử dụng nó hàng ngày mà không hề nhận ra. Siêu dữ liệu là một trong những thứ cần thiết quản lý để ẩn trong tầm nhìn rõ ràng.
Mục lục
Siêu dữ liệu là gì?
Siêu dữ liệu nghe có vẻ là một thuật ngữ đáng sợ, nhưng không phải vậy – siêu dữ liệu chỉ là dữ liệu mô tả các dữ liệu khác.
Theo nhiều cách, siêu dữ liệu rất giống bằng lái xe hoặc một loại ID khác mà bạn quen thuộc. ID chính thức thường sẽ có ngày sinh, chiều cao, màu mắt, ảnh và các thông tin khác về bạn. Siêu dữ liệu thực hiện vai trò tương tự đối với các tệp kỹ thuật số được tìm thấy trên máy tính. Siêu dữ liệu thường sẽ mô tả thời điểm một tệp hoặc thư mục được tạo, khi nó được sửa đổi lần cuối và các thuộc tính quan trọng khác về nó.
Các loại tệp khác nhau thường sẽ có siêu dữ liệu khác nhau. Dưới đây là một số ví dụ cụ thể về siêu dữ liệu mà bạn có thể tìm thấy được đính kèm vào các tệp phổ biến.
Ví dụ về Siêu dữ liệu
Thông tin được lưu trữ dưới dạng siêu dữ liệu khác nhau đáng kể giữa các loại tệp. Như bạn có thể tưởng tượng, hình ảnh hoặc hình ảnh cần siêu dữ liệu khác với tài liệu văn bản.
Ảnh và Video
Giả sử bạn đã tham gia một chuyến đi bộ đường dài bằng cách sử dụng GPS của điện thoại để hướng dẫn bạn. Trong chuyến đi của mình, bạn đã rút điện thoại ra và chụp một bức ảnh về một loài động vật, một loại nấm kỳ lạ hoặc một khung cảnh tuyệt đẹp. Ngay sau khi bạn chụp ảnh, có thông tin đính kèm với nó: cài đặt máy ảnh, bao gồm độ dài phơi sáng , ISO , F-stop , nhà sản xuất máy ảnh, thời gian chụp ảnh và có thể là tọa độ GPS của máy ảnh khi hình ảnh được chụp.
Khi dữ liệu đó đã được lưu, nó có thể được sử dụng để sắp xếp và phân loại hình ảnh. Ứng dụng thư viện ảnh trên điện thoại của bạn là một ví dụ điển hình – bạn có thể sắp xếp hình ảnh của mình theo ngày tháng và nếu bạn đã bật tính năng gắn thẻ địa lý , kể cả vị trí. Các ứng dụng thư viện ảnh hiện đại thậm chí có thể đính kèm dữ liệu bổ sung mô tả nội dung của hình ảnh, chẳng hạn như “Thức ăn”, “Thú cưng” hoặc tên của một người cụ thể. Đó là những gì cho phép bạn tìm kiếm hình ảnh trên điện thoại của mình dựa trên nội dung của chúng. Dưới đây là một ví dụ về ảnh được chụp bằng GPS của điện thoại được bật:
Bạn có thể xem trực tiếp siêu dữ liệu của hình ảnh trên điện thoại hoặc PC của mình .
Siêu dữ liệu GPS được đính kèm trong hình ảnh chỉ chính xác như GPS trong điện thoại di động của bạn , nhưng trong hầu hết các trường hợp, siêu dữ liệu đó chính xác trong vòng vài mét.
Các tệp video sẽ có nhiều thông tin giống nhau và sau đó là một số thông tin bổ sung liên quan đến tốc độ khung hình và âm thanh được liên kết với video.
Âm thanh
Siêu dữ liệu âm thanh sẽ bao gồm những thứ thông thường, như khi tệp được tạo, nhưng nó cũng lưu thông tin cụ thể về tệp âm thanh. Siêu dữ liệu cho các tệp âm thanh thường chứa thông tin về nghệ sĩ, album, số và tên bản nhạc, cũng như thông tin về bản thân âm thanh, như tốc độ bit, độ sâu bit và tốc độ mẫu.
Tin nhắn
Tin nhắn bạn gửi cho người khác cũng có siêu dữ liệu được liên kết. Ví dụ điển hình về siêu dữ liệu được đính kèm với thư là thời gian gửi, người nhận và thông tin về bất kỳ tệp đính kèm nào mà thư có thể có. Một số ứng dụng nhắn tin cũng có thể nhúng siêu dữ liệu bổ sung vào tin nhắn của họ, chẳng hạn như thời gian nhận và phản ứng biểu tượng cảm xúc.
Phần mở rộng tệp
Một loại siêu dữ liệu đặc biệt quan trọng là phần mở rộng tệp . Phần mở rộng tệp là những thứ như PNG, TXT, DOCX, JPGs, MP3, v.v. Phần mở rộng tệp cho phép Windows biết loại dữ liệu mong đợi và cách mở tệp. Nếu không có nó, Windows sẽ không thể tự động biết cách mở nó và bạn sẽ phải yêu cầu nó mở tệp theo cách thủ công bằng một chương trình cụ thể.
Lưu ý: Không phải tất cả các hệ điều hành đều sử dụng phần mở rộng tệp để lưu trữ siêu dữ liệu định dạng tệp.
Các tập tin máy tính khác
Hầu hết các tệp đều có siêu dữ liệu khá cụ thể cho loại tệp, tuy nhiên, có một số siêu dữ liệu nhất định về cơ bản là phổ biến. Nếu bạn kiểm tra các thuộc tính của hầu hết mọi tệp trên PC của mình – không phân biệt loại tệp – bạn sẽ thấy thông tin về nơi tệp được lưu trữ, khi nó được tạo, khi nó được truy cập, khi nó được sửa đổi và khi nào tạo. Đây là một ví dụ từ Windows 10:
Siêu dữ liệu được các cá nhân sử dụng như thế nào?
Nếu bạn sử dụng bất kỳ loại máy tính hiện đại nào – kể cả điện thoại di động – thì bạn thường xuyên sử dụng siêu dữ liệu. Siêu dữ liệu là thứ cho phép bạn sắp xếp các tệp của mình theo loại. Đây là thứ cho phép bạn sắp xếp các tệp của mình theo “Ngày tạo”, “Ngày sửa đổi” hoặc “Ngày truy cập”. Hầu hết các trình phát đa phương tiện hiện đại đều cho phép bạn liệt kê nhạc của mình theo tốc độ bit hoặc sắp xếp thư viện phim của bạn thành các danh mục dựa trên độ phân giải. Các trang web thường chứa “thẻ meta”, một loại siêu dữ liệu cụ thể được tìm thấy trong tiêu đề của trang web được sử dụng để mô tả nội dung của trang web với công cụ tìm kiếm.
Bất cứ khi nào bạn phân loại tệp, thư mục hoặc trang web, bạn đang dựa vào siêu dữ liệu.
Siêu dữ liệu được sử dụng như thế nào?
Các cá nhân sử dụng siêu dữ liệu theo những cách cụ thể, nhưng còn bức tranh lớn thì sao? Mỗi việc bạn làm trên máy tính đều tạo ra dữ liệu và siêu dữ liệu. Hãy xem xét rằng có hàng chục tỷ máy tính đang được sử dụng ngày nay, bao gồm khoảng sáu đến bảy tỷ điện thoại thông minh – chúng ta cùng nhau tạo ra một lượng siêu dữ liệu không thể đo lường được mỗi ngày.
Nhắm mục tiêu Quảng cáo và Nội dung đến Những người Cụ thể
Thông tin đó không chỉ bị loại bỏ. Một lượng lớn trong số đó được đưa vào các thuật toán phức tạp và các mô hình học máy để phân tích. Điều gì xảy ra sau đó thực sự phụ thuộc vào người đã thu thập siêu dữ liệu và những gì họ muốn tìm hiểu – nó có thể được sử dụng để phân tích mọi thứ, từ hành vi của một cá nhân đến các mô hình và xu hướng lớn nhất trong xã hội.
Các trường hợp sử dụng trực tiếp nhất là quảng cáo được nhắm mục tiêu và đề xuất nội dung được cá nhân hóa. Bạn đã bao giờ thấy nguồn cấp dữ liệu mạng xã hội của mình chứa đầy các quảng cáo liên quan đến thứ gì đó mà bạn đã tìm kiếm trên điện thoại của mình chưa? Bạn đã nhấp vào điều gì đó bất thường trên YouTube chỉ để nhận thấy rằng các đề xuất của bạn thay đổi để bao gồm nhiều kết quả hơn như thứ bạn vừa nhấp vào? Đó là thuật toán đang hoạt động, xử lý dữ liệu và siêu dữ liệu được liên kết với bạn để hiển thị kết quả mà nó “nghĩ” sẽ có nhiều khả năng thu hút sự chú ý của bạn và khiến bạn nhấp vào.
Việc sử dụng siêu dữ liệu để tăng mức độ tương tác của người dùng có một số hậu quả không mong muốn. Đáng chú ý nhất, nó có xu hướng ưu tiên nội dung cực đoan về mặt cảm xúc: nó khiến bạn cảm thấy thực sự tốt hoặc thực sự tồi tệ – cả hai trường hợp thường kích thích hơn nội dung thực tế. Đó là một phần quan trọng của những gì khiến việc lướt qua trên mạng xã hội trở nên cực kỳ nghiện .
Đôi khi, nó cũng dẫn đến các quảng cáo mà mọi người thấy khá xâm phạm – không có gì giống như kiểm tra WebMD khi bạn đang cảm thấy khó chịu chỉ để thấy dòng thời gian Facebook của bạn được tải với các quảng cáo về thuốc điều trị một danh sách các bệnh lý giải thích các triệu chứng của bạn.
Lưu ý: Facebook đã hứa hạn chế một số quảng cáo liên quan đến y tế , trong số những thứ khác, và trước đó đã thêm các hạn chế bổ sung đối với quảng cáo dược phẩm . Chúng tôi sẽ xem những thay đổi này diễn ra như thế nào trong tương lai.
Tất nhiên, ngay cả khi các chính sách truyền thông xã hội thay đổi và những thứ này ngừng hiển thị trên nguồn cấp dữ liệu truyền thông xã hội của bạn, điều đó không phủ nhận thực tế là thông tin đã có sẵn và thường có sẵn cho người trả giá cao nhất. Trước đây, phần lớn dữ liệu nhạy cảm của bạn đã được bảo vệ hợp pháp – ví dụ: ở Hoa Kỳ, HIPAA bảo vệ thông tin y tế của bạn khỏi bị truyền hoặc sử dụng ngoại trừ trong những điều kiện rất cụ thể. Tuy nhiên, có rất ít biện pháp bảo vệ như vậy tồn tại đối với thông tin thu thập được từ siêu dữ liệu của bạn ở hầu hết các khu vực pháp lý, mặc dù điều đó đang thay đổi .
Siêu dữ liệu được thu thập để giám sát
Có rất nhiều cách sử dụng cho siêu dữ liệu bên cạnh nội dung chỉ quảng cáo và nhắm mục tiêu. Trong số những tranh cãi nhất là giám sát. Edward Snowden đã gây ra một cuộc tranh cãi lớn khi ông cung cấp bằng chứng cho thấy Cơ quan An ninh Quốc gia Hoa Kỳ đang thu thập siêu dữ liệu từ hàng trăm triệu tin nhắn văn bản mỗi ngày, trong số những thứ khác.
Cảnh sát có thể làm điều gì đó tương tự, mặc dù ở quy mô nhỏ hơn nhiều, bằng cách sử dụng tháp cá đuối. Tháp Stingray đóng giả tháp điện thoại di động thực để lưu lượng truy cập di động lân cận được chuyển qua chúng. Trong trường hợp này, loại dữ liệu được thu thập có thể khác nhau – bất kỳ thứ gì được truyền đi không được mã hóa có thể sẽ hoàn toàn có thể đọc được, trong khi chỉ một số siêu dữ liệu sẽ bị lộ nếu thông tin liên lạc được mã hóa.
Lưu ý: Một số ứng dụng nhắn tin (như Signal ) cố gắng giảm thiểu lượng siêu dữ liệu không được mã hóa và họ nói rằng họ cũng không lưu trữ siêu dữ liệu.
Ngay cả khi không có nội dung thực tế của thư của bạn, vẫn có nhiều thông tin có sẵn trong siêu dữ liệu để xác định bạn kết hợp với ai, khi nào bạn nói chuyện với họ và thậm chí có khả năng thu thập các chuyển động của bạn.
Siêu dữ liệu có phải là mối quan tâm về quyền riêng tư không?
Hầu hết mọi tệp kỹ thuật số ngoài kia sẽ có một số siêu dữ liệu được liên kết với nó – đôi khi bản thân tệp chứa siêu dữ liệu, những lần khác, siêu dữ liệu được lưu trữ riêng bởi hệ điều hành. Phần lớn video và hình ảnh được tải lên Internet giờ đây đã tự động xóa siêu dữ liệu – tất cả các trang web truyền thông xã hội lớn và hầu hết các nền tảng lưu trữ hình ảnh đều xóa siêu dữ liệu và hầu hết các ứng dụng trò chuyện hiện đại, bao gồm Slack, Discord, WhatsApp, Facebook Messenger, Signal, và Telegram.
Cảnh báo: Tải ảnh của bạn lên dịch vụ lưu trữ đám mây sẽ không xóa siêu dữ liệu, vì vậy hãy cẩn thận khi chia sẻ ảnh theo cách đó. Gửi hình ảnh qua email cũng sẽ không loại bỏ siêu dữ liệu.
Quan trọng hơn, mọi thứ bạn làm đều tạo ra siêu dữ liệu. Siêu dữ liệu được tạo bất kỳ lúc nào bạn truyền hoặc nhận dữ liệu qua mạng di động hoặc trên internet. Dữ liệu này được thu thập bởi các chính phủ và các công ty tư nhân và có thể được sử dụng để phân tích hành vi của các cá nhân hoặc nhóm.
Xem xét mức độ phổ biến của siêu dữ liệu – và mức độ tiết lộ của nó – rõ ràng đó là một mối quan tâm về quyền riêng tư.
Hầu hết các thiết bị thông minh đều thu thập thông tin sử dụng và Internet of Things (IoT) chỉ sẵn sàng mở rộng lượng dữ liệu và siêu dữ liệu được thu thập. Siêu dữ liệu của bạn thường có thể tiết lộ như dữ liệu của bạn. Thực hiện các bước bạn có thể để bảo vệ quyền riêng tư của mình và thận trọng khi tải thông tin lên internet.