Dữ liệu lớn

Bách khoa toàn thư mở Wikipedia
(đổi hướng từ Dữ liệu Lớn)
Bước tới: menu, tìm kiếm
Sự tăng trưởng và số hóa các khả năng lưu trữ thông tin trên toàn cầu[1]

Dữ liệu lớn (Tiếng Anh: Big data) là một thuật ngữ cho rằng việc xử lý một tập hợp dữ liệu rất lớn và phức tạp mà các ứng dụng xử lý dữ liệu truyền thống không xử lý được. Bao gồm các thách thức phân tích, thu thập, giám sát dữ liệu, tìm kiếm, chia sẻ, lưu trữ, truyền nhận, trực quan, truy vấn và tính riêng tư. Thuật ngữ này thường chỉ đơn giản đề cập đến việc việc sử dụng các phân tích dự báo, phân tích hành vi người dùng, hoặc một số phương pháp phân tích dữ liệu tiên tiến khác trích xuất giá trị từ dữ liệu mà ít khi đề cập đến kích thước của bộ dữ liệu.[2] "Vài nghi ngờ cho rằng số lượng của dữ liệu có sẵn hiện nay thực sự lớn, nhưng đó không phải là đặc trưng phù hợp nhất của hệ sinh thái dữ liệu mới này."[3]

Phân tích tập dữ hợp liệu có thể tìm ra tương quan mới tới "xu hướng kinh doanh hiện tại, phòng bệnh tật, chống tội phạm và vân vân". Các nhà khoa học, điều hành doanh nghiệp, y bác sĩ, quảng cáo và các chính phủ cũng thường xuyên gặp những khó khăn với các tập hợp dữ liệu lớn trong các lĩnh vực bao gồm tìm kiếm internet, thông tin tài chính doanh nghiệp. Các nhà khoa học gặp giới hạn trong công việc cần tính toán rất lớn, bao gồm khí tượng học, bộ gen, mạng thần kinh, các mô phỏng vật lý phức tạp, sinh vật học và nghiên cứu môi trường.

Tập dữ liệu đang tăng rất nhanh một phần vì chúng được thu thập bởi số lượng thiết bị di động ngày càng rẻ và nhiều, anten, nhật ký phần mềm, các thiết bị thu hình, thu thanh, đầu đọc RFID, mạng cảm biến không dây. Khả năng lưu trữ thông tin của thế giới đã tăng bình quân gấp đôi sau mỗi 40 tháng từ những năm 1980; riêng năm 2012, mỗi ngày thế giới tạo ra 2.5 exabytes (2.5×1018). Một câu hỏi cho các tổ chức kinh doanh lớn là xác định ai nên sở hữu các sáng kiến dữ liệu lớn có ảnh hưởng tới toàn bộ tổ chức.

Hệ quản trị cơ sở dữ liệu quan hệ, máy bàn và các gói ảo hóa thường khó xử lý dữ liệu lớn. Công việc khổng lồ này yêu cầu được xử lý bởi hàng chục, hàng trăm, hoặc thậm chí hàng nghìn máy chủ. Người ta quan niệm dữ liệu lớn khác nhau phụ thuộc vào khả năng của người dùng và công cụ họ dùng, và khả năng mở rộng làm cho dữ liệu lớn luôn thay đổi. "Các tổ chức đối diện với hàng trăm gigabytes dữ liệu ở thời gian đầu gây ra sự cần thiết phải xem xét lại các tùy chọn quản trị dữ liệu. Mặt khác, Có thể tạo ra hàng chục hoặc hàng trăm terabytes trước khi kích thước dữ liệu trở thành một lý do quan trọng".


Định nghĩa[sửa | sửa mã nguồn]

Hình ảnh trực quan của sửa đổi trên Wikipedia hằng ngày được tạo ra bởi IBM. Với kích cỡ vài terabyte, các văn bản và hình ảnh trên Wikipedia là một ví dụ của dữ liệu lớn.

Dữ liệu lớn thường bao gồm tập hợp dữ liệu với kích thước vượt xa khả năng của các công cụ phần mềm thông thường để thu thập, hiển thị, quản lý và xử lý dữ liệu trong một thời gian có thể chấp nhận được. Kích thước dữ liệu lớn là một mục tiêu liên tục thay đổi. Như năm 2012 thì phạm vi một vài tá terabytes tới nhiều petabytes dữ liệu. Dữ liệu lớn yêu cầu một tập các kỹ thuật và công nghệ được tích hợp theo hình thức mới để khai phá từ tập dữ liệu đa dạng, phức tạp, và có quy mô lớn.

Trong báo cáo nghiên cứu năm 2001 và những diễn giả liên quan, META Group (bây giờ là Gartner) nhà phân tích Doug Laney định nghĩa những thách thức và cơ hội tăng dữ liệu như là 3 chiều, tăng giá trị dữ liệu, tốc độ vào ra của dữ liệu (velocity), và khổ giới hạn của kiểu dữ liệu (variety). Gartner, và nhiều ngành công nghiệp tiếp tục sử dụng mô hình '3Vs' để mô tả dữ liệu lớn. Trong năm 2012, Gartner đã cập nhật định nghĩa như sau: "Dữ liệu lớn là khối lượng lớn, tốc độ cao và/hoặc loại hình thông tin rất đa dạng mà yêu cầu phương thức xử lý mới để cho phép tăng cường ra quyết định, khám phá bên trong và xử lý tối ưu". Định nghĩa '3Vs' của Gartner vẫn được sử dụng rộng rãi, và trong phù hợp với định nghĩa đồng thuận.là: "Dữ liệu lớn tiêu biểu cho tập thông tin mà đặc điểm như khối lượng lớn (Volume), tốc độ cao(Velocity) và đa dạng (Variety) để yêu cầu phương thức phân tích và công nghệ riêng biệt để biến nó thành có giá trị". Thêm nữa, vài tổ chức đã thêm vào tính xác thực(Veracity) để mô tả về nó. 3Vs đã được mở rộng để bổ sung đặc tính của dữ liệu lớn.

  • Volume: Khối lượng - dữ liệu lớn không có mẫu; nó chỉ thực hiện và lần theo những gì diễn ra
  • Velocity: Tốc độ - dữ liệu lớn thường được xử lý thời gian thực
  • Variety: Đa dạng - dữ liệu lớn có thể thu thập từ văn bản, hình ảnh, âm thanh, video, cộng với nó hoàn thành các phần dữ liệu thiếu thông qua tổng hợp dữ liệu
  • Machine Learning: Máy học - dữ liệu lớn thường không hỏi tại sao và đơn giản xác định hình mẫu.
  • Digital footprint: Dấu chân kỹ thuật số - dữ liệu lớn thường là phụ sinh miễn phí của quá trình tương tác kỹ thuật số.

Đặc trưng[sửa | sửa mã nguồn]

Big Data được mô tả bởi những đặc trưng sau:

Volume (Dung lượng)

Số lượng dữ liệu được tạo ra và lưu trữ. Kích thước của dữ liệu xác định giá trị và tiềm năng insight- và liệu nó có thể thực sự được coi là dữ liệu lớn hay không.

Variety (Tính đa dạng)

Các dạng và kiểu của dữ liệu. Dữ liệu được thu thập từ nhiều nguồn khác nhau và các kiểu dữ liệu cũng có rất nhiều cấu trúc khác nhau.

Velocity (Vận tốc)

Trong trường hợp này nghĩa là tốc độ các dữ liệu được tạo ra và xử lý để đáp ứng các nhu cầu và thách thức trên con đường tăng trưởng và phát triển.

Variability (Tính biến đổi)

Không thống nhất của các bộ dữ liệu có thể cản trở quá trình xử lý và quản lý nó.

Veracity (Tính xác thực)

Chất lượng của dữ liệu thu được có thể khác nhau rất nhiều, ảnh hưởng đến sự phân tích chính xác.

Tham khảo[sửa | sửa mã nguồn]

  1. ^ “The World’s Technological Capacity to Store, Communicate, and Compute Information”. MartinHilbert.net. Truy cập ngày 13 tháng 4 năm 2016. 
  2. ^ New Horizons for a Data-Driven Economy – Springer. doi:10.1007/978-3-319-21569-3. 
  3. ^ boyd, dana; Crawford, Kate (21 tháng 9 năm 2011). “Six Provocations for Big Data”. Social Science Research Network: A Decade in Internet Time: Symposium on the Dynamics of the Internet and Society. doi:10.2139/ssrn.1926431. 

Đọc thêm[sửa | sửa mã nguồn]