Tích hợp dữ liệu

Tích hợp dữ liệu liên quan đến việc kết hợp dữ liệu cư trú trong các nguồn khác nhau và cung cấp cho người dùng một cái nhìn thống nhất về chúng. Quá trình này trở nên quan trọng trong nhiều tình huống, bao gồm cả thương mại (chẳng hạn như khi hai công ty tương tự cần hợp nhất cơ sở dữ liệu của họ) và khoa học (ví dụ kết hợp nghiên cứu từ các kho lưu trữ tin sinh học khác nhau). Tích hợp dữ liệu xuất hiện với tần suất tăng dần khi dung lượng (nghĩa là dữ liệu lớn) và nhu cầu chia sẻ dữ liệu hiện có đang bùng nổ.^[1] Tích hợp dữ liệu đã trở thành trọng tâm của công việc lý thuyết sâu rộng, và nhiều vấn đề mở hiện tại vẫn còn chưa được giải quyết. Tích hợp dữ liệu khuyến khích sự hợp tác giữa người dùng nội bộ cũng như người dùng bên ngoài.

Lịch sử[sửa | sửa mã nguồn]

Hình^{[liên kết hỏng]} 1: Sơ đồ đơn giản cho một kho dữ liệu. Quá trình trích xuất, chuyển đổi, tải (ETL) trích xuất thông tin từ cơ sở dữ liệu nguồn, biến đổi nó và sau đó tải nó vào kho dữ liệu.

Hình^{[liên kết hỏng]} 2: Sơ đồ đơn giản cho một giải pháp tích hợp dữ liệu. Một nhà thiết kế hệ thống xây dựng một lược đồ trung gian mà người dùng có thể chạy truy vấn. Các giao diện cơ sở dữ liệu ảo với cơ sở dữ liệu nguồn thông qua mã trình bao bọc nếu được yêu cầu.

Các vấn đề với việc kết hợp các nguồn dữ liệu không đồng nhất, thường được gọi là silo thông tin, trong một giao diện truy vấn duy nhất đã tồn tại một thời gian. Đầu những năm 1980, các nhà khoa học máy tính bắt đầu thiết kế các hệ thống cho khả năng tương tác của các cơ sở dữ liệu không đồng nhất.^[2] Hệ thống tích hợp dữ liệu đầu tiên được điều khiển bởi siêu dữ liệu có cấu trúc được thiết kế tại Đại học Minnesota vào năm 1991, dành cho Sê-ri Microdata sử dụng công cộng tích hợp (Integrated Public Use Microdata Series, viết tắt IPUMS). IPUMS đã sử dụng phương pháp lưu trữ dữ liệu, trích xuất, chuyển đổi và tải dữ liệu từ các nguồn không đồng nhất vào một lược đồ xem đơn để dữ liệu từ các nguồn khác nhau trở nên tương thích.^[3] Bằng cách làm cho hàng ngàn cơ sở dữ liệu dân số có thể tương tác, IPUMS đã chứng minh tính khả thi của tích hợp dữ liệu quy mô lớn. Cách tiếp cận kho dữ liệu cung cấp một kiến trúc được kết hợp chặt chẽ vì dữ liệu đã được đối chiếu vật lý trong một kho lưu trữ truy vấn duy nhất, do đó thường mất ít thời gian để giải quyết các truy vấn.^[4]

Cách tiếp cận kho dữ liệu ít khả thi hơn đối với các tập dữ liệu thường xuyên được cập nhật, yêu cầu quá trình trích xuất, chuyển đổi, tải (ETL) phải được thực hiện lại liên tục để đồng bộ hóa. Khó khăn cũng phát sinh trong việc xây dựng kho dữ liệu khi người ta chỉ có giao diện truy vấn để tóm tắt các nguồn dữ liệu và không có quyền truy cập vào dữ liệu đầy đủ. Vấn đề này thường xuất hiện khi tích hợp một số dịch vụ truy vấn thương mại như du lịch hoặc các ứng dụng web quảng cáo được phân loại.

Tính đến năm 2009^{[cập nhật]} xu hướng tích hợp dữ liệu ủng hộ nới lỏng sự ghép nối giữa dữ liệu và cung cấp giao diện truy vấn thống nhất để truy cập dữ liệu thời gian thực qua lược đồ trung gian (xem Hình 2), cho phép lấy thông tin trực tiếp từ cơ sở dữ liệu gốc. Điều này phù hợp với cách tiếp cận phổ biến trong thời đại đó. Cách tiếp cận này dựa trên ánh xạ giữa lược đồ trung gian và lược đồ của các nguồn ban đầu và chuyển đổi một truy vấn thành các truy vấn chuyên biệt để khớp với lược đồ của cơ sở dữ liệu gốc. Ánh xạ như vậy có thể được chỉ định theo hai cách: như ánh xạ từ các thực thể trong lược đồ trung gian sang các thực thể trong các nguồn ban đầu (cách tiếp cận "Toàn cầu theo quan điểm" (GAV)) hoặc như ánh xạ từ các thực thể trong nguồn ban đầu sang trung gian lược đồ (cách tiếp cận "Local As View" (LAV)). Cách tiếp cận thứ hai đòi hỏi các suy luận phức tạp hơn để giải quyết một truy vấn trên lược đồ trung gian, nhưng giúp dễ dàng thêm các nguồn dữ liệu mới vào một lược đồ trung gian (ổn định).

Tham khảo[sửa | sửa mã nguồn]

^ Frederick Lane (2006). “IDC: World Created 161 Billion Gigs of Data in 2006”.
^ John Miles Smith; và đồng nghiệp (1982). “Multibase: integrating heterogeneous distributed database systems”. AFIPS '81 Proceedings of the May 4–7, 1981, National Computer Conference. tr. 487–499.
^ Steven Ruggles, J. David Hacker, and Matthew Sobek (1995). “Order out of Chaos: The Integrated Public Use Microdata Series”. Historical Methods. 28. tr. 33–39.Quản lý CS1: nhiều tên: danh sách tác giả (liên kết)
^ Jennifer Widom (1995). “Research problems in data warehousing”. CIKM '95 Proceedings of the Fourth International Conference on Information and Knowledge Management. tr. 25–30.

[DataExplode-1] Frederick Lane (2006). “IDC: World Created 161 Billion Gigs of Data in 2006”.

[2] John Miles Smith; và đồng nghiệp (1982). “Multibase: integrating heterogeneous distributed database systems”. AFIPS '81 Proceedings of the May 4–7, 1981, National Computer Conference. tr. 487–499.

[3] Steven Ruggles, J. David Hacker, and Matthew Sobek (1995). “Order out of Chaos: The Integrated Public Use Microdata Series”. Historical Methods. 28. tr. 33–39.Quản lý CS1: nhiều tên: danh sách tác giả (liên kết)

[4] Jennifer Widom (1995). “Research problems in data warehousing”. CIKM '95 Proceedings of the Fourth International Conference on Information and Knowledge Management. tr. 25–30.

[1]

[2]

[3]

[4]