Web chìm

Bách khoa toàn thư mở Wikipedia
Bước tới: menu, tìm kiếm

Web chìm hay còn gọi là mạng chìm, Deep Web,Web ẩn, Invisible web, Undernet', hay hidden web là từ dùng để chỉ các trang hoặc nội dung trên thế giới mạng World Wide Web không thuộc về Web nổi hay Surface Web, những trang được đánh dấu, chỉ mục (index) bởi các công cụ tìm kiếm thông thường. Không nên lẫn lộn với mạng đen (dark Internet), các máy tính không truy cập được từ Internet, hay mạng chia sẽ file Darknet, có thể xem là một phần nhỏ của Web chìm.

Mike Bergman, nhà sáng lập của BrightPlanet và là cha để của thuật ngữ trên, nói rằng: việc tìm kiếm trên Internet ngày nay có thể so sánh với việc kéo một tấm lưới trên bề mặt đại dương: một phần lớn có thể thu được ở trên tấm lưới, nhưng các thông tin giá trị thì chìm ở dưới đáy và do đó bị bỏ lỡ, hầu hết các thông tin trên mạng bị chôn sâu dưới đáy, nơi các kết từ các trang tìm kiếm không thể liệt kê ra, nơi các cỗ máy tìm kiếm không thể với tới. Các cỗ máy tìm kiếm truyền thống không thể nhìn thấy hoặc truy vấn thông tin trong web chìm-những trang này không tồn tại cho đến khi chúng được các cỗ máy này tạo liên kết động trong kết quả tìm kiếm cụ thể nào đó. Năm 2011, lượng thông tin trên web chìm đã vượt hơn hẳn web nổi.

Qui mô[sửa | sửa mã nguồn]

Trong một nghiên cứu tại đại học California, Berkeley năm 2011, dựa trên ước lượng ngoại suy, dung lượng dữ liệu trên web chìm khoảng 7500 terabyte. Cụ thể gồm khoảng 300 000 trang web chìm trong năm 2004, và, theo Shestakov, khoảng 14 000 trang web chìm có xuất xứ từ Nga vào năm 2006.

Tên gọi[sửa | sửa mã nguồn]

Trong một bài báo chuyên đề về web chìm trên tạp chí Electronic Publishing, Bergman đã nhắc đến việc Jill Ellsworth đã sử dụng thuật ngữ invisible Web vào năm 1994 để ám chỉ các website không đăng ký với bất kỳ search engine nào cả. Bergman đã trích dẫn một bài viết vào tháng Một năm 1996 bởi article by Frank Garcia Một trang web được thiết kế hợp lý, nhưng người lập ra trang web đó đã không để ý tới việc đăng ký nó với bất kỳ search engine nào. Vì vậy, không ai tìm thấy nó và nó được ẩn. Tôi gọi đó là web ẩn (invisible Web). Thuật ngữ Invisible Web trước đó đã được Bruce Mount và Matthew B. Koll tại Personal Library Software, trong một miêu tả về các công cụ deep Web @1 được tìm thấy trong một ấn phẩm vào tháng 12/1996. Việc sử dụng lần đầu thuật ngữ Deep Web, hiện nay đã được mọi người công nhận, đó là vào năm 2001 trong một nghiên cứu của Bergman.

Tài nguyên[sửa | sửa mã nguồn]

Tài nguyên trên web chìm được phân loại theo một hoặc nhiều loại có trong danh mục sau :

  • Nội dung web động: các trang web động trả về kết quả theo một truy vấn hoặc xử lý theo dạng form, đặc biệt nếu sử dụng các thành phần nhập tên miền mở (như text field); các miền này rất khó xử lý nếu không có kiến thức về tên miền.
  • Các nội dung không được tạo liên kết hyperlink: các trang không liên kết với các trang khác, sẽ ngăn cản các chương trình dò (crawling program) truy cập vào nội dung của nó. Các trang này được truy cập trực tiếp trên thanh địa chỉ trình duyệt, vì không có các đường dẫn từ/trong bất kỳ trang web nào khác.
  • Các trang web phải xác thực truy cập: các trang yêu cầu phải đang ký và đăng nhập mới vào xem thông tin được (các tài nguyên được password bảo vệ).
  • Các trang web có nội dung thay đổi theo ngữ cảnh: các trang web này hiển thị nội dung thay đổi tùy thuộc vào một số điều kiện tác động, ví dụ như người dùng từ các dải IP của châu Á truy cập vào thì sẽ được xem nội dung phù hợp cho khu vực châu Á.
  • Các nội dung web bị giới hạn truy cập: một số trang web giới hạn việc truy cập tới các nội dung của nó bằng một số phương pháp kỹ thuật như file Robots.txt, CAPTCHAs hoặc tham số HTTP headers để ngăn cấm các máy tìm kiếm truy cập nội dung cua nó, cũng như tạo phiên bản cache nội dụng.)
  • Nội dung sinh từ script hoặc Flash, Ajax: một số trang web chỉ có thể truy cập thông qua một liên kết được sinh ra bởi một đoạn mã JavaScript ( mà hva là một ví dụ trực tiếp ), hoặc nội dung được nhúng bên trong Flash hoặc chỉ có thể được tải về thông qua Ajax.
  • Các nội dung không theo kiểu HTML/text: Các nội dung dạng text được mã hóa trong các file đa phương tiện (hình ảnh hoặc video) hoặc các định dạng file đặc biệt mà các cỗ máy tìm kiếm không thể xử lý được.
  • Nội dung văn bản chỉ có thể truy cập thông qua giao thức Gopher hoặc các file được lưu trữ trên các máy chủ FTP thì không được lập chỉ mục bởi hầu hết các máy tìm kiếm hiện nay: các máy tìm kiếm thông dụng như Google mặc nhiên không lập chỉ mục cho các trang không dùng giao thức HTTP hoặc HTTPS.

Truy cập[sửa | sửa mã nguồn]

Để khám phá nội dung trên các trang web, các search engine sử dụng các máy dò crawler để lần theo các hyperlink thông qua các số đã biết của cổng giao thức ảo. Kỹ thuật này lý tưởng để khám phá các nguồn tài nguyên trên web nổi, nhưng không có tác dụng mấy đối với web chìm. Ví dụ, những máy dò này không thử tìm các trang liên kết động mà kết quả truy vấn database dựa trên số vô định các truy vấn có thể xảy ra. Chú ý là điều này có thể (một phần) được vượt qua bởi cách cung cấp các đường dẫn tơiis các kết quả truy vấn, nhưng điều này lại vô tình làm thôi phồng sự nổi tiếng cho một trang deep web. Vào 2005, Yahoo! thực hiện một dịch vụ tìm kiếm một phần nhỏ của web chìm bằng cách ra mắt Yahoo! Subscriptions. Search engine này tìm kiếm trong vài trang web mà phải đăng ký thành viên mới vào xem nội dung được. Vài trang này hiển thị đầy đủ nội dung cho search engine robot do đó chúng sẽ hiển thị trên kết quả tìm kiếm của người dùng, nhưng sau đó hiển thị lên một trang đăng nhập (log in) hoặc trang đăng ký khi click vào một đường dẫn từ trang kết quả tìm kiếm từ trang đó. DeepPeep, Intute, Deep Web Technologies, và Scirus là một vài search engine có khả năng truy cứu vào các trang deep web. Intute đã hết kinh phí vận hành và chỉ lưu trữ tạm thời ngoại tuyến vào tháng 7 năm 2011.

Dò tìm web chìm[sửa | sửa mã nguồn]

Các nhà nghiên cứu đã khám phá ra cách thức dò tìm web chìm một cách tự động. Năm 2011, Sriram Raghavan và Hector Garcia-Molina giới thiệu mô hình kiến trúc cho một máy dò web ẩn, sử dụng các từ khóa cung cấp bởi người dùng hoặc thu thập từ các giao diện truy vấn để truy vấn tới các trang và tài nguyên web chìm. Alexandros Ntoulas, Petros Zerfos, và Junghoo Cho ở UCLA đã tạo ra một máy dò hidden-Web cho phép tự động tạo ra các truy vấn có ý nghĩa một cách tự động tới các form nhập dữ liệu tìm kiếm. (ví dụ: DEQUEL: ngoài nhập lệnh truy vấn, nó còn chiết xuất dữ liệu có cấu trúc từ các trang kết quả. Một máy dò khác là DeepPeep, một dự án khác của đại học Utah được tài trợ bởi tổ chức National Science Foundation, cho phép tập hợp các nguồn hidden-Web (dạng Web) trong các tên miền khác nhau dựa vào các kỹ thuật dò tìm dựa trên ngữ cảnh. Các search engine thương mại đã bắt đầu tạo ra các phương pháp khác nhau để dò tìm web chìm. Sitemap Protocol (được phát triển đầu tiên bởi Google) và mod oai là các cơ chế cho phép các bên liên quan có thể khám phá các nguồn tài nguyên deep web trên các server (trang chủ) đặc thù. Cả hai cơ chế trên đều cho phép các web server quảng cáo các đường dẫn (URL) được truy cập tới chúng, bằng cách đó nó cho phép tự động khám phá các nguồn tài nguyên không liên kết trực tiếp tới web nổi. Hệ thống duyệt web chìm của Google tính toán trước các tác vụ nhỏ cho mỗi form HTML và đưa vào trang HTML kết quả tìm kiếm vào chỉ mục tìm kiếm của Google. Kết quả hiển thị của các trang web chìm chiếm một ngàn truy vấn trong một giây. Trong hệ thống này, các tính toán trước được thực hiện theo 3 phương thức sau:

1. Chọn các giá trị đầu vào để tìm kiếm các thông tin dạng ký tự (text search) thông qua các từ khóa (keyword),
2. Xác định các yếu tố đầu vào mà chấp nhận chỉ các kiểu dữ liệu xác định nào đó (ví dụ như ngày, tháng...), 
3. Chọn một số nhỏ các liên kết đầu vào để tạo ra các URL thích hợp để đưa vào chỉ mục-tìm kiếm-web.

Phân loại tài nguyên[sửa | sửa mã nguồn]

Để tự động xác định một tài nguyên web có phải thuộc dạng web nổi hay web chìm hay không là một việc khó. Một tài nguyên được đánh dấu bởi một serch engine, thì không nhất thiết nó thuộc loại web nổi, bởi vì các tài nguyên trên mạng có thể được tìm thấy bằng nhiều phương pháp khác nhau (như Sitemap Protocol, mod oai, OAIster) thay vì các phương pháp dò tìm(crawling) truyền thống. Nếu một search engine cung cấp một đường dẫn của một tài nguyên nào đó trong một kết quả tìm kiếm cụ thể, có thể cho đó là web nổi. Không may là, các search engine không phải không nào cũng cung cấp tất cả các đường dẫn này(backlink). Ngay cả khi có backlink, cũng không cách nào để phát hiện ra nguồn này có cung cấp đường dẫn của chính nó tới các trang web nổi mà không phải crawling toàn bộ trang web hay không. Ngoài ra, cũng có trường hợp một tài nguyên ẩn ấp trên web nổi, và một search engine nào đó chưa tìm ra nó. Do đó, nếu chúng ta có một tài nguyên độc quyền, chúng ta không thể biết chắc chắn tài nguyên đó ẩn nấp trên web nổi hoặc web chìm mà chưa qua crawl(dò tìm) trang web đó.

Hầu kết công việc phân loại kết quả tìm kiếm đã được thư mục hóa web nổi bằng các đề tài. Để phân loại tài nguyên web chìm,Ipeirotis et al đã giới thiệu một thuật toán cho phép phân loại một trang web chìm thành các thư mục mà tạo ra nhiều hit nhất dựa trên vài lựa chọn cẩn thận, các truy vấn-tập trung vào-chủ đề. Các chỉ mục của deep web đang phát triển gồm có OAIster tại đại học Michigan, Intute tại đại học Manchester, Infomine tại đại học California tại Riverside, và DirectSearch (bởi Gary Price). Các xếp loại này đứng trên một thách thức là việc tìm kiếm web chìm chia ra 2 cấp độ thư mục hóa. Cấp độ 1 là các trang được thư mục hóa thành các chủ đề theo chiều dọc (như sức khỏe, du lịch, ô tô) và các chủ đề-phụ tùy theo tính chất của các nội dung nằm dưới các database (cơ sở dữ liệu) của chúng. Thách thức lớn hơn nữa là để thư mục hóa và biểu đồ hóa các thông tin trích xuất từ các nguồn web chìm theo nhu cầu người dùng-cuối. Các bản báo cáo tìm kiếm web chìm không thể hiển thị các URL như các tìm kiếm thông thường. Người dùng-cuối mong chờ các công cụ tìm kiếm không chỉ tìm ra những gì họ muốn một cách nhất mà còn phải hiển thị kết quả đó một cách trực quan và thân thiện với người dùng nữa. Để hiểu được ngữ nghĩa, các báo cáo tìm kiếm phải hiểu sâu vào nội dung nằm dưới các tài nguyên này hoặc là người dùng sẽ bị lạc lối trong biển URL mà nội dung đằng sau nó chả ăn nhập gì cả. Định dạng mà các kết quả tìm kiếm hiển thị ra rất phong phú tùy theo chủ đề đặc thù của tìm kiếm nào và loại nội dung được phô ra. Thách thức này là tìm ra và biểu đồ hóa các thành phần dữ liệu tương tự từ nhiều nguồn khác nhau sao cho các kết quả tìm kiếm được sắp xếp trong một định dạng thống nhất trên bản báo cáo tìm kiếm bất kể nguồn tài nguyên mà nó lấy từ đâu.

Tương lai[sửa | sửa mã nguồn]

Ranh giới giữa những gì mà các cỗ máy tìm kiếm phát hiện được và deep web đã bắt đầu trở nên phai nhòa, khi các dịch vụ search bắt đầu cung cấp dịch vụ truy xuất tới một phần hoặc toàn bộ các nội dung cấm cấp 1. Lượng nội dung deep web đang được mở ra để tự do tìm kiếm khi các nhà xuất bản và thư thiện đồng ý với các cỗ máy tìm kiếm lớn. Trong tương lai, nội dung của deep web có thể bị thu hẹp bởi vì cơ hội tìm kiếm thông tin bằng cách trả phí hoặc các dạng bản quyền khác ra đời.

Liên kết ngoài[sửa | sửa mã nguồn]

Chú thích[sửa | sửa mã nguồn]

Tham khảo[sửa | sửa mã nguồn]