Web chìm

Bách khoa toàn thư mở Wikipedia
Bước tới: menu, tìm kiếm

Web chìm hay còn gọi là mạng chìm (Deep Web), Web ẩn (Invisible web, Undernet, hay Hidden web) là từ dùng để chỉ các trang hoặc nội dung trên thế giới mạng World Wide Web không thuộc về Web nổi (Surface Web), những trang được đánh dấu, chỉ mục (index) bởi các công cụ tìm kiếm thông thường. Không nên lẫn lộn với mạng đen (dark Internet), các máy tính không truy cập được từ Internet, hay mạng chia sẻ file Darknet, có thể xem là một phần nhỏ của Web chìm.

Mike Bergman, nhà sáng lập của BrightPlanet và là cha đẻ của thuật ngữ trên, nói rằng: Việc tìm kiếm trên Internet ngày nay có thể so sánh với việc kéo một tấm lưới trên bề mặt đại dương: một phần lớn có thể thu được ở trên tấm lưới, nhưng các thông tin giá trị thì chìm ở dưới đáy và do đó bị bỏ lỡ, hầu hết các thông tin trên mạng bị chôn sâu dưới đáy, nơi các kết quả từ các trang tìm kiếm không thể liệt kê ra, nơi các cỗ máy tìm kiếm không thể với tới. Các cỗ máy tìm kiếm truyền thống không thể nhìn thấy hoặc truy vấn thông tin trong web chìm-những trang này không tồn tại cho đến khi chúng được các cỗ máy này tạo liên kết động trong kết quả tìm kiếm cụ thể nào đó". Năm 2011, lượng thông tin trên web chìm đã vượt hơn hẳn web nổi.

Quy mô[sửa | sửa mã nguồn]

  • Là một phần của Internet. Trong một bài báo phát hành năm 2001, nhà học giả đồng thời là một doanh nhân tên Michael K Bergman đã viết: "Những trang Deep web hiện nay có kích thước gấp 400 đến 550 lần so với những trang web được định nghĩa thông thường trên thế giới."[1][2][3]
  • Trong một nghiên cứu tại đại học California, Berkeley năm 2011, dựa trên ước lượng ngoại suy, dung lượng dữ liệu trên web chìm khoảng 7500 terabyte. Cụ thể gồm khoảng 300.000 trang web chìm trong năm 2004, và theo Shestakov, khoảng 14 000 trang web chìm có xuất xứ từ Nga vào năm 2006.[4]

Tên gọi[sửa | sửa mã nguồn]

Nguồn gốc[sửa | sửa mã nguồn]

Trong một bài báo chuyên đề về web chìm trên tạp chí Electronic Publishing, Michael Bergman đã nhắc đến việc Jill Ellsworth đã sử dụng thuật ngữ invisible Web vào năm 1994 để ám chỉ các website không đăng ký với bất kỳ máy tìm kiếm nào cả. Bergman đã trích dẫn một bài viết vào tháng 1 năm 1996 của Frank Garcia: "Một trang web được thiết kế hợp lý, nhưng người lập ra trang web đó đã không để ý tới việc đăng ký nó với bất kỳ máy tìm kiếm nào. Vì vậy, không ai tìm thấy nó và nó được ẩn. Tôi gọi đó là web ẩn (invisible Web)."

Thuật ngữ Invisible Web trước đó đã được Bruce Mount và Matthew B. Koll sử dụng tại Personal Library Software, trong một miêu tả về các công cụ deep Web @1 được tìm thấy trong một ấn phẩm vào tháng 12 năm 1996.

Việc sử dụng lần đầu thuật ngữ Deep Web, hiện nay đã được mọi người công nhận, đó là vào năm 2001 trong một nghiên cứu của Bergman.

Khái niệm hiện tại[sửa | sửa mã nguồn]

Khái niệm Deep Web được sử dụng để chỉ tất cả những trang web mà các máy tìm kiếm như Google, Bing, Yahoo... không thể tìm thấy, bao gồm databases, các thông tin đăng nhập, Webmail,...[5]

Tài nguyên[sửa | sửa mã nguồn]

Số lượng thông tin trên deep web đang tăng nhanh. Giá trị nội dung của chúng không thể đánh giá đầy đủ được... lượng thông tin được (các máy tìm kiếm) tìm thấy chỉ chiếm 0.03% tổng lượng thông tin có trên Internet.[6]

— Michael K Bergman, [2]

Tài nguyên trên web chìm được phân loại theo một hoặc nhiều loại có trong danh mục sau:

  • Nội dung web động: các trang web động trả về kết quả theo một truy vấn hoặc xử lý theo dạng form, đặc biệt nếu sử dụng các thành phần nhập tên miền mở (như text field); các miền này rất khó xử lý nếu không có kiến thức về tên miền.
  • Các nội dung không được tạo liên kết hyperlink: các trang không liên kết với các trang khác, sẽ ngăn cản các chương trình dò (crawling program) truy cập vào nội dung của nó. Các trang này được truy cập trực tiếp trên thanh địa chỉ trình duyệt, vì không có các đường dẫn từ/trong bất kỳ trang web nào khác.
  • Các trang web phải xác thực truy cập: các trang yêu cầu phải đang ký và đăng nhập mới vào xem thông tin được (các tài nguyên được password bảo vệ).
  • Các trang web có nội dung thay đổi theo ngữ cảnh: các trang web này hiển thị nội dung thay đổi tùy thuộc vào một số điều kiện tác động, ví dụ như người dùng từ các dải IP của châu Á truy cập vào thì sẽ được xem nội dung phù hợp cho khu vực châu Á.
  • Các nội dung web bị giới hạn truy cập: một số trang web giới hạn việc truy cập tới các nội dung của nó bằng một số phương pháp kỹ thuật như file Robots.txt, CAPTCHAs hoặc tham số HTTP headers để ngăn cấm các máy tìm kiếm truy cập nội dung cua nó, cũng như tạo phiên bản cache nội dụng.)
  • Nội dung sinh từ script hoặc Flash, Ajax: một số trang web chỉ có thể truy cập thông qua một liên kết được sinh ra bởi một đoạn mã JavaScript (mà hva là một ví dụ trực tiếp), hoặc nội dung được nhúng bên trong Flash hoặc chỉ có thể được tải về thông qua Ajax.
  • Các nội dung không theo kiểu HTML/text: Các nội dung dạng text được mã hóa trong các file đa phương tiện (hình ảnh hoặc video) hoặc các định dạng file đặc biệt mà các cỗ máy tìm kiếm không thể xử lý được.
  • Nội dung văn bản chỉ có thể truy cập thông qua giao thức Gopher hoặc các file được lưu trữ trên các máy chủ FTP thì không được lập chỉ mục bởi hầu hết các máy tìm kiếm hiện nay: các máy tìm kiếm thông dụng như Google mặc nhiên không lập chỉ mục cho các trang không dùng giao thức HTTP hoặc HTTPS.

Truy cập[sửa | sửa mã nguồn]

Để khám phá nội dung trên các trang web, các máy tìm kiếm sử dụng các máy dò để lần theo các hyperlink thông qua các số đã biết của cổng giao thức ảo. Kỹ thuật này lý tưởng để khám phá các nguồn tài nguyên trên web nổi, nhưng không có tác dụng mấy đối với web chìm. Ví dụ, những máy dò này không thử tìm các trang liên kết động mà kết quả truy vấn database dựa trên số vô định các truy vấn có thể xảy ra. Chú ý là điều này có thể (một phần) được vượt qua bởi cách cung cấp các đường dẫn tới các kết quả truy vấn, nhưng điều này lại vô tình làm thôi phồng sự nổi tiếng cho một trang deep web.

Vào 2005, Yahoo! thực hiện một dịch vụ tìm kiếm một phần nhỏ của web chìm bằng cách ra mắt Yahoo! Subscriptions. Máy tìm kiếm này tìm kiếm trong vài trang web mà phải đăng ký thành viên mới vào xem nội dung được. Vài trang này hiển thị đầy đủ nội dung cho máy tìm kiếm robot do đó chúng sẽ hiển thị trên kết quả tìm kiếm của người dùng, nhưng sau đó hiển thị lên một trang đăng nhập (log in) hoặc trang đăng ký khi click vào một đường dẫn từ trang kết quả tìm kiếm từ trang đó.

Từ lúc trình duyệt Tor ra đời,người dùng có thể dễ dàng truy cập được vài tầng trong deep web một cách khá an toàn (khỏi những trang dark web hoặc những trang web của tội phạm, web chứa nội dung phi pháp, hacker, thông tin mật...) tràn lan trong deep web mà không được kiểm soát,ảnh hưởng đến sự bảo mật và an toàn của người truy cập. Để duyệt các web trong đấy cần những thư viện các đường dẫn.Và để truy cập được những trang web bảo mật hơn trong web chìm, người dùng cần phải có kiến thức về phần mềm và phần cứng cao. ', ', , và là một vài máy tìm kiếm có khả năng truy cứu vào các trang deep web. Intute đã hết kinh phí vận hành và chỉ lưu trữ tạm thời ngoại tuyến vào tháng 7 năm 2011.

Nói chung, nội dung trên deep web (bao gồm cả dark web) chứa đựng các nội dung sau:[7]

  • Bán vũ khí không có giấy phép
  • Hình ảnh khiêu dâm trẻ em
  • Bán phần mềm độc hại, phần mềm lậu và hướng dẫn về hacking
  • Bán thuốc bất hợp pháp
  • Bán thông tin thẻ tín dụng bị đánh cắp và tài khoản người dùng
  • Bán các tài liệu giả mạo và tiền tệ
  • Tuyển dụng người đàn ông hit
  • Bài bạc
  • Rửa tiền
  • Giao dịch nội gián

Dò tìm web chìm[sửa | sửa mã nguồn]

Các nhà nghiên cứu đã khám phá ra cách thức dò tìm web chìm một cách tự động. Năm 2011, Sriram Raghavan và Hector Garcia-Molina giới thiệu mô hình kiến trúc cho một máy dò web ẩn, sử dụng các từ khóa cung cấp bởi người dùng hoặc thu thập từ các giao diện truy vấn để truy vấn tới các trang và tài nguyên web chìm. Alexandros Ntoulas, Petros Zerfos, và Junghoo Cho ở UCLA đã tạo ra một máy dò hidden-Web cho phép tự động tạo ra các truy vấn có ý nghĩa một cách tự động tới các form nhập dữ liệu tìm kiếm. (ví dụ: DEQUEL: ngoài nhập lệnh truy vấn, nó còn chiết xuất dữ liệu có cấu trúc từ các trang kết quả. Một máy dò khác là DeepPeep, một dự án khác của đại học Utah được tài trợ bởi tổ chức National Science Foundation, cho phép tập hợp các nguồn hidden-Web (dạng Web) trong các tên miền khác nhau dựa vào các kỹ thuật dò tìm dựa trên ngữ cảnh.

Các máy tìm kiếm thương mại đã bắt đầu tạo ra các phương pháp khác nhau để dò tìm web chìm. (được phát triển đầu tiên bởi Google) và mod oai là các cơ chế cho phép các bên liên quan có thể khám phá các nguồn tài nguyên deep web trên các server (trang chủ) đặc thù. Cả hai cơ chế trên đều cho phép các web server quảng cáo các đường dẫn (URL) được truy cập tới chúng, bằng cách đó nó cho phép tự động khám phá các nguồn tài nguyên không liên kết trực tiếp tới web nổi. Hệ thống duyệt web chìm của Google tính toán trước các tác vụ nhỏ cho mỗi form HTML và đưa vào trang HTML kết quả tìm kiếm vào chỉ mục tìm kiếm của Google. Kết quả hiển thị của các trang web chìm chiếm một ngàn truy vấn trong một giây. Trong hệ thống này, các tính toán trước được thực hiện theo 3 phương thức sau:

  • Chọn các giá trị đầu vào để tìm kiếm các thông tin dạng ký tự (text search) thông qua các từ khóa (keyword),
  • Xác định các yếu tố đầu vào mà chấp nhận chỉ các kiểu dữ liệu xác định nào đó (ví dụ như ngày, tháng...),
  • Chọn một số nhỏ các liên kết đầu vào để tạo ra các URL thích hợp để đưa vào chỉ mục-tìm kiếm-web.

Phân loại tài nguyên[sửa | sửa mã nguồn]

Để tự động xác định một tài nguyên web có phải thuộc dạng web nổi hay web chìm hay không là một việc khó. Một tài nguyên được đánh dấu bởi một serch engine, thì không nhất thiết nó thuộc loại web nổi, bởi vì các tài nguyên trên mạng có thể được tìm thấy bằng nhiều phương pháp khác nhau (như Sitemap Protocol, mod oai, OAIster) thay vì các phương pháp dò tìm(crawling) truyền thống. Nếu một máy tìm kiếm cung cấp một đường dẫn của một tài nguyên nào đó trong một kết quả tìm kiếm cụ thể, có thể cho đó là web nổi. Không may là, các máy tìm kiếm không phải không nào cũng cung cấp tất cả các đường dẫn này(backlink). Ngay cả khi có backlink, cũng không cách nào để phát hiện ra nguồn này có cung cấp đường dẫn của chính nó tới các trang web nổi mà không phải crawling toàn bộ trang web hay không. Ngoài ra, cũng có trường hợp một tài nguyên ẩn ấp trên web nổi, và một máy tìm kiếm nào đó chưa tìm ra nó. Do đó, nếu chúng ta có một tài nguyên độc quyền, chúng ta không thể biết chắc chắn tài nguyên đó ẩn nấp trên web nổi hoặc web chìm mà chưa qua crawl(dò tìm) trang web đó.

Hầu kết công việc phân loại kết quả tìm kiếm đã được thư mục hóa web nổi bằng các đề tài. Để phân loại tài nguyên web chìm,Ipeirotis et al đã giới thiệu một thuật toán cho phép phân loại một trang web chìm thành các thư mục mà tạo ra nhiều hit nhất dựa trên vài lựa chọn cẩn thận, các truy vấn-tập trung vào-chủ đề. Các chỉ mục của deep web đang phát triển gồm có OAIsters tại đại học Michigan, Intute tại đại học Manchester, Infomine tại đại học California tại Riverside, và DirectSearch (bởi Gary Price). Các xếp loại này đứng trên một thách thức là việc tìm kiếm web chìm chia ra 2 cấp độ thư mục hóa. Cấp độ 1 là các trang được thư mục hóa thành các chủ đề theo chiều dọc (như sức khỏe, du lịch, ô tô) và các chủ đề-phụ tùy theo tính chất của các nội dung nằm dưới các database (cơ sở dữ liệu) của chúng.

Thách thức lớn hơn nữa là để thư mục hóa và biểu đồ hóa các thông tin trích xuất từ các nguồn web chìm theo nhu cầu người dùng-cuối. Các bản báo cáo tìm kiếm web chìm không thể hiển thị các URL như các tìm kiếm thông thường. Người dùng-cuối mong chờ các công cụ tìm kiếm không chỉ tìm ra những gì họ muốn một cách nhất mà còn phải hiển thị kết quả đó một cách trực quan và thân thiện với người dùng nữa. Để hiểu được ngữ nghĩa, các báo cáo tìm kiếm phải hiểu sâu vào nội dung nằm dưới các tài nguyên này hoặc là người dùng sẽ bị lạc lối trong biển URL mà nội dung đằng sau nó chả ăn nhập gì cả. Định dạng mà các kết quả tìm kiếm hiển thị ra rất phong phú tùy theo chủ đề đặc thù của tìm kiếm nào và loại nội dung được phô ra. Thách thức này là tìm ra và biểu đồ hóa các thành phần dữ liệu tương tự từ nhiều nguồn khác nhau sao cho các kết quả tìm kiếm được sắp xếp trong một định dạng thống nhất trên bản báo cáo tìm kiếm bất kể nguồn tài nguyên mà nó lấy từ đâu.

Các tầng trên Web chìm[sửa | sửa mã nguồn]

Việc chia tầng trên Web chìm có ý kiến trái ngược: Một số cho rằng trên Web chìm có 8 tầng (hoặc hơn). Trong khi số khác khẳng định rằng, trên Web chìm hoàn toàn không có tầng nào cả và khái niệm tầng trên Web chìm dùng để chỉ khả năng bảo mật, khó truy cập của một địa chỉ Internet nào đó, hay mức độ nguy hiểm của các thông tin website chia sẽ... được phân ra bởi FBI.

Dùng để chỉ những trang web mà chúng ta vẫn truy cập hàng ngày như Wikipedia, Youtube, Nhaccuatui, ZingMP3... Chúng gọi chung là Web nổi, mặc dù đôi khi chúng được gọi là Comman Web (Web thông thường) và được cho là Tầng 0 của Internet, trong khi những trang web đen hơn như Reddit mới là tầng 1 của Internet.

  • Mức độ 2: Web vô thừa nhận (Bergie Web)

Được cho rằng, đây là tầng cuối cùng mà một người dùng Internet có thể truy cập một cách thông thường nhất mà không cần sự can thiệp khác để có thể truy cập chúng (thông qua một proxy, dùng các trình duyệt hỗ trợ như Tor hoặc có sự can thiệp đặc biệt vào phần cứng máy tính). Theo khuyến cáo, tốt nhất không nên truy cập những trang web sau với mức độ cao hơn 2. Tại đây, bạn có thể bắt gặp những trang web bí mật (ngầm) được liệt kê, ví dụ như 4chan.

  • Mức độ 3: Web ẩn, Web chìm (Deep web)

Tâng này có thể truy cập thông qua proxy hoặc Hệ thống mạng Tor. Chứa đựng những thông tin nhạy cảm, kinh dị: ấu dâm, clip kinh dị, trang web của các hacker (hacking websites).. Vì là tầng đầu tiên của Internet mà việc truy cập phải được phải thông qua một sự hỗ trợ từ mạng Tor hoặc thiết đặt phần cứng, nên đôi khi cũng dùng để chỉ cả những tầng cao hơn của Internet.

  • Mức độ 4: Charter Web

Được chia thành 2 phần, để chỉ cách thức truy cập:

Phần 1: Được truy cập thông qua Tor, chứa đựng những nội dung liên quan đến ma tuý, vũ khí, buôn bán người (human trafficking), hoặc các ấn bản cấm (phim, sách về dị giáo, hoặc bạo lực...) thậm chí là chợ đen như Silk Road.
Phần 2: Truy cập chỉ khi có sự thay đổi về phần cứng Closed Shell Symstem. Chứa đựng Hardcore Childporn, các thí nghiệm khoa học kỳ lạ và vô cùng kinh khủng (kể cả trên cơ thể con người), thường khó được chấp nhận được vì tính vô nhân đạo của chúng.
  • Mức độ 5: Marianas Web

Nếu muốn kết nối được các trang web tại mức độ 5, cần có một hệ thống máy trạm đặc biệt. Tại đây là nơi rò rỉ những tài liệu mật của Quốc gia, tổ chức mà vẫn thường thấy trên Wikileaks; các hoạt động tâm linh kỳ quái, các hội đoàn hoạt động bí mật, những hoạt động hiến tế... Việc kết nối với Marianas Web được cảnh báo là nên truy cập bằng một máy tính cũ, một hệ điều hành, kể cả Quantum computation mechanics (cơ học điện tử).

  • Mức độ 6: Diversion

Việc truy cập vào Diversion Web đòi hỏi phải hiểu rõ các vấn đề liên quan đến Quantum computation mechanics, kể cả việc vượt qua những hàng rào bảo mật của Chính phủ. Không quá nhiều thông tin được biết về các trang web ở mức độ 6, thường được xem là rào cản an toàn cho người truy cập nếu không muốn chịu rủi ro khi tiến sâu hơn.

  • Mức độ 7: The Fog/Virus Soup

Là nơi hoạt động của những chuyên gia An ninh Internet, các hacker, thường diễn ra các hành động phá hoại lẫn nhau, một cách công khai hoặc lén lút nhằm bảo vệ những thông tin mật (những đơn hàng giá trị cao hàng tỷ đôla). Mọi hoạt động tại đây đều không an toàn, đặc biệt là những tài nguyên tải về, thường chứa đựng virus máy tính.

  • Mức độ 8: The Primarch System

Là nơi tận cùng của "Đại dương Internet", được phát hiện ra vào năm 2000 trong một lần rà soát dữ liệu tập trung (Massive Deep Web Scan).

Việc có hay không việc phân tầng Deep Web dựa mức độ bảo mật của chúng vẫn chưa có sự thống nhất.

Tính tốt - xấu[sửa | sửa mã nguồn]

  • Một số lượng không nhỏ các trang Deep web cung cấp những thông tin không tốt cho cộng đồng như ma tuý, tình dục (đặc biệt là tình dục liên quan đến trẻ em - ấu dâm, tra tấn tình dục), mua bán vũ khí trái phép. Đặc biệt là giao dịch tiền ảo (như Bitcoin), mua bán nội tạng, mua bán người...
  • Deep web cũng là nơi chia sẽ những tài liệu mật bị rò rỉ, thông qua WikiLeaks chẳng hạn.

Tương lai[sửa | sửa mã nguồn]

Ranh giới giữa những gì mà các cỗ máy tìm kiếm phát hiện được và deep web đã bắt đầu trở nên phai nhòa, khi các dịch vụ search bắt đầu cung cấp dịch vụ truy xuất tới một phần hoặc toàn bộ các nội dung cấm cấp 1. Lượng nội dung deep web đang được mở ra để tự do tìm kiếm khi các nhà xuất bản và thư thiện đồng ý với các cỗ máy tìm kiếm lớn. Trong tương lai, nội dung của deep web có thể bị thu hẹp bởi vì cơ hội tìm kiếm thông tin bằng cách trả phí hoặc các dạng bản quyền khác ra đời.

Chú thích[sửa | sửa mã nguồn]

  1. ^ Câu gốc: "The deep web is currently 400 to 550 times larger than the commonly defined world wide web."
  2. ^ a ă The dark side of the internet - The Guardian
  3. ^ Deep Web Search Engines to Explore the Hidden Internet - The Hacker News
  4. ^ Hidden web – Invisible web – Deep web là gì? - Học viện Mạng và Phần cứng - FPT Jetking
  5. ^ What is Deep web - Deep Web Search Engines to Explore the Hidden Internet - The Hacker News
  6. ^ The deep web is the fastest growing category of new information on the internet … The value of deep web content is immeasurable … internet searches are searching only 0.03% … of the [total web] pages available.
  7. ^ What's Hiding In The Dark Web? - TruthFinder.com