Liên kết hỏng

Bách khoa toàn thư mở Wikipedia
Một trang web liên kết hỏng thường sẽ báo lỗi như thế này

Liên kết hỏng là hiện tượng các siêu liên kết bị mất khả năng trỏ đến các tập tin đích đến, trang web hoặc máy chủ sau một thời gian do tài nguyên đó đã bị chuyển sang địa chỉ truy cập mới hoặc trở nên không khả dụng vĩnh viễn (thường là do bị xóa). Liên kết (link) mà không còn trỏ đến đối tượng chỉ định còn được gọi là link hỏng, link chết. Thuật ngữ gốc bên tiếng Anhlink rot hoặc broken link.

Giới học thuật và nghiên cứu đã lựa chọn khảo sát tỷ lệ liên kết hỏng do tính chất quan trọng và tác động tiêu cực của hiện tượng này đối với việc chia sẻ và bảo toàn thông tin trên mạng Internet. Kết quả ước tính cho thấy có sự chênh lệch số liệu tỷ lệ đáng kể giữa các bài nghiên cứu. Nhiều chuyên gia trong lĩnh vực công nghệ thông tin đã lên tiếng cảnh báo rằng hiện tượng liên kết hỏng có thể gây mất những dữ liệu quan trọng, làm ảnh hưởng đến hệ thống luật pháp và nhu cầu học thuật.

Liên kết hỏng xảy ra ở nhiều nguyên nhân khác nhau, chẳng hạn như di dời, xóa bỏ tệp đích, lỗi máy chủ, hết hạn tên miền gây báo lỗi HTTP 404. Giải pháp ngăn chặn liên kết hỏng chủ yếu là tạo URL cố định, di dời nội dung sang nơi tồn tại lâu hơn, tạo liên kết ít bị hỏng, dùng dịch vụ lưu trữ liên kết sẵn có, hoặc sửa chữa liên kết hỏng.

Nghiên cứu[sửa | sửa mã nguồn]

Vì tính chất quan trọng và sức ảnh hưởng của hiện tượng liên kết hỏng đối với việc tra cứu và lưu trữ thông tin, nhiều cuộc nghiên cứu đã tiến hành thu thập và truy tìm số liệu liên quan đến hiện tượng trong hệ thống mạng lưới toàn cầu World Wide Web, trong các tài liệu học thuật sử dụng URL để trích dẫn nguồn nội dung từ web, và trong thư viện số.

Một bài nghiên cứu năm 2002 cho biết rằng hiện tượng liên kết hỏng ở thư viện số xảy ra chậm hơn ở trên web, và nhận thấy cứ một năm thì có khoảng 3% đối tượng không còn truy cập được (tương đương với chu kỳ bán rã gần 23 năm).[1] Tiếp đến, một bài nghiên cứu năm 2003 đã nhận thấy rằng, cứ 200 liên kết thì sẽ có 1 liên kết bị hỏng mỗi tuần,[2] ứng với chu kỳ bán rã 138 tuần. Tỷ lệ này lại một lần nữa được xác nhận trong bài nghiên cứu năm 2016–2017 về liên kết ở Yahoo! Directory (vốn dĩ trang này đã ngưng cập nhật vào năm 2014 sau 21 năm vận hành và phát triển) và nhận thấy chu kỳ bán rã của các liên kết thư mục là 2 năm.[3]

Một nghiên cứu năm 2004 đã chứng minh các tập hợp con của các liên kết trang web (chẳng hạn như các liên kết trỏ đến đến các loại tập tin cụ thể hoặc các liên kết được các tổ chức học thuật lưu trữ) có thể có chu kỳ bán rã khác nhau rõ rệt.[4] Các URL liên quan đến xuất bản (báo chí, học thuật,...) dường như có tuổi thọ cao hơn URL bình thường. Nhằm củng cố, một nghiên cứu năm 2015 của Weblock đã phân tích hơn 180.000 liên kết đến từ các tài liệu tham khảo trong tập hợp toàn văn của 3 nhà xuất bản truy cập mở lớn và cho biết, chu kỳ bán rã rơi vào khoảng 14 năm.[5] Đây ngầm chứng minh một nghiên cứu năm 2005 đó chính là phân nửa số URL đến từ các bài viết bên D-Lib Magazine vẫn còn hoạt động sau 10 năm.[6]

Những bài khác thì cho rằng tỷ lệ xảy ra hiện tượng liên kết hỏng ở các tài liệu học thuật cao hơn, với mức chu kỳ bán rã được đề xuất thông thường rơi vào 4 năm hoặc hơn.[7][8] Bài nghiên cứu năm 2013 bên BMC Bioinformatics phân tích gần 15.000 liên kết chỉ mục trích dẫn Web of Science của Thomson Reuters và nhận thấy tuổi thọ trung bình của các trang web đạt 9,3 năm và chỉ có 62% trang là được lưu trữ.[9] Kế đến vào năm 2021, một nghiên cứu về các liên kết bên ngoài trên các bài báo New York Times được xuất bản từ năm 1996 đến năm 2019 cho thấy chu kỳ bán rã rơi vào khoảng 15 năm (nhưng lại khác biệt đáng kể, tùy thuộc vào chủ đề nội dung). Bài nghiên cứu còn cho biết thêm, 13% liên kết tuy vẫn còn hoạt động nhưng không còn cung cấp nội dung ban đầu nữa. Hiện tượng này được gọi là trôi dạt nội dung (content drift).[10]

Quan trọng hơn, một bài báo cáo vào năm 2013 cho biết, có tới 49% là liên kết hỏng trên tổng số liên kết được dẫn trong các quyết định của Tòa án Tối cao Hoa Kỳ.[11] Một nghiên cứu năm 2023 đã theo dõi các trang tổng quan về đại dịch COVID-19 tại Hoa Kỳ và nhận thấy rằng: 23% số URL trang tổng quát của tiểu bang đã bị thay đổi vào tháng 4 năm 2023, so với thời điểm tháng 2 năm 2021.[12]

Nguyên nhân và hậu quả[sửa | sửa mã nguồn]

Liên kết hỏng xảy ra ở nhiều nguyên nhân khác nhau: Đối tượng mà trang web trỏ đến bị xóa mất, máy chủ lưu trữ trang đích ngừng hoạt động, bị gỡ bỏ khỏi dịch vụ cung cấp lưu trữ hoặc bị chuyển sang một tên miền mới.[13] Từ năm 1999, các chuyên gia đã lưu ý về vấn đề lưu trữ lượng lớn tài liệu trên ổ cứng rằng, "một lỗi ổ đĩa có thể giống như đi đốt thư viện ở Alexandria."[14] Ngoài ra, hoạt động đăng ký tên miền có thể sẽ hết hạn hoặc được sang nhượng cho bên khác, cũng là nguyên nhân gây ra hiện tượng liên kết hỏng.[13]

Một số lý do:

  • Thay đổi cấu trúc và hệ thống trang web gây biến đổi URL lưu trữ (ví dụ tenmien.net/cay_noel có thể sẽ bị đổi thành tenmien.net/cay/noel).
  • Di dời nội dung trước kia cho xem miễn phí sang nội dung chặn paywall yêu cầu đăng ký.[12]
  • Thay đổi kiến trúc máy chủ dẫn đến mã như PHP hoạt động khác so với ban đầu.
  • Nội dung trang động chẳng hạn như kết quả tìm kiếm thay đổi theo thiết kế.
  • Xóa trang đích và/hoặc nội dung của nó.
  • Người dùng nhập liệu thông tin trong link (như tên đăng nhập).
  • Bộ lọc nội dung hay tường lửa chặn không cho người dùng truy cập.
  • Hết hạn đăng ký tên miền.

Hậu quả của hiện tượng liên kết hỏng đó chính là không tìm được tập tin đích và trả về mã lỗi như HTTP 404 (404 Không thể tìm thấy).[13] Hoặc là, khiến cho liên kết bị "trôi dạt" và chuyển sang cung cấp nội dung khác so với dự định ban đầu của tác giả liên kết gốc.[10] Do đó, liên kết hỏng có khả năng gây mất dữ liệu cũng như nguồn tham chiếu, làm ảnh hưởng đến chất lượng nghiên cứu hệ thống luật pháp và tính toàn vẹn trong học thuật.[15][16]

Giải pháp và nhận diện[sửa | sửa mã nguồn]

Phương pháp cơ bản để tránh hiện tượng hỏng liên kết đó chính là tạo các URL cố định không thay đổi theo thời gian. Tim Berners-Lee và những người tiên phong phát triển web khác đã nhấn mạnh tầm quan trọng của việc lên kế hoạch ngăn chặn URL hỏng.[17]

Bên cạnh đó, giải pháp có thể kể đến gồm có: liên kết đến các nguồn chính chứ không phải nguồn thứ cấp và ưu tiên các trang web ổn định;[4] hạn chế sử dụng liên kết trỏ đến tài nguyên trên trang cá nhân của nhà nghiên cứu;[6] sử dụng URL sạch hoặc chuẩn hóa URI;[18] sử dụng liên kết cố định hoặc mã nhận diện thường trực như ARK, DOI, tham khảo Handle System, PURL, hoặc CAS.[19] Người dùng Internet cần phải tránh liên kết đến các tài liệu không phải là trang web hoặc deep linking,[18][13] và thường xuyên lưu trữ nội dung dự phòng vào các trang lưu trữ web chẳng hạn như Internet Archive,[20] WebCite,[21] archive.today, Perma.cc,[22] Amber,[23] hoặc Arweave.[24]

Một số chiến lược xử lý các liên kết được đề xuất như: sử dụng cơ chế chuyển hướng chẳng hạn như HTTP 301 để tự động đưa trình duyệt và trình thu thập thông tin tới nội dung được di chuyển sang nơi khác; sử dụng hệ thống quản lý nội dung trang web có thể tự động cập nhật liên kết khi nội dung trong cùng một trang web được di chuyển hoặc tự động thay thế liên kết bằng URL chuẩn[25] và tích hợp tìm kiếm các tài nguyên vào trang HTTP 404.[26]

Người ta có thể phát hiện các liên kết bị hỏng bằng thủ công hoặc tự động. Các phương pháp tự động có thể kể đến gồm có plug-in dành cho hệ thống quản lý nội dung cũng như các trình kiểm tra liên kết bị hỏng độc lập như Xenu's Link Sleuth. Tuy nhiên, trình kiểm tra tự động có thể không nhận diện ra được các liên kết trả về mã lỗi 404 mềm hoặc các liên kết tuy trả về phản hồi 200 OK nhưng lại trỏ đến nội dung đã bị thay đổi.[27]

Đọc thêm[sửa | sửa mã nguồn]

  • Markwell, John; Brooks, David W. (2002). “Broken Links: The Ephemeral Nature of Educational WWW Hyperlinks”. Journal of Science Education and Technology. 11 (2): 105–108. doi:10.1023/A:1014627511641. S2CID 60802264.
  • Gomes, Daniel; Silva, Mário J. (2006). “Modelling Information Persistence on the Web” (PDF). Proceedings of the 6th International Conference on Web Engineering. ICWE'06. Bản gốc (PDF) lưu trữ ngày 16 tháng 7 năm 2011. Truy cập ngày 14 tháng 9 năm 2010.
  • Dellavalle, Robert P.; Hester, Eric J.; Heilig, Lauren F.; Drake, Amanda L.; Kuntzman, Jeff W.; Graber, Marla; Schilling, Lisa M. (2003). “Going, Going, Gone: Lost Internet References”. Science. 302 (5646): 787–788. doi:10.1126/science.1088234. PMID 14593153. S2CID 154604929.
  • Koehler, Wallace (1999). “An Analysis of Web Page and Web Site Constancy and Permanence”. Journal of the American Society for Information Science. 50 (2): 162–180. doi:10.1002/(SICI)1097-4571(1999)50:2<162::AID-ASI7>3.0.CO;2-B.
  • Sellitto, Carmine (2005). “The impact of impermanent Web-located citations: A study of 123 scholarly conference publications” (PDF). Journal of the American Society for Information Science and Technology. 56 (7): 695–703. CiteSeerX 10.1.1.473.2732. doi:10.1002/asi.20159.

Tham khảo[sửa | sửa mã nguồn]

  1. ^ Nelson, Michael L.; Allen, B. Danette (2002). “Object Persistence and Availability in Digital Libraries”. D-Lib Magazine. 8 (1). doi:10.1045/january2002-nelson. Lưu trữ bản gốc ngày 19 tháng 7 năm 2020. Truy cập ngày 24 tháng 9 năm 2019.
  2. ^ Fetterly, Dennis; Manasse, Mark; Najork, Marc; Wiener, Janet (2003). “A large-scale study of the evolution of web pages”. Proceedings of the 12th international conference on World Wide Web. Lưu trữ bản gốc ngày 9 tháng 7 năm 2011. Truy cập ngày 14 tháng 9 năm 2010.
  3. ^ van der Graaf, Hans. “The half-life of a link is two year”. ZOMDir's blog. Lưu trữ bản gốc ngày 17 tháng 10 năm 2017. Truy cập ngày 31 tháng 1 năm 2019.
  4. ^ a b Koehler, Wallace (2004). “A longitudinal study of web pages continued: a consideration of document persistence”. Information Research. 9 (2). Lưu trữ bản gốc ngày 11 tháng 9 năm 2017. Truy cập ngày 31 tháng 1 năm 2019.
  5. ^ “All-Time Weblock Report”. tháng 8 năm 2015. Bản gốc lưu trữ ngày 4 tháng 3 năm 2016. Truy cập ngày 12 tháng 1 năm 2016.
  6. ^ a b McCown, Frank; Chan, Sheffan; Nelson, Michael L.; Bollen, Johan (2005). “The Availability and Persistence of Web References in D-Lib Magazine” (PDF). Proceedings of the 5th International Web Archiving Workshop and Digital Preservation (IWAW'05). Bản gốc (PDF) lưu trữ ngày 17 tháng 7 năm 2012. Truy cập ngày 12 tháng 10 năm 2005.
  7. ^ Spinellis, Diomidis (2003). “The Decay and Failures of Web References”. Communications of the ACM. 46 (1): 71–77. CiteSeerX 10.1.1.12.9599. doi:10.1145/602421.602422. S2CID 17750450. Lưu trữ bản gốc ngày 23 tháng 7 năm 2020. Truy cập ngày 29 tháng 9 năm 2007.
  8. ^ Steve Lawrence; David M. Pennock; Gary William Flake; và đồng nghiệp (tháng 3 năm 2001). “Persistence of Web References in Scientific Research”. Computer (bằng tiếng Anh). 34 (3): 26–31. CiteSeerX 10.1.1.97.9695. doi:10.1109/2.901164. ISSN 0018-9162. Wikidata Q21012586.
  9. ^ Hennessey, Jason; Xijin Ge, Steven (ngày 2013). “A Cross Disciplinary Study of Link Decay and the Effectiveness of Mitigation Techniques”. BMC Bioinformatics. 14 (Suppl 14): S5. doi:10.1186/1471-2105-14-S14-S5. PMC 3851533. PMID 24266891.
  10. ^ a b Bowers, John; Stanton, Clare; Zittrain, Jonathan (ngày 21 tháng 5 năm 2021). “What the ephemerality of the Web means for your hyperlinks”. Columbia Journalism Review (bằng tiếng Anh). Lưu trữ bản gốc ngày 2 tháng 8 năm 2021. Truy cập ngày 2 tháng 8 năm 2021.Quản lý CS1: ngôn ngữ không rõ (liên kết)
  11. ^ Garber, Megan (ngày 23 tháng 9 năm 2013). “49% of the Links Cited in Supreme Court Decisions Are Broken”. The Atlantic (bằng tiếng Anh). Truy cập ngày 10 tháng 1 năm 2024.Quản lý CS1: ngôn ngữ không rõ (liên kết)
  12. ^ a b Adams, Aaron M.; Chen, Xiang; Li, Weidong; Chuanrong, Zhang (ngày 27 tháng 7 năm 2023). “Normalizing the pandemic: exploring thecartographic issues in state government COVID-19 dashboards”. Journal of Maps. 19 (5): 1–9. doi:10.1080/17445647.2023.2235385.
  13. ^ a b c d Yasar, Kinza (ngày 10 tháng 8 năm 2023). “Link rot explained: Everything you need to know”. TechTarget. Truy cập ngày 15 tháng 1 năm 2024.
  14. ^ McGranaghan, Matthew (ngày 1999). “The Web, Cartography and Trust”. Cartographic Perspectives (32): 3–5. doi:10.14714/CP32.624.
  15. ^ Jackson, L. Jay (ngày 1 tháng 12 năm 2013). 'Link rot' is degrading legal research and case cites”. ABA Journal. Lưu trữ bản gốc ngày 28 tháng 11 năm 2013. Truy cập ngày 15 tháng 1 năm 2024.
  16. ^ Miller, Marshal A. (ngày 14 tháng 11 năm 2022). The Putrefaction of Digital Scholarship: How Link Rot Impacts the Integrity of Scholarly Publishing (Luận văn). Đại học Southeastern - Lakeland. Lưu trữ bản gốc ngày 30 tháng 9 năm 2023. Truy cập ngày 15 tháng 1 năm 2024.
  17. ^ Berners-Lee, Tim (1998). “Cool URIs Don't Change”. Lưu trữ bản gốc ngày 2 tháng 3 năm 2000. Truy cập ngày 31 tháng 1 năm 2019.
  18. ^ a b Kille, Leighton Walter (ngày 8 tháng 11 năm 2014). “The Growing Problem of Internet "Link Rot" and Best Practices for Media and Online Publishers”. Journalist's Resource, Harvard Kennedy School. Lưu trữ bản gốc ngày 12 tháng 1 năm 2015. Truy cập ngày 16 tháng 1 năm 2015.
  19. ^ Sicilia, Miguel-Angel; và đồng nghiệp (ngày 10 tháng 5 năm 2023). Decentralized Persistent Identifiers: a basic model for immutable handlers (PDF). Procedia Computer Science 146 (2019). Elsevier B.V. tr. 123–130. Lưu trữ (PDF) bản gốc ngày 10 tháng 5 năm 2023.
  20. ^ “Internet Archive: Digital Library of Free Books, Movies, Music & Wayback Machine”. ngày 10 tháng 3 năm 2001. Lưu trữ bản gốc ngày 26 tháng 1 năm 1997. Truy cập ngày 7 tháng 10 năm 2013.
  21. ^ Eysenbach, Gunther; Trudel, Mathieu (2005). “Going, going, still there: Using the WebCite service to permanently archive cited web pages”. Journal of Medical Internet Research. 7 (5): e60. doi:10.2196/jmir.7.5.e60. PMC 1550686. PMID 16403724.
  22. ^ Zittrain, Jonathan; Albert, Kendra; Lessig, Lawrence (ngày 12 tháng 6 năm 2014). “Perma: Scoping and Addressing the Problem of Link and Reference Rot in Legal Citations” (PDF). Legal Information Management. 14 (2): 88–99. doi:10.1017/S1472669614000255. S2CID 232390360. Lưu trữ (PDF) bản gốc ngày 1 tháng 11 năm 2020. Truy cập ngày 10 tháng 6 năm 2020.
  23. ^ “Harvard University's Berkman Center Releases Amber, a "Mutual Aid" Tool for Bloggers & Website Owners to Help Keep the Web Available | Berkman Center”. cyber.law.harvard.edu. ngày 28 tháng 1 năm 2016. Lưu trữ bản gốc ngày 2 tháng 2 năm 2016. Truy cập ngày 28 tháng 1 năm 2016.
  24. ^ “Arweave - A community-driven ecosystem”. arweave.org. Lưu trữ bản gốc ngày 15 tháng 3 năm 2023. Truy cập ngày 15 tháng 3 năm 2023.
  25. ^ Rønn-Jensen, Jesper (ngày 5 tháng 10 năm 2007). “Software Eliminates User Errors And Linkrot”. Justaddwater.dk. Lưu trữ bản gốc ngày 11 tháng 10 năm 2007. Truy cập ngày 5 tháng 10 năm 2007.
  26. ^ Mueller, John (ngày 14 tháng 12 năm 2007). “FYI on Google Toolbar's Latest Features”. Google Webmaster Central Blog. Lưu trữ bản gốc ngày 13 tháng 9 năm 2008. Truy cập ngày 9 tháng 7 năm 2008.
  27. ^ Bar-Yossef, Ziv; Broder, Andrei Z.; Kumar, Ravi; Tomkins, Andrew (2004). “Sic transit gloria telae: towards an understanding of the Web's decay”. Proceedings of the 13th international conference on World Wide Web – WWW '04. tr. 328–337. CiteSeerX 10.1.1.1.9406. doi:10.1145/988672.988716. ISBN 978-1581138443.

Liên kết ngoài[sửa | sửa mã nguồn]