Wikipedia:Thời báo Wikipedia/Bài luận/Tuần tra học

Bách khoa toàn thư mở Wikipedia

Tuần tra học là lĩnh vực nghiên cứu về phương pháp tuần tra sửa đổi trên Wikipedia. Mục đích của tuần tra học là thúc đẩy tính chính xác, hiệu quả, tiết kiệm thời gian, nhân lực trong công việc tuần tra nói chung. Phương pháp nghiên cứu là quan sát thực nghiệm và đúc kết thành những quy trình tuần tra bài bản, khách quan, chuẩn mực. Đây là môn khoa học được nhà Wikipedia học P.T.Đ sáng lập.

Phương pháp tuần tra sửa đổi[sửa mã nguồn]

Huy động[sửa mã nguồn]

Huy động là phương pháp dựa vào sức mạnh của cộng đồng. Kêu gọi các thành viên quan tâm hỗ trợ tuần tra, đặt biển, lùi sửa, nhắc nhở, khóa, xóa và cấm. Như vậy, toàn bộ sửa đổi trong một ngày bất kỳ sẽ luôn là một tập hợp sửa đổi đã được nhóm thành viên tuần tra tác động, giảm tải cho công tác tuần tra hậu kiểm.

Tuần tra chậm[sửa mã nguồn]

Tuần tra chậm là phương pháp tuần tra có liên quan đến yếu tố thời gian. Về cơ bản, tuần tra chậm đơn giản là tuần tra sau 1 hoặc 2 ngày (khuyến khích 1 ngày vì lượng sửa đổi khá lớn).

Mục đích chính là để gom nhóm sửa đổi gọn trong một ngày duy nhất nhằm tiến hành tuần tra hậu kiểm, và đặc biệt là không tạo ra xung đột trong quá trình tuần tra khi làm việc chung, so với việc tuần tra thời gian thực. Một ưu điểm quan trọng cần nói đến là tuần tra chậm sẽ tạo cảm giác thoải mái cho người có sửa đổi bị lùi, tránh gia tăng căng thẳng.

Nhược điểm có thể là không theo dõi được sát sao, một số sửa đổi phá hoại liên tục có khả năng gây tác động không tốt, cần một số thành viên hỗ trợ canh trực, hoặc tạo kênh liên lạc khẩn cấp để thành viên quan sát thấy có thể thông tin nhanh với bảo quản viên.

Khoanh vùng[sửa mã nguồn]

Lượng sửa đổi mỗi ngày là khá lớn, vì vậy cần phải khoanh vùng để thu hẹp dần vùng có tiềm năng tuần tra (nghĩa là chọn ra tập hợp những sửa đổi có khả năng cao là phá hoại hay phải được lùi sửa). Đây là phương pháp tối ưu để tiết kiệm thời gian tuần tra, trong khi vẫn giữ được hiệu quả tuần tra.

Gọi E là tập hợp toàn bộ sửa đổi trên Wikipedia xảy ra trong một ngày bất kỳ (từ thời điểm 0h đến 24h). Như vậy, mô đun |E| là lượng sửa đổi trong một ngày bất kỳ đó. Lưu ý chỉ tính sửa đổi của con người (thành viên và IP).

Đặc điểm của E là số lượng sửa đổi lớn, có thể chia thành hai tập con là:

  • Ep: tập hợp các sửa đổi đã được tuần tra (là sửa đổi của những thành viên trong nhóm tự động đánh dấu tuần tra và sửa đổi được tuần tra viên đánh dấu bằng tay, ngoài ra cũng nhận được khi thực hiện chức năng Lùi sửa)
  • Eu: tập hợp các sửa đổi chưa được tuần tra (là những sửa đổi còn lại, Eu = E \ Ep)

Về cơ bản, bước đầu quá trình khoanh vùng có thể loại đi tập Ep, vì những sửa đổi này cơ bản đã đáp ứng yêu cầu của cộng đồng, không cần phải kiểm tra thêm. Có thể sử dụng bộ lọc có sẵn trong trang Thay đổi gần đây để lọc đi, không cho xuất hiện trên danh mục sửa đổi cần tuần tra.

Như vậy, sau khi loại bỏ Ep, ta chỉ cần kiểm duyệt Eu là đã rút ngắn được một phần thời gian.

Quan sát từ thực tế, tập Eu trung bình sẽ có 1500 sửa đổi mỗi ngày. Cũng khá lớn để xử lý, trung bình mất 3 - 4 tiếng để duyệt toàn bộ.

Như vậy, ta phải tiếp tục bóc tách các sửa đổi trong Eu để tiếp tục thu hẹp vùng tuần tra tiềm năng.

Xét thấy, khuynh hướng của một sửa đổi là đa dạng, nhưng có thể cảm nhận rằng, một là sửa đổi tốt; hai là sửa đổi phá hoại rõ ràng; ba là sửa đổi mập mờ, không rõ là sửa đổi tốt hay phá hoại, thường rơi vào những chủ đề sửa đổi khó kiểm chứng (như số liệu, lĩnh vực chuyên môn, cần am hiểu). Ngoài ra, một sửa đổi còn có thể bị lùi khi không đáp ứng được các tiêu chuẩn trình bày, dù nội dung sửa đổi chưa hẳn là phá hoại, hoặc cũng có sửa đổi mang tính chất nghịch thử, không có động cơ phá hoại.

Từ thực tế trên, ta có thể xem xét tách các sửa đổi thành 2 nhóm để xử lý tập Eu. Nhóm 1 là nhóm sửa đổi có cảm nhận là sửa đổi tốt, động cơ phá hoại thấp, không đáng kể. Nhóm 2 là nhóm sửa đổi không rõ ràng, động cơ phá hoại từ khá thấp đến tương đối cao.

Nhóm 1 có thể là sửa đổi của những thành viên mới, đang tập sử dụng, đã được xác nhận mở rộng có khuynh hướng sửa đổi tốt; của IP/ dải IP có đóng góp hữu ích, hay một số trường hợp đặc biệt như sửa đổi có lý do đặc thù (thường là các sửa đổi của tài khoản liên wiki) hay một số chủ đề rõ ràng ít bị phá hoại (có thể do có lượt người sửa đổi lớn như chủ đề Hoa hậu, Đài truyền hình). Thông qua công việc duyệt sửa đổi, ta có thể thu thập để lập danh sách các trường hợp thành viên, IP, lý do, chủ đề có sửa đổi phù hợp với nhóm 1. Sử dụng một công cụ đánh dấu của trình duyệt để tô màu nhóm này. Như này đã tách được một lượng lớn sửa đổi trong khoảng 1500 sửa đổi của tập Eu, nhưng vẫn cần quan sát ngẫu nhiên để giữ được tính chất ban đầu của nhóm.

Nhóm 2 là lượng sửa đổi còn lại, thường là của IP, hoặc là thành viên rất mới, khả năng phá hoại từ khá thấp đến tương đối cao. Nhóm này thuộc diện phải duyệt toàn bộ. Trong quá trình duyệt tiếp tục chọn lọc những sửa đổi tốt, từ đó chọn ra những thành viên, IP, lý do, chủ đề tương ứng, làm giàu cho nhóm 1.

Thực tế cho thấy sẽ giảm chỉ còn 1 - 1,5 tiếng để duyệt nhóm 2 trong tập Eu, tiết kiệm thời gian tuần tra, trong khi vẫn đảm bảo hiệu quả tuần tra.

Danh sách đen[sửa mã nguồn]

Danh sách đen là phương pháp giúp hạn chế hành vi chèn liên kết quảng cáo, tự xuất bản của các thành viên, IP. Lợi ích chính là giảm động lực của hành vi lợi dụng cơ chế mở của Wikipedia để quảng cáo.

Công cụ để hiện thực hóa phương pháp là MediaWiki:Spam-blacklist. Truy cập trang này và thêm các liên kết cần được chặn.

Mẹo: Một liên kết khi thêm phải luôn bắt đầu và kết thúc bằng \b, và trước mỗi dấu chấm là một ký tự \. Để tiện có thể thực hiện quy trình:

  1. Mở Notepad++, thêm các liên kết cần chặn thành từng dòng.
  2. Thay thế văn bản có dạng regex là ([a-zA-Z0-9.]+) thành \\b\1\\b
  3. Thay thế dấu . thành \.
  4. Thêm vào MediaWiki:Spam-blacklist.

Nhắc nhở[sửa mã nguồn]

Nhắc nhở là một biện pháp giúp giảm thiểu được khả năng tái phá hoại của các thành viên, IP đã thực hiện các sửa đổi có khuynh hướng phá hoại. Theo nguyên lý Pareto, sẽ có khoảng 20% trong lượng thành viên, IP được nhắc nhở sẽ không tái phạm, tạm tin tưởng vậy.

Do đó, công tác nhắc nhở là một công việc quan trọng để giảm thiểu dần các sửa đổi phá hoại, cải tạo tư tưởng, hướng con người đến những sửa đổi tốt.

Công cụ hỗ trợ là Twinkle, giúp tạo nhanh các thông báo nhắc nhở, cảnh báo trong nhiều trường hợp cụ thể.

Cảm ơn[sửa mã nguồn]

Song song với việc nhắc nhở các thành viên, IP có sửa đổi phá hoại, cũng cần tiến hành cảm ơn đối với những thành viên có đóng góp tốt trong quá trình tuần tra, có thể là ngẫu nhiên. Mục đích là để giữ và củng cố khuynh hướng sửa đổi tốt lâu dài của thành viên nhận cảm ơn.

Cấm[sửa mã nguồn]

Cấm là biện pháp cuối cùng khi cần thực hiện để dứt điểm các phá hoại mang tính chất lặp lại, dù đã được nhắc nhở nhiều lần (ít nhất 2 lần). Thời hạn cấm sẽ tăng tiến dần theo mức độ ảnh hưởng của sửa đổi phá hoại (từ 1h đến vô hạn).

Xem thêm Wikipedia:Quy định cấm thành viên.

Lịch đánh dấu tuần tra[sửa mã nguồn]

Nguồn: Thành viên:P.T.Đ/Snippet/Tuần tra học