Thành viên:Plantaest/Snippet/Kiểm tra sửa đổi tự động

Bách khoa toàn thư mở Wikipedia

Kiểm tra sửa đổi tự động là phương pháp kiểm tra tính đặc trưng của sửa đổi một cách tự động, định hình một sửa đổi có khả năng là gây hại hay lành tính.

Điểm đánh giá = ORES + FWS + TWS + URS

Trong đó:

  • FWS (Filter weight score): Điểm trọng số bộ lọc
  • TWS (Tag weight score): Điểm trọng số thẻ
  • URS (User repulation score): Điểm uy tín người dùng

Kiểm tra sửa đổi tự động = Điểm đánh giá + Ngưỡng đánh giá + Hậu kiểm

Các định hướng[sửa | sửa mã nguồn]

  1. Kiểm tra sửa đổi ngày sinh bằng cách đối sánh với ngày sinh ở Wikidata.
  2. Tính toán mức tiềm năng gây hại của sửa đổi khi sửa đổi đó kích hoạt các bộ lọc đặc thù:
    1. Bộ lọc 2: Nghịch cú pháp
    2. Bộ lọc 5: Thành viên mới tẩy trống trang
    3. Bộ lọc 6: Người dùng mới xóa các bản mẫu ở trang mô tả tập tin (+10% ORES)
    4. Bộ lọc 7: Xóa Thể loại:Nhân vật còn sống (+35% ORES)
    5. Bộ lọc 10: Lặp lại ký tự [ORES khá cao]
      1. Tạo bài + Lặp lại ký tự: Đặt biển xóa
      2. Sửa bài + Lặp lại ký tự: Lùi lại (+10% ORES)
    6. Bộ lọc 11: Thành viên mới xóa các thẻ tạo nhóm chú thích (+10% ORES)
    7. Bộ lọc 13: Kết thúc sửa đổi bằng dấu cảm thán [ORES khá thấp] (+?% ORES)
    8. Bộ lọc 15: Spam liên kết ngoài [hơn 1 link so với bản trước đó là spam? cần xác định lại ngưỡng spam] (+?% ORES)
    9. Bộ lọc 17: Thêm liên kết YouTube [cần đánh giá xác suất gây hại] (+5% ORES)
    10. Bộ lọc 19: Thêm từ hoặc cụm từ bị cấm vào trang
      • Để 1 sửa đổi bị bộ lọc 19 chặn thì người thực hiện sửa đổi đó có động lực là "có nhu cầu dùng từ bị cấm". Ý muốn đó sẽ khiến người dùng "lách" bộ lọc. Vì vậy, những sửa đổi trót lọt từ người dùng có sửa đổi bị bộ lọc 19 chặn ngay trước đó thường là sửa đổi gây hại (cố tình lách bộ lọc sau khi được cảnh báo), nhất là khi tái sửa một trang liên tục. (+65% ORES ở những sửa đổi sau)
    11. Bộ lọc 22: Sửa đổi kết thúc bằng emoticon hoặc ! [cần đánh giá xác suất gây hại, ORES khá thấp] (+?% ORES)
    12. Bộ lọc 24: Thêm các ký tự emoji Unicode
      • Có vẻ sửa đổi thêm emoji thường là gây hại, cần đánh giá xác suất gây hại. Điểm ORES thường khá thấp đến rất thấp. Cần gia số lớn để chạm ngưỡng lùi sửa.
    13. Bộ lọc 28: Thêm chữ dài không có dấu cách [ít sửa đổi lọt qua].
    14. Bộ lọc 33: Người dùng mới tạo một trang trong không gian người dùng khác
      • Câu hỏi: Tại sao một người dùng mới lại tạo trang trong không gian người dùng khác?
      • Nếu là tạo giùm trang thành viên (NS 2) cho người khác thì có vẻ là phá hoại. Cần tính xác suất gây hại. Đặt biển xóa.
      • Nếu là tạo trang thảo luận thành viên (NS 3), có vẻ là gắn bản mẫu Hoan nghênh, hoặc đi qua "chửi nhau".
    15. Bộ lọc 40: Xóa trên 90% nội dung bài viết (+10% ORES)
      • Thường là gây hại. Điểm ORES thường đã khá cao. Nhưng cũng có nhiều ngoại lệ. Cần tính xác suất gây hại, phân loại và tái thiết kế bộ lọc để loại trừ ngoại lệ.
    16. Bộ lọc 41: Người dùng mới xóa bản mẫu Xóa nhanh (+20% ORES)
      • Câu hỏi: Tại sao lại xóa biển Xóa nhanh? Nhìn chung các bài viết trong nhóm sửa đổi của bộ lọc này đều bị xóa. Chứng tỏ đây là những sửa đổi gây hại. Tuy nhiên, có vẻ chỉ nên xét trên bài mới, còn bài cũ thì có thể là nghịch thử.
    17. Bộ lọc 42: Hình ASCII (+10% ORES ở những sửa đổi sau)
      • Nếu vi phạm bộ lọc ở những sửa đổi trước đó, thì những sửa đổi tiếp sau có khả năng là gây hại (tính giới hạn trong 24h).
    18. Bộ lọc 43: Người dùng mới có khả năng thêm nội dung không được chú thích hay chú thích không đúng cách (+5% ORES)
      • Cần đánh giá xác suất gây hại. Để tính được gia số phù hợp.
    19. Bộ lọc 44: Người dùng mới xóa các chú thích (+10% ORES)
      • Xóa chú thích có sẵn có vẻ là gây hại. Cần đánh giá xác suất gây hại.
    20. Bộ lọc 45: Người dùng tạo trang giới thiệu chính mình
      • Đa phần các bài viết đều bị xóa. Xu hướng chung là gây hại. Đặt biển xóa.
    21. Bộ lọc 46: Người dùng thêm liên kết chứa chính tên thành viên của mình (+50% ORES)
      • Đa phần là lợi dụng quảng cáo, bị lùi lại.
    22. Bộ lọc 47: Xóa nội dung đề mục (+10% ORES)
      • Chủ yếu là sửa đổi gây hại. Điểm ORES thường đã khá cao.
    23. Bộ lọc 48: Bài viết mới chưa được wiki hóa
      • Đa phần là bài viết bị xóa. Đặt biển xóa.
    24. Bộ lọc 49: Thêm tập tin/liên kết ngoài (+15% ORES)
      • Đa phần sửa đổi bị chặn do cảnh báo, hoặc bị lùi lại, bị xóa. Nhìn chung là gây hại.
    25. Bộ lọc 50: Chuỗi nhiều ký tự liên tục mà không có dấu cách (+65% ORES ở những sửa đổi sau)
      • Chắn chắn là gây hại. Đã bị bộ lọc chặn. Có thể dùng lịch sử để suy đoán khả năng gây hại của các sửa đổi tiếp sau. Người sửa đổi "đang có động lực phá hoại".
    26. Bộ lọc 51: Người dùng thiếu kinh nghiệm thêm nội dung lớn
      • Khó để đánh giá. Phần nhiều là sửa đổi tạo trang. Cần tính xác suất gây hại. Và có vẻ không gây hại.
    27. Bộ lọc 52: Thay đổi chiều cao/cân nặng trong infobox
      • So chéo với dữ liệu Wikidata để đánh giá độ chính xác. Không đúng thì lùi.
      • Đánh giá độ chính xác của các sửa đổi và xác suất bị lùi so với xác suất chính xác.
    28. Bộ lọc 54: Bắt đầu một dòng mới bằng chữ cái thường (+15% ORES)
      • Cần đánh giá xác suất gây hại. Có vẻ thường là gây hại.
    29. Bộ lọc 55: Thêm thẻ nowiki vào bài viết (+10% ORES)
      • Cần đánh giá xác suất gây hại. Có vẻ thường là gây hại.
    30. Bộ lọc 56: Xóa nội dung có nguồn mà không có tóm lược sửa đổi (+10% ORES)
      • Đa phần là gây hại.
    31. Bộ lọc 57: Thêm từ hoặc cụm từ bị cấm vào trang (regex) [tương tự Bộ lọc 19]
    32. Bộ lọc 58: Bài viết mới không có dấu chấm
      • Đa phần là gây hại. Bài viết bị xóa. Đặt biển xóa.
    33. Bộ lọc 62: Người dùng mới xóa bản mẫu Chờ xóa (+20% ORES)
      • Khó để đánh giá. Cần tính xác suất gây hại.
    34. Bộ lọc 63: Người dùng mới xóa bản mẫu Chất lượng kém
    35. Bộ lọc 64: Người dùng dưới 500 sửa đổi xóa bản mẫu Độ nổi bật hoặc Afd
    36. Bộ lọc 65: Người dùng dưới 500 sửa đổi xóa bản mẫu Chất lượng dịch
    37. Bộ lọc 66: IP tạo trang thành viên hoặc trang thảo luận thành viên IP [khó tiên đoán, nhưng thường bị xóa do quảng cáo]
    38. Bộ lọc 67: Xuống dòng liên tục hơn 3 lần [khả năng có phá hoại, cần tính xác suất gây hại]
    39. Bộ lọc 68: Người dùng IP hoặc thành viên dưới 100 sửa đổi sửa số liệu của một số tham số bản mẫu [mơ hồ, khó đánh giá, nhưng có vẻ thường có ích]
    40. Bộ lọc 69: Thêm từ hoặc cụm từ có thể sai chính tả [dữ liệu không cho thấy xu hướng gì đặc biệt]
    41. Bộ lọc 70: Người dùng IP hoặc thành viên dưới 100 sửa đổi sửa giá trị của tham số bản mẫu [không rõ ràng]
    42. Bộ lọc 71: Sửa ngày tháng năm [không rõ ràng, không chắc hữu ích cho bot]
    43. Bộ lọc 72: Xuống 1 dòng thành đoạn mới [không đáng kể]
    44. Bộ lọc 73: Sửa chữ Hán [không chắc chắn]
    45. Bộ lọc 75: Thêm một hay nhiều mục vào danh sách [chưa rõ ràng, nhưng cũng có thể hữu ích]
    46. Bộ lọc 76: Thêm bản mẫu Xóa nhanh
    47. Bộ lọc 77: Thêm bản mẫu Chờ xóa
    48. Bộ lọc 78: Thêm bản mẫu Chất lượng kém
    49. Bộ lọc 79: Thêm bản mẫu Độ nổi bật hoặc Afd
    50. Bộ lọc 80: Thêm bản mẫu Chất lượng dịch
      • Sửa đổi có ích. Thích hợp làm lịch sử để giảm điểm ORES.
    51. Bộ lọc 84: Người dùng mới thêm liên kết dưới đề mục Liên kết ngoài hoặc Tham khảo [khá hữu ích cho bot, vì hay có quảng cáo, spam link (đối với tài khoản mới), tuy nhiên cần cải thiện độ chính xác của bộ lọc] (+5% ORES)
    52. Bộ lọc 85: Xóa từ 50% đến 90% nội dung bài viết [ORES thường đã khá cao, có thể dùng cho lịch sử]
  3. Dựa vào Thẻ:
    1. Thẻ Sửa đổi di động, Sửa đổi từ trang di động (mobile edit, mobile web edit): Sửa đổi từ di động có vẻ hay gây hại?
    2. mw-blank: Tẩy trống trang
    3. mw-reverted: Đã được lùi sửa
  4. Hậu kiểm:
    1. Tẩy trống trang thành viên chính mình? Cho qua.
    2. Tự lùi sửa đổi của chính mình.
    3. Xét lịch sử sửa đổi ngay trước đó của người dùng. Nếu sửa đổi trước đó là thiện ý (ORES thấp) thì có thể giảm điểm ORES cho các sửa đổi sau, và ngược lại. Nhất là áp dụng với hành vi tái sửa một trang liên tục trong một thời gian trung bình.
    4. Nếu một sửa đổi của bot bị lùi lại (khả năng bot lùi nhầm), bot sẽ bỏ qua sửa đổi lùi lại đó? Nhưng sẽ lưu lại trong một log xóa định kỳ hàng tuần.
    5. Xét sửa đổi trước đó của người dùng có được tình cờ đánh dấu tuần tra chưa.
    6. Xét sửa đổi của tác giả tạo bài trên chính bài đó trong thời gian trung bình.
    7. So chéo với dữ liệu Wikidata.
    8. Trích link từ các sửa đổi của người dùng mới và lưu vào một trang log để xem xét khả năng spam.
    9. Báo cáo các người dùng có sửa đổi gây hại ở TNCBQV.

Khi xem xét một bộ lọc:

  • Lập danh sách sửa đổi kích hoạt bộ lọc
  • Trích ra trong số đó các sửa đổi bị lùi lại hoặc bị xóa
  • Đánh giá điểm ORES
  • Thêm gia số cho điểm ORES để phát hiện được nhiều nhất sửa đổi bị lùi lại hoặc bị xóa.

Ý tưởng bộ lọc mới và cải tiến bộ lọc cũ[sửa | sửa mã nguồn]

Bộ lọc mới:

  • Lệch cấp đề mục quá 2 đơn vị (ví dụ: "== ABC ==" -> "==== ABC ====")
  • Sửa đề mục hỏng (ví dụ: "=== ABC ==" -> "=== ABC ===")
  • Viết hoa ký tự đầu cho 1 từ duy nhất/1 sửa đổi
  • Phá hoại duy nhất 1 từ (ví dụ: "tiếp" -> "tijoeiodp")
  • Thành viên mới tái sửa bài mới tạo (có từ ít hơn 3 thành viên tham gia sửa bài)
  • Ngắt đôi 1 đoạn duy nhất
  • Sửa tên file
  • Thêm doi cho ref
  • Sửa ngày sinh
  • Tóm lược là 1 link
  • Tóm lược dài hơn xx ký tự
  • Sửa địa danh, tên người nước ngoài thành địa danh, tên người tiếng Việt.
  • Sửa thời gian của tham số bản mẫu
  • Sửa thời gian: DD/MM/YYYY, {{Start date and age}}
  • Dính hai từ thành một (ví dụ: "trời cao" -> "trờicao")
  • Thêm link .gov, .edu (thường uy tín)
  • Thêm link .xyz, .top, .website, .cc, .site, .live, .work, .info, .tv, .club, .me, .blogspot.com, .tk, .review, .biz, .id, .viajes, .wordpress.com (thường kém uy tín)
  • Thêm dấu cách vào [[ (ví dụ: "[[năm 2010]]" -> "[[ năm 2010]]")
  • Xóa mất hai dấu {{ của một bản mẫu/1 sửa đổi
  • Làm hỏng tag ghi chú ("-->" -> "--")
  • Hai bên của [[ ]] giống nhau (ví dụ: "[[Abc|Abc]]" hay "[[Abc|abc]]")
  • Vừa in đậm vừa in nghiêng ('''''ABC''''')
  • Sửa quote
  • Sửa đúng 1 con số
  • Sửa trang nháp thành viên khác
  • Thêm 1 dấu câu
  • Từ có phụ âm lặp lại trên 3 lần
  • Viết hoa liên tục từ 5 từ trở lên.
  • Summary: 1 từ, không dấu cách, >7 ký tự.
  • Summary: hihi, haha
  • Thành viên mới tạo trang ngoài không gian Chính (ví dụ: Wikipedia:Thảo luận/xxx)
  • Thành viên mới di chuyển trang

Khác[sửa | sửa mã nguồn]

  • Tự động patrol các sửa đổi có thẻ "Đã được lùi sửa" (? cần xét điểm uy tín người lùi sửa)
  • Phân tích quan hệ giữa nội dung tóm lược và khả năng gây hại của sửa đổi
  • Phân tích các yếu tố để dự đoán động lực sửa đổi của người dùng
  • Quy trình tuần tra hiện tại:
  1. Chọn một thời điểm (vd: 10 PM, tuần tra từ mốc 10 PM hôm qua đến 10 PM hôm nay)
  2. Chạy patrol.py
  3. Vào TĐGĐ [đã nhóm sửa đổi], chọn bộ lọc (Vô danh, Người mới đến, Người đang tập, Chưa được tuần tra, 1500 sửa đổi)
  4. Tô màu điểm ORES bằng ScoredRevisions.js
  5. Công cụ hỗ trợ: common.css, Navigation popup, AjaxRollback.js, QuickEdit.js, MoreDiffInfo.js, CVNSimpleOverlay_wiki.js, Toggle Arrow, RegEx Highlight, Permanent Clipboard
  6. Cập nhật các bộ lọc 19, 32, RegEx Highlight, Permanent Clipboard và MediaWiki:Spam-blacklist. Cấp quyền thành viên tin cậy.
  • Cần nút [patrol] trong TĐGĐ.

Một số capture[sửa | sửa mã nguồn]

insource:/ \[\[ [^\s]/
insource:/(\.|,|;) \<ref/
insource:/(\.|,|;)  \<ref/