Thảo luận Wikipedia:Hội đồng Hỗ trợ kiểm tra dịch thuật

Nội dung trang không được hỗ trợ ở ngôn ngữ khác.
Bách khoa toàn thư mở Wikipedia

Learnings from the group and proposals for improving Content Translation[sửa mã nguồn]

Hi all,

Thanks for your work on this initiative, and apologies for not writing in your language

The Wikimedia Foundation's Language team is interested in hearing more about how Content translation works for the different Wikipedia communities, and your experience reviewing Vietnamese translation can be very useful for us to improve the tool.

Adjustments to Content Translation

Content translation applies different limits to encourage editors to review, and even prevent them from publishing. The limits are documented in this page. We can adjust the limits for a specific wiki to prevent from publishing when content has over a certain percentage of unmodified machine translation. Since machine translation quality is different for each language, we need input from the community to understand which would be the ideal limit for Vietnamese.

In the past, we made adjustments for Indonesian and solved their issues with low-quality translations according to the community reports. We would be very happy to start such process with the Vietnamese community.

In addition, Content translation adds to a tracking category those translations with a significant percentage of machine translation. We are interested to know if the current list is helpful to facilitate review, or adjustments are needed on the criteria used to add translations there.

Understanding the review process

Overall our data shows that articles created with Content translation are less likely to be deleted than articles created from scratch. Looking at the articles created for Vietnamese Wikipedia during last quarter (1 Jul - 30 Sep) I noticed that more than 12,000 translations were published with content translation while only 42 were deleted (0.35%). Overall, more than 26,000 articles were created with all tools in the same period, resulting in more than 4,000 deletions (15%).

So my impression looking at the data is that translations are often good enough for not being deleted immediately (compared to articles started from scratch) but many require significant improvements to read natural in Vietnamese (which is harder to measure). I'm curious to hear some additional details of your process of review:

  • What is considered a translation and how it is identified? Looking at the reviewed articles I’ve noticed that the list includes both, articles created with Content Translation and other articles created from scratch.
  • Is pinging the author to improve the article working? The purpose of Content translation is to help users to create a good first version of the content. It may be worth trying to ping the authors of the articles to encourage them to improve the content. Maybe this is something to consider or worth for the tool to help with (e.g., send a notification after a week if the user has not edited the translation published further).

Provide your feedback

Please, let us know if we can help by adjusting the Content translation limits for Vietnamese or help you in any other way.

Thanks! --Pginer-WMF (thảo luận) 11:41, ngày 14 tháng 11 năm 2019 (UTC)[trả lời]

@ThiênĐế98: @Thienhau2003: Mình không rõ ai là chủ dự án nên tag tạm 2 bạn. Mình đã nhờ chuyển lời đến Nhóm Content Translation về vấn đề dịch máy hiện đang xảy ra tại wiki chúng ta cũng như việc wiki Tiếng Việt thành lập Hội đồng này. Có vẻ như CT Team cũng có những biện pháp giúp giải quyết (hoặc hạn chế) vấn đề này. Mời các bạn đọc và đưa ra feedback về vấn đề này cho CT Team theo như hướng dẫn ở trên ^^ Tiểu Phương #Talk2me 09:22, ngày 15 tháng 11 năm 2019 (UTC)[trả lời]
Tôi thông hiểu tiếng Anh tạm ổn ở phần Reading và Listening, nhưng không ổn lắm trong phần Writting, không biết bạn Bluetpp đây có thể hỗ trợ chuyển ngữ tin nhắn của tôi không?-- ✠ Tân-Vương  09:25, ngày 15 tháng 11 năm 2019 (UTC)[trả lời]
ThiênĐế98 Bluetpp Anh ơi, em tóm tắt lại thế này, nhóm Content translation có đề nghị về việc họ muốn giúp kiểm soát chất lượng dịch thuật ở đây, bằng cách giới hạn loại người dùng được phép sủ dụng công cụ dịch nội dung, chặn các bản dịch có tỉ lệ dịch máy cao (ví dụ 80%) là dịch máy tại Wikipedia Tiếng Việt để họ có thể đề xuất lên Wikimedia và chỉnh sửa lại công cụ dịch thuật tại Wikipedia Tiếng Việt, ngoài ra họ cũng đề nghị cộng đồng cho biết về thế nào là bản dịch kém để giúp họ cải thiện, hiệu chỉnh giới hạn công cụ dịch nội dung ở đây cho phù hợp. Họ sẽ hiệu chỉnh khi có phản hồi về việc này. Công cụ dịch máy có chức năng giới hạn sử dụng qua thông tin tại trang Mediawiki này. Việc chặn này đã được thực hiện tại Wikipedia Tiếng Anh, hiện chỉ có người dùng có xác nhận mở rộng (30/500) được phép dùng (xem tại đây), bên Tiếng Indonesia cũng vậy qua báo cáo dịch máy (xem tại đây), nên em nghĩ chúng ta có cần nên làm theo Wikipedia Tiếng Anh để ngăn chặn dịch thuật kém. Em nghĩ cần thảo luận cộng đồng thêm về vấn đề này vì thật nếu giới hạn số lượng thành viên dịch bài bằng Content translation có thể giảm nguồn nhân lực đóng góp tại đây, cần phải đánh giá tác động của nó đến sự phát triển dài lâu tại Wikipedia Tiếng Việt, luôn tạo điều kiện tốt nhất để mọi thành viên đều có thể tham gia đóng góp. Ngoài ra do em mới làm tại đây nên vẫn chưa biết nhiều về cách hoạt động của cộng đồng Wikimedia toàn cầu nên nhờ anh Alphama, Trần Nguyễn Minh Huymxn xem xét thảo luận vì họ biết cách hiệu chỉnh trang web này. Thiện Hậu (thảo luận) 12:59, ngày 15 tháng 11 năm 2019 (UTC)[trả lời]
Đây là bản dịch nội dung của đoạn trên (Hơi dịch máy vì em chưa rành Tiếng Việt)
Bản dịch nội dung của đoạn Tiếng Anh

Học hỏi từ nhóm và đề xuất cải thiện Dịch thuật nội dung (Content translation)[sửa mã nguồn]

Chào mọi người,

Cảm ơn bạn đã làm việc với sáng kiến này và xin lỗi vì đã không viết bằng ngôn ngữ của bạn

Nhóm Ngôn ngữ (Content translation) của Wikimedia Foundation quan tâm đến việc nghe thêm về cách Biên dịch Nội dung hoạt động đối với các cộng đồng Wikipedia khác nhau và kinh nghiệm của bạn khi xem xét các bản dịch tiếng Việt có thể rất hữu ích để chúng tôi cải thiện công cụ.

Điều chỉnh Content translation

Biên dịch nội dung áp dụng các giới hạn khác nhau để khuyến khích các biên tập viên xem xét và thậm chí là ngăn các bản dịch xuất bản. Các giới hạn được ghi lại trong trang này. Chúng tôi có thể điều chỉnh các giới hạn cho một wiki cụ thể để ngăn chặn các bản dịch tỷ lệ phần trăm dịch máy nhất định chưa sửa đổi được xuất bản. Vì chất lượng dịch máy là khác nhau đối với mỗi ngôn ngữ, chúng tôi cần đầu vào từ cộng đồng để đặt giới hạn dịch thuật hợp lý cho tiếng Việt.

Trước đây, chúng tôi đã thực hiện các điều chỉnh cho Wikipedia phiên bản tiếng Indonesia và giải quyết các vấn đề của họ sau khi họ phản ánh các bài dịch chất lượng thấp theo báo cáo của cộng đồng. Chúng tôi sẽ rất vui khi bắt đầu quá trình như vậy với cộng đồng người Việt.

Ngoài ra, Content translation thêm vào thể loại theo dõi những bản dịch với tỷ lệ phần trăm đáng kể dịch máy không sửa đổi. Chúng tôi muốn biết liệu danh sách hiện tại có hữu ích để hỗ trợ đánh giá hay không, hoặc điều chỉnh là cần thiết cho các tiêu chí được sử dụng để thêm bản dịch ở đó.

Hiểu quy trình đánh giá

Nhìn chung, dữ liệu của chúng tôi cho thấy rằng các bài viết được tạo bằng Content translation ít có khả năng bị xóa hơn các bài viết được tạo từ đầu. Nhìn vào các báo cáo được tạo cho Wikipedia tiếng Việt trong quý vừa qua (1 tháng 7 - 30 tháng 9) tôi nhận thấy rằng hơn 12.000 bản dịch đã được xuất bản bằng Content translation với chỉ có 42 bản bị xóa (0,35%). Nhìn chung, hơn 26.000 bài viết đã được tạo ra với tất cả các công cụ trong cùng thời kỳ, dẫn đến hơn 4.000 bài viết bị xóa (15%).

Vì vậy, ấn tượng của tôi khi nhìn vào dữ liệu là các bản dịch thường đủ tốt để không bị xóa ngay lập tức (so với các bài viết bắt đầu từ đầu) nhưng nhiều yêu cầu cải thiện đáng kể để đọc tự nhiên bằng tiếng Việt (khó đo lường hơn). Tôi tò mò muốn nghe một số chi tiết bổ sung về quá trình đánh giá của bạn:

  • Điều gì được coi là một bản dịch và làm thế nào xác định được nó? Nhìn vào các bài viết đã được xem lại, tôi nhận thấy rằng danh sách này bao gồm cả các bài viết được tạo bằng Biên dịch nội dung và các bài viết khác được tạo từ đầu.
  • Cần Ping tác giả để cải thiện các bài viết? Mục đích của dịch nội dung là giúp người dùng tạo ra một phiên bản đầu tiên của trang với một nội dụng tốt. Có thể ping tác giả của bài viết để khuyến khích họ cải thiện nội dung. Có thể đây là điều cần xem xét hoặc đáng để công cụ trợ giúp (ví dụ: gửi thông báo sau một tuần nếu người dùng chưa chỉnh sửa bản dịch được xuất bản).
Cho biết phản hồi của bạn

Vui lòng cho chúng tôi biết nếu chúng tôi có thể giúp bằng cách điều chỉnh giới hạn Content translation cho tiếng Việt hoặc giúp bạn bằng bất kỳ cách nào khác.

--Thiện Hậu (thảo luận) 12:59, ngày 15 tháng 11 năm 2019 (UTC)[trả lời]

Số liệu trên hẳn là quá cũ và họ chưa cập nhật, vì trong thời gian tổng rà soát bài dịch dỏm vừa qua, hàng trăm bài đã bị chuyển nháp và xóa sau đó. Tôi sẽ có câu trả lời chính thức vào ngày mai, sau khi đọc kỹ các thảo luận phía trên.-- ✠ Tân-Vương  13:04, ngày 15 tháng 11 năm 2019 (UTC)[trả lời]
@ThiênĐế98: Được thôi, bạn có thông điệp gì cứ gửi qua Talk page của tôi, tôi sẽ nhắn cho họ. Nếu bạn cần một phương pháp liên lạc nhanh hơn với tôi thì có thể nhắn email, tôi có thể cung cấp fb cá nhân ^^ Cá nhân tôi thấy cứ nên thảo luận với cộng đồng chứ không nên tự quyết định, vì việc giới hạn bản dịch hoặc các phương pháp khác như họ đề cập sẽ ảnh hưởng tới nhiều người sử dụng CT. Tiểu Phương #Talk2me 13:20, ngày 15 tháng 11 năm 2019 (UTC)[trả lời]
Thể theo đề nghị từ bạn Bluetpp, ngay trong đêm nay tôi sẽ đưa và chép dán, phân tích đề nghị từ thành viên trên thành các đề mục, đưa ra thảo luận chung và tìm sự đồng thuận của cộng đồng, gửi thư rộng rãi sự vụ này. Vì việc mang tính quan trọng nhưng không kém phần cấp bách khi tháng viết bài 12 sắp xảy ra, tôi sẽ mở thảo luận này trong 7 ngày và đính kèm trong nội dung thư để mọi người ý kiến đồng thuận. Trường hợp không tìm được đồng thuận, có lẽ "hơi căng" cho dự án khi phải khai mở một biểu quyết nữa trước khi bước sang năm mới Tây lịch 2020. Bạn Bluetpp có thể cung cấp đường dẫn link đoạn hội thoại nhờ Trung ương can thiệp về vụ việc dịch máy tại dự án hay không. Tôi nghĩ đoạn hội thoại này sẽ có ích cho các thảo luận đồng thuận.-- ✠ Tân-Vương  13:31, ngày 15 tháng 11 năm 2019 (UTC)[trả lời]
@ThiênĐế98: Đoạn hội thoại nào bạn nhỉ? Mình gửi tin lên CT Team không qua đường chính ngạch :D Sự thật là mình đang làm việc cho Nhóm Tăng trưởng, có một lần đề cập tới vấn nạn dịch máy và rằng wiki chúng ta vừa lập ra một Hội đồng kiểm tra dịch thuật thì team leader mới nói thế đưa link Hội đồng (chính là trang này) qua cho anh ấy để anh ấy forward qua cho CT Team, chứ bản thân mình không chuyển lời trực tiếp. Nếu bạn có muốn hỏi gì CT Team thì có thể ping thẳng anh Pginer-WMF tại đây để hỏi luôn được nè? Nếu bạn cần một bản dịch chính xác thông điệp trên thì mình có thể xem và chỉnh sửa lại bản dịch của bạn Thiện Hậu (hôm qua mình mới ngó và sửa qua qua chứ chưa xem chính xác), nếu bản thân bạn Thiên Đế có khả năng sửa thì xin nhờ sửa giúp rồi đưa ra thảo luận chung. Tiểu Phương #Talk2me 05:23, ngày 16 tháng 11 năm 2019 (UTC)[trả lời]
Đây bạn Bluetpp, thảo luận tìm đồng thuận dự tính kéo dài 7 ngày: Wikipedia:Thảo luận/Ngăn chặn dịch máy sản sinh từ công cụ dịch thuật, trước khi thay đổi ảnh hưởng dự án, cũng cần lắng nghe cộng đồng, việc có một đồng thậun ít nhiều cũng sẽ làm chắc chắn hướng đi của chúng ta hơn. Thảo luận không kéo dài là vì thảo luận cần tiến hành gấp rút, và sẽ không chờ bất kỳ thành viên nào không có nhã ý thảo luận, tương tự như các biểu quyết "vắng lạnh" gần đây. Sau khi thống nhất xong việc cộng đồng có chấp nhận hay không, tôi sẽ báo với bạn để trình WMF. Đồng thời, tôi sẽ cố gắng dánh thời gian sớm nhất gửi một số lời nhắn đến anh Pginer-WMF và nhờ bạn chuyển ngữ (thành tiếng Anh/ tiếng Pháp - thứ tiếng thành viên này quen dùng) giúp, mong bạn chiếu cố giúp đỡ :D. Cảm ơn bạn nhiều vì đã báo cáo tình trạng "đau khổ" của dự án này lên nhóm để họ có thể giúp đỡ cộng đồng tiếng Việt chúng ta.-- ✠ Tân-Vương  05:28, ngày 16 tháng 11 năm 2019 (UTC)[trả lời]
@ThiênĐế98: Bạn ơi, trong cuộc biểu quyết nên ghi rõ context của cuộc biểu quyết, đồng thời nên đưa trang nói về các kiểu giới hạn mà CT Team có ra cho mọi người hiểu. Mà mình nghĩ bạn nên email mình, sau đó chúng ta add facebook nhau để nói chuyện thêm về vấn đề này thì hơn ^^ Tiểu Phương #Talk2me 05:36, ngày 16 tháng 11 năm 2019 (UTC)[trả lời]
Bluetpp Ý là anh muốn em dịch trang thông tin công cụ dịch máy ở Mediawiki sang đây để mọi người hiểu hơn đúng không, tối nay em dịch cho, tuần sau sẽ có bản dịch hoàn chỉnh nếu anh đồng ý. Thiện Hậu (thảo luận) 05:47, ngày 16 tháng 11 năm 2019 (UTC)[trả lời]
Bluetpp Nó không phải là biểu quyết, chỉ là "Thảo luận tìm đồng thuận" được ghi trong quy định, đó là trước khi biểu quyết nên mở thảo luận tìm đồng thuận, vì vậy tôi không cần phải "quá trịnh trọng" như các cuộc biểu quyết hiện nay. Mục đích: Nhanh (7 ngày so với biểu quyết 14 ngày), chặn được tháng viết bài (Dịch máy) KHTN 12/2019. Việc add FB bạn tôi thiết nghĩ không cần e-mail nhắn tin, vì qua hoạt động tại Facebook, tôi đã biết nick bạn. (Đã gửi yêu cầu add, theo đề nghị từ bạn).-- ✠ Tân-Vương  05:51, ngày 16 tháng 11 năm 2019 (UTC)[trả lời]
Thienhau2003 Không cần đâu bạn, tôi sẽ thảo luận riêng với Bluetpp trên không gian trang chính, chỉ đang nhờ Bluetpp chuyển ngữ tin nhắn của tôi (nếu có) cho nhóm WMF để báo tin cho họ biết và trả lời các câu hỏi nhỏ phía dưới thôi :D.-- ✠ Tân-Vương  05:51, ngày 16 tháng 11 năm 2019 (UTC)[trả lời]
@Thienhau2003: Mình đang dịch tại đây rồi :)) Mà mình là con gái bạn ạ ^^ Tiểu Phương #Talk2me 05:57, ngày 16 tháng 11 năm 2019 (UTC)[trả lời]
Chào Pginer, rất xin lỗi vì không thể trả lời bạn bằng tiếng Anh, vì tôi vốn không có nền tảng vững vàng về kỹ năng viết của ngôn ngữ này. Bạn Bluetpp đây sẽ là người chuyển đoạn hội thoại của tôi sang tiếng Anh để gửi đến bạn.
Trước hết, tôi xin đính chính lại số liệu bạn vừa đưa ra trong tin nhắn phía trên. Ngược lại với số liệu bạn có, trên thực tế, con số bản dịch bị xóa rất cao, có thể lên đến quá 50%, trong các cuộc thi dịch thuật. Lý do là thiếu sự theo dõi sát sao cuộc thi và việc thiếu nhân sự, vấn đề muôn thuở của dự án Wikipedia tiếng Việt. Hiện nay, chúng tôi đang trong tiến trình xóa nhanh các bài chất lượng kém, dự định sẽ đến trong tuần tới và đẩy mạnh "Thanh lọc" dự án này.
Trả lời câu hỏi thứ nhất từ bạn: Với kinh nghiệm là một giám khảo các tháng viết bài tại dự án này trong tháng vừa qua, kinh nghiệm của tôi để nhận diện một bản dịch "dỏm", đó là những cụm từ vô nghĩa, những giới từ dịch thừa từ tiếng Anh, những thuật ngữ lạ và cấu trúc ngoại văn phần lớn trong bài viết. Đa phần các bài dịch thô, dỏm được Hội đồng này lấy từ các tháng viết bài, do các thành viên chạy theo số lượng và không có chuyên môn tiến hành "chạy nước rút" mỗi ngày, có khi lên đến hơn 10 bài/ ngày và hàng trăm, hơn 200 bài mỗi tháng viết bài. Đa phần trong đó là những bài viết kém, dịch thuật có vấn đề nghiêm trọng. Ước tính có khoảng 3-4.000 bài viết dịch máy "Tích lũy" qua các tháng viết bài, tính từ tháng 6 đến nay.
Trả lời câu hỏi thứ hai từ bạn: Hiện Hội đồng này tiến hành các biện pháp nhắc nhở với chủ thể tài khoản viết bài dịch dỏm, nhắc 3 lần sau đó tiến hành khóa tài khoản trong 1 tuần. Tất cả quy định này đã được cộng đồng Wikipedia tiếng Việt thống nhất cao để ngăn chặn "nạn dịch" dịch thuật đang hoành hành khắp cái dự án này. Về biện pháp giữa bài và thành viên viết, chúng tôi đặt biển biểu quyết xóa - yêu cầu chỉnh sửa bài trong trang bài viết, nếu thời hạn này bài không sửa, nó sẽ được đưa vào nháp 3 ngày và xóa hẳn đi sau đó, theo đúng thống nhất của cộng đồng Wikipedia tiếng Việt. Về việc cảnh báo tác giả, tôi cho là vô cùng cần thiết, thậm chí chặn xuất bản bản dịch thuật không chỉnh sửa quá nhiều để ngăn chặn các bài dịch kém ra đời.
Sau khi thảo luận với thành viên Bluetpp, tôi đã cho hoãn/ hủy vô thời hạn thảo luận để tìm đồng thuận dự tính mở vào ngày hôm nay để thống nhất về các quy định, do có quá nhiều thủ tục cũng như các phần kỹ thuật cần được thảo luận rộng rãi. Việc này tôi hy vọng sẽ đạt thống nhất hoặc qua một biểu quyết vào đầu năm Dương lịch 2020, với sự trợ giúp của các bạn quản trị viên khác, vì tôi có một kế hoạch cá nhân cần hoàn thành cuối năm nay.
Thân chào bạn, cảm ơn bạn đã quan tâm đến vấn đề dịch thuật đang tồn tại như là một vét loét, một vết thương khiến dự án này bị "rỉ máu". Cá nhân tôi và các thành viên nhiệt huyết đang đồng hành để cố gắng cải cách triệt để vấn đề dịch máy này và cải thiện các vấn đề "lịch sử để lại" trong năm nay và trong tương lai gần. Hy vọng điều chỉnh của nhóm các bạn sẽ sớm được thông qua và góp phần tích cực vào việc "chữa trị" dự án và phục hồi uy tín của dự án này với các bạn đọc tiếng Việt.
Ý kiến riêng của tôi, ThiênĐế98, một thành viên Hội đồng.
-- ✠ Tân-Vương  07:06, ngày 16 tháng 11 năm 2019 (UTC)[trả lời]