Mô hình túi từ trong thị giác máy tính

Bách khoa toàn thư mở Wikipedia
Bước tới điều hướng Bước tới tìm kiếm

Trong thị giác máy tính, mô hình túi từ (bag-of-words model, mô hình BoW) có thể được áp dụng để phân loại hình ảnh, bằng cách coi các đặc trưng của hình ảnh như từ ngữ. Trong phân loại văn bản, một túi các từ là một vectơ thưa về số lần xuất hiện của các từ; đó là, một biểu đồ thưa trên tập từ vựng. Trong thị giác máy tính, một túi các từ trực quan là một vectơ đếm sự xuất hiện của các đặc trưng của hình ảnh.

Biểu diễn hình ảnh dựa trên mô hình BoW[sửa | sửa mã nguồn]

Để biểu diễn một hình ảnh bằng mô hình BoW, một hình ảnh có thể được coi là một văn bản. Tương tự, "từ" trong ảnh cũng cần được định nghĩa. Để đạt được điều này, nó thường bao gồm ba bước sau: phát hiện đặc trưng, mô tả đặc trưng và tạo danh bạ.[1] Một định nghĩa của mô hình BoW có thể là "biểu diễn biểu đồ dựa trên các đặc trưng độc lập với nhau".[2] Lập chỉ mục và truy xuất hình ảnh dựa trên nội dung (CBIR) có thể coi là phương pháp áp dụng sớm kỹ thuật biểu diễn hình ảnh này.[3]

Biểu diễn lại đặc trưng[sửa | sửa mã nguồn]

Sau khi phát hiện đặc trưng, mỗi hình ảnh được trừu tượng hóa bằng một số bản mẫu cục bộ. Các phương thức biểu diễn lại đặc trưng liên quan đến cách biểu diễn lại các bản mẫu dưới dạng các vectơ số. Các vectơ này được gọi là một mô tả đặc trưng. Một mô tả tốt nên có khả năng xử lý các thay đổi về cường độ, xoay, thu phóng và biến đổi afin ở một mức độ nào đó. Một trong những mô tả nổi tiếng nhất là biến đổi đặc trưng bất biến tỷ lệ (SIFT).[4] SIFT chuyển đổi từng bản mẫu thành vector 128 chiều. Sau bước này, mỗi hình ảnh là một tập hợp các vectơ có cùng kích thước (128 cho SIFT), thứ tự của các vectơ không quan trọng.

Tạo danh bạ[sửa | sửa mã nguồn]

Bước cuối cùng cho mô hình BoW là chuyển đổi các bản mẫu được biểu thị bằng vector thành "từ mã" (tương tự như các từ trong tài liệu văn bản), tạo ra một "tư điển các từ mã" (tương tự như một từ điển các từ trong văn bản). Một từ mã có thể được coi là một đại diện của một số bản mẫu tương tự. Một phương pháp đơn giản là thực hiện phân cụm k-means trên tất cả các vectơ.[5] Từ mã sau đó được định nghĩa là tâm của các cụm được tạo ra. Số lượng các cụm là kích thước danh bạ (tương tự như kích thước của từ điển).

Do đó, mỗi bản mẫu trong một hình ảnh được ánh xạ tới một từ mã nhất định thông qua quá trình phân cụm và hình ảnh có thể được biểu thị bằng biểu đồ của từ mã.

Học hỏi và nhận dạng dựa trên mô hình BoW[sửa | sửa mã nguồn]

Các nhà nghiên cứu thị giác máy tính đã phát triển một số phương pháp học tập để thúc đẩy mô hình BoW cho các nhiệm vụ liên quan đến hình ảnh, chẳng hạn như phân loại đối tượng. Những phương pháp này đại khái có thể được chia thành hai loại, mô hình khái quát và mô hình điều kiện. Đối với vấn đề phân loại nhiều nhãn, ma trận nhầm lẫn có thể được sử dụng làm số liệu đánh giá.

Mô hình khái quát[sửa | sửa mã nguồn]

Dưới đây là một số ký hiệu cho phần này. Giả sử kích thước của danh bạ là .

  • : từng bản mẫu là một vectơ V chiều có một thành phần duy nhất bằng một và tất cả các thành phần khác bằng 0 (Đối với cài đặt phân cụm k-means, thành phần đơn bằng một chỉ ra cụm thuộc về). Các từ mã trong từ điển từ mã có thể được biểu diễn dưới dạng cho .
  • : mỗi hình ảnh được đại diện bởi , tất cả các bản mẫu trong một hình ảnh
  • : hình ảnh thứ trong một bộ sưu tập hình ảnh
  • : thể loại của hình ảnh
  • : chủ đề của bản vá
  • : tỷ lệ hỗn hợp

Do mô hình BoW tương tự như mô hình BoW trong xử lí ngôn ngữ tự nhiên, các mô hình khái quát được phát triển cho văn bản cũng có thể được điều chỉnh trong thị giác máy tính. Mô hình Naïve Bayes đơn giản và mô hình Bayes phân cấp được thảo luận.

Naïve Bayes[sửa | sửa mã nguồn]

Đơn giản nhất là phân loại Naïve Bayes.[6] Sử dụng ngôn ngữ của các mô hình đồ họa, trình phân loại Naïve Bayes được mô tả theo phương trình dưới đây. Ý tưởng cơ bản (hoặc giả định) của mô hình này là mỗi loại có phân phối riêng của nó trên từ điển từ mã và các phân phối của mỗi loại có quan sát khác nhau. Lấy thể loại khuôn mặt và thể loại xe hơi làm ví dụ. Thể loại khuôn mặt có thể nhấn mạnh các từ mã đại diện cho "mũi", "mắt" và "miệng", trong khi thể loại xe hơi có thể nhấn mạnh các từ mã đại diện cho "bánh xe" và "cửa sổ". Đưa ra một tập hợp các ví dụ đào tạo, bộ phân loại học các phân phối khác nhau cho các loại khác nhau. Quyết định phân loại vào các thể loại

Do phân loại Naïve Bayes đơn giản nhưng hiệu quả, nó thường được sử dụng làm phương pháp cơ sở để so sánh.

Mô hình Bayes phân cấp[sửa | sửa mã nguồn]

Giả định cơ bản của mô hình Naïve Bayes đôi khi không giữ được. Ví dụ, một hình ảnh cảnh thiên nhiên có thể chứa một số chủ đề khác nhau. Phân tích ngữ nghĩa tiềm ẩn xác suất (pLSA) [6][7]phân bố Dirichlet tiềm ẩn (LDA) [8] là hai mô hình chủ đề phổ biến từ các văn bản để giải quyết vấn đề "chủ đề" tương tự. Lấy LDA làm ví dụ. Để mô hình hóa hình ảnh cảnh thiên nhiên bằng LDA, một cách tương tự với phân tích văn bản được thực hiện:

  • thể loại hình ảnh được ánh xạ đến thể loại tài liệu;
  • tỷ lệ hỗn hợp của các chủ đề ánh xạ tỷ lệ hỗn hợp của các chủ đề;
  • chỉ mục chủ đề được ánh xạ tới chỉ mục chủ đề;
  • từ mã được ánh xạ tới từ.

Phương pháp này cho thấy kết quả rất hứa hẹn trong phân loại cảnh thiên nhiên trên 13 Danh mục cảnh thiên nhiên.[1]

Mô hình điều kiện[sửa | sửa mã nguồn]

Vì hình ảnh được biểu diễn dựa trên mô hình BoW, bất kỳ mô hình điều kiện nào phù hợp với phân loại tài liệu văn bản đều có thể được thử, chẳng hạn như máy vectơ hỗ trợ (SVM) [6]AdaBoost.[9] Thủ thuật kernel cũng được áp dụng khi phân loại dựa trên kernel được sử dụng, chẳng hạn như SVM. Hạt nhân hình kim tự tháp được phát triển mới dựa trên mô hình BoW. Cách tiếp cận đặc trưng cục bộ của việc sử dụng biểu diễn mô hình BoW được học bởi các bộ phân loại học máy với các hạt nhân khác nhau (ví dụ: hạt nhân EMD và kernel) đã được thử nghiệm rất nhiều trong lĩnh vực nhận dạng kết cấu và đối tượng. [10] Kết quả rất hứa hẹn trên một số bộ dữ liệu đã được báo cáo. Cách tiếp cận này [10] đã đạt được kết quả rất ấn tượng trong Thử thách các lớp đối tượng trực quan PASCAL.

Hạt nhân hình kim tự tháp[sửa | sửa mã nguồn]

Hạt nhân hình kim tự tháp [11] là một thuật toán nhanh (độ phức tạp tuyến tính thay vì hàm cổ điển với độ phức tạp bậc hai) (thỏa mãn điều kiện của Mercer) để ánh xạ các đặc trưng của BoW, hoặc tập hợp các đặc trưng theo chiều cao, thành biểu đồ đa độ phân giải đa chiều. Một lợi thế của các biểu đồ đa độ phân giải này là khả năng nắm bắt, xử lí các đặc trưng cùng xảy ra. Hạt nhân hình kim tự tháp xây dựng biểu đồ đa độ phân giải bằng cách ghép các điểm dữ liệu vào các vùng riêng biệt có kích thước tăng dần. Do đó, các điểm không khớp ở độ phân giải cao có cơ hội khớp ở độ phân giải thấp. Hạt nhân hình kim tự tháp thực hiện khớp tương tự gần đúng, không cần tìm kiếm chính xác hoặc tính toán khoảng cách. Thay vào đó, nó giao cắt các biểu đồ để xấp xỉ đến khớp tối ưu. Theo đó, thời gian tính toán chỉ là tuyến tính trong số lượng các đặc trưng. So với các cách tiếp cận hạt nhân khác, hạt nhân hình kim tự tháp nhanh hơn nhiều, nhưng cung cấp độ chính xác tương đương. Hạt nhân hình với kim tự tháp đã được áp dụng cho cơ sở dữ liệu ETH-80cơ sở dữ liệu Caltech 101 với kết quả đầy hứa hẹn.[11][12]

Hạn chế và phát triển gần đây[sửa | sửa mã nguồn]

Một trong những nhược điểm hiển nhiên của BoW là nó bỏ qua các mối quan hệ không gian giữa các bản mẫu, điều này rất quan trọng trong việc biểu diễn hình ảnh. Các nhà nghiên cứu đã đề xuất một số phương pháp để kết hợp thông tin không gian. Đối với những cải tiến mức độ đặc trưng, đặc trưng correlogram có thể lưu lại không gian đồng xuất hiện của các đặc trưng khác.[13] Đối với các mô hình khái quát, các vị trí tương đối [6][14] của từ mã cũng được tính đến. Hình dạng phân cấp và mô hình xuất hiện cho hành động của con người [15] giới thiệu một lớp phần mới (mô hình Chòm sao) giữa tỷ lệ hỗn hợp và các tính năng BoW, nắm bắt các mối quan hệ không gian giữa các phần trong lớp. Đối với các mô hình điều kiện, kim tự tháp không gian [16] được thực hiện so khớp bằng cách phân vùng hình ảnh thành các tiểu vùng càng nhỏ càng tốt và tính toán biểu đồ của các đặc trưng cục bộ bên trong mỗi tiểu vùng. Gần đây, một sự gia tăng của các mô tả hình ảnh địa phương (tức là SIFT) bằng tọa độ không gian của chúng được chuẩn hóa theo chiều rộng và chiều cao của hình ảnh đã được chứng minh là cách tiếp cận Mã hóa tọa độ không gian mạnh mẽ và đơn giản [17][18] giúp giới thiệu thông tin không gian cho mô hình BoW.

Mô hình BoW chưa được thử nghiệm rộng rãi cho quan điểm bất biến và bất biến tỷ lệ, và hiệu suất không rõ ràng. Ngoài ra, mô hình BoW cho phân tách đối tượng và khu vực hóa không được nghiên cứu rõ ràng.[2]

Một so sánh có hệ thống các đường ống phân loại cho thấy việc mã hóa số liệu thống kê thứ tự thứ nhất và thứ hai (Vector của mô tả tổng hợp cục bộ (VLAD) [19]Fisher Vector (FV)) tăng đáng kể độ chính xác phân loại so với BoW, đồng thời giảm kích thước danh bạ, do đó làm giảm chi phí tính toán cho việc tạo codebook.[20] Hơn nữa, một so sánh chi tiết gần đây về các phương pháp mã hóa và gộp chung [18] cho BoW đã chỉ ra rằng số liệu thống kê thứ hai kết hợp với Mã hóa thưa và một nhóm thích hợp như Power bình thường hóa có thể vượt trội hơn so với Fisher vectơ và thậm chí tiếp cận kết quả của các mô hình đơn giản của Mạng thần kinh tích chập đơn giản trên một số bộ dữ liệu nhận dạng đối tượng như Oxford Flower Dataset 102.

Xem thêm[sửa | sửa mã nguồn]

Tham khảo[sửa | sửa mã nguồn]

  1. ^ a ă Fei-Fei Li; Perona, P. (2005). A Bayesian Hierarchical Model for Learning Natural Scene Categories. 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'05). 2. tr. 524. doi:10.1109/CVPR.2005.16. ISBN 978-0-7695-2372-9.
  2. ^ a ă L. Fei-Fei; R. Fergus; A. Torralba. “Recognizing and Learning Object Categories, CVPR 2007 short course”. Đã bỏ qua tham số không rõ |lastauthoramp= (gợi ý |name-list-style=) (trợ giúp)
  3. ^ Qiu, G. (2002). “Indexing chromatic and achromatic patterns for content-based colour image retrieval” (PDF). Pattern Recognition. 35 (8): 1675–1686. doi:10.1016/S0031-3203(01)00162-5.
  4. ^ Vidal-Naquet; Ullman (1999). “Object recognition with informative features and linear classification” (PDF). Proceedings Ninth IEEE International Conference on Computer Vision. tr. 1150–1157. CiteSeerX 10.1.1.131.1283. doi:10.1109/ICCV.2003.1238356. ISBN 978-0-7695-1950-0.
  5. ^ T. Leung; J. Malik (2001). “Representing and recognizing the visual appearance of materials using three-dimensional textons” (PDF). International Journal of Computer Vision. 43 (1): 29–44. doi:10.1023/A:1011126920638.
  6. ^ a ă â b Chú thích trống (trợ giúp)
  7. ^ Sivic, J.; Russell, B.C.; Efros, A.A.; Zisserman, A.; Freeman, W.T. (2005). “Discovering objects and their location in images” (PDF). Tenth IEEE International Conference on Computer Vision (ICCV'05) Volume 1. tr. 370. CiteSeerX 10.1.1.184.1253. doi:10.1109/ICCV.2005.77. ISBN 978-0-7695-2334-7.
  8. ^ D. Blei; A. Ng; M. Jordan (2003). Lafferty, John (biên tập). “Latent Dirichlet allocation” (PDF). Journal of Machine Learning Research. 3 (4–5): 993–1022. doi:10.1162/jmlr.2003.3.4-5.993. Bản gốc (PDF) lưu trữ ngày 22 tháng 8 năm 2008. Truy cập ngày 10 tháng 12 năm 2007. Đã bỏ qua tham số không rõ |last-author-amp= (gợi ý |name-list-style=) (trợ giúp); Đã bỏ qua tham số không rõ |dead-url= (gợi ý |url-status=) (trợ giúp)
  9. ^ Serre, T.; Wolf, L.; Poggio, T. (2005). “Object Recognition with Features Inspired by Visual Cortex” (PDF). 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'05). 2. tr. 994. CiteSeerX 10.1.1.71.5276. doi:10.1109/CVPR.2005.254. ISBN 978-0-7695-2372-9.
  10. ^ a ă Jianguo Zhang; Marcin Marszałek; Svetlana Lazebnik; Cordelia Schmid (2007). “Local Features and Kernels for Classification of Texture and Object Categories: a Comprehensive Study” (PDF). International Journal of Computer Vision. 73 (2): 213–238. doi:10.1007/s11263-006-9794-4.
  11. ^ a ă Grauman, K.; Darrell, T. (2005). “The pyramid match kernel: discriminative classification with sets of image features” (PDF). Tenth IEEE International Conference on Computer Vision (ICCV'05) Volume 1. tr. 1458. CiteSeerX 10.1.1.644.6159. doi:10.1109/ICCV.2005.239. ISBN 978-0-7695-2334-7.
  12. ^ Jianchao Yang; Kai Yu; Yihong Gong; Huang, T. (2009). “Linear spatial pyramid matching using sparse coding for image classification”. 2009 IEEE Conference on Computer Vision and Pattern Recognition. tr. 1794. doi:10.1109/CVPR.2009.5206757. ISBN 978-1-4244-3992-8.
  13. ^ Savarese, S.; Winn, J.; Criminisi, A. (2006). “Discriminative Object Class Models of Appearance and Shape by Correlatons” (PDF). 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition - Volume 2 (CVPR'06). 2. tr. 2033. CiteSeerX 10.1.1.587.8853. doi:10.1109/CVPR.2006.102. ISBN 978-0-7695-2597-6.
  14. ^ Sudderth, E.B.; Torralba, A.; Freeman, W.T.; Willsky, A.S. (2005). “Learning hierarchical models of scenes, objects, and parts” (PDF). Tenth IEEE International Conference on Computer Vision (ICCV'05) Volume 1. tr. 1331. CiteSeerX 10.1.1.128.7259. doi:10.1109/ICCV.2005.137. ISBN 978-0-7695-2334-7.
  15. ^ Niebles, Juan Carlos; Li Fei-Fei (2007). “A Hierarchical Model of Shape and Appearance for Human Action Classification” (PDF). 2007 IEEE Conference on Computer Vision and Pattern Recognition. tr. 1. CiteSeerX 10.1.1.173.2667. doi:10.1109/CVPR.2007.383132. ISBN 978-1-4244-1179-5.
  16. ^ Lazebnik, S.; Schmid, C.; Ponce, J. (2006). “Beyond Bags of Features: Spatial Pyramid Matching for Recognizing Natural Scene Categories” (PDF). 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition - Volume 2 (CVPR'06). 2. tr. 2169. CiteSeerX 10.1.1.651.9183. doi:10.1109/CVPR.2006.68. ISBN 978-0-7695-2597-6.
  17. ^ Koniusz, Piotr; Yan, Fei; Mikolajczyk, Krystian (ngày 1 tháng 5 năm 2013). “Comparison of mid-level feature coding approaches and pooling strategies in visual concept detection”. Computer Vision and Image Understanding. 117 (5): 479–492. doi:10.1016/j.cviu.2012.10.010. ISSN 1077-3142.
  18. ^ a ă Koniusz, Piotr; Yan, Fei; Gosselin, Philippe Henri; Mikolajczyk, Krystian (ngày 24 tháng 2 năm 2017). “Higher-order occurrence pooling for bags-of-words: Visual concept detection”. IEEE Transactions on Pattern Analysis and Machine Intelligence. 39 (2): 313–326. doi:10.1109/TPAMI.2016.2545667. ISSN 0162-8828. PMID 27019477.
  19. ^ Jégou, H.; Douze, M.; Schmid, C.; Pérez, P. (ngày 1 tháng 6 năm 2010). Aggregating local descriptors into a compact image representation. 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. tr. 3304–3311. doi:10.1109/CVPR.2010.5540039. ISBN 978-1-4244-6984-0.
  20. ^ Seeland, Marco; Rzanny, Michael; Alaqraa, Nedal; Wäldchen, Jana; Mäder, Patrick (ngày 24 tháng 2 năm 2017). “Plant species classification using flower images—A comparative study of local feature representations”. PLOS ONE. 12 (2): e0170629. doi:10.1371/journal.pone.0170629. ISSN 1932-6203. PMC 5325198. PMID 28234999.

Liên kết ngoài[sửa | sửa mã nguồn]