U-Net

U-Net là một kiến trúc mạng thần kinh tích chập được thiết kế cho bài toán phân vùng ảnh, đặc biệt là phân vùng ảnh y sinh học. Kiến trúc này được phát triển năm 2015 bởi Olaf Ronneberger, Philipp Fischer và Thomas Brox tại Đại học Freiburg, Đức, và được công bố trong bài báo U-Net: Convolutional Networks for Biomedical Image Segmentation.^[1]

U-Net thuộc họ kiến trúc mã hóa-giải mã (encoder-decoder), vốn được sử dụng trong các bộ tự mã hóa (autoencoder), trong đó một nhánh co (contracting path) đóng vai trò bộ mã hóa với nhiệm vụ trích xuất đặc trưng từ ảnh đầu vào, còn một nhánh mở rộng (expansive path) đóng vai trò bộ giải mã nhằm khôi phục dần độ phân giải không gian của các biểu diễn đặc trưng để tạo ra bản đồ phân vùng đầu ra. Điểm đặc trưng của U-Net là các kết nối bỏ qua (skip connection) nối trực tiếp giữa các tầng có cùng độ phân giải trong hai nhánh, cho phép mạng bảo toàn các chi tiết không gian bị mất trong quá trình xử lý.^[1]

Ban đầu được phát triển cho các ảnh hiển vi sinh học, U-Net nhanh chóng trở thành một trong những kiến trúc có ảnh hưởng nhất trong lĩnh vực phân vùng ảnh. Nhiều biến thể như 3D U-Net, U-Net++, Attention U-Net, nnU-Net và TransUNet đã được phát triển dựa trên thiết kế gốc. Ngoài lĩnh vực y sinh học, U-Net còn được ứng dụng trong viễn thám, khoa học vật liệu, xử lý ảnh công nghiệp và các mô hình khuếch tán hiện đại như Stable Diffusion.

Lịch sử

Bối cảnh

Trước khi học sâu trở nên phổ biến, các hệ thống phân vùng ảnh chủ yếu dựa trên các phương pháp xử lý ảnh truyền thống như ngưỡng hóa (thresholding), phát triển vùng (region growing), thuật toán watershed và đường bao chủ động (active contour). Các phương pháp này thường phụ thuộc vào các đặc trưng được thiết kế thủ công và gặp khó khăn khi xử lý những ảnh có cấu trúc phức tạp hoặc nhiễu cao.^[2]

Sự thành công của mạng thần kinh tích chập trong các bài toán nhận dạng hình ảnh đã thúc đẩy việc áp dụng chúng cho phân vùng ảnh. Một số nghiên cứu đầu thập niên 2010 sử dụng CNN để phân loại từng điểm ảnh hoặc từng vùng ảnh nhỏ (patch) riêng biệt, sau đó ghép các dự đoán lại thành kết quả cuối cùng.^[3] Mặc dù đạt độ chính xác cao hơn nhiều phương pháp truyền thống, cách tiếp cận này có chi phí tính toán lớn do phải thực hiện các phép tích chập lặp đi lặp lại trên những vùng ảnh chồng lấn.

Một bước tiến quan trọng xuất hiện năm 2014 với Fully Convolutional Network (FCN) của Jonathan Long, Evan Shelhamer và Trevor Darrell. FCN loại bỏ các lớp kết nối đầy đủ và cho phép dự đoán trực tiếp bản đồ phân vùng từ toàn bộ ảnh đầu vào, là kiến trúc đầu tiên cho phép thực hiện phân vùng ngữ nghĩa từ đầu đến cuối trên toàn bộ ảnh đầu vào.^[4]

Tuy nhiên, FCN vẫn gặp hạn chế trong việc khôi phục các chi tiết không gian chính xác. Khi các bản đồ đặc trưng đi qua nhiều lớp lấy mẫu (pooling) và tích chập, thông tin về vị trí và vùng biên giới của đối tượng cần được phân vùng dần bị suy giảm, khiến đầu ra thường thiếu chính xác ở những cấu trúc nhỏ hoặc vùng biên phức tạp. Đây là vấn đề mà U-Net được thiết kế để giải quyết.^[1]

U-Net

Năm 2015, Olaf Ronneberger, Philipp Fischer và Thomas Brox giới thiệu U-Net tại hội nghị MICCAI. Mục tiêu của nhóm nghiên cứu là xây dựng một hệ thống có thể phân vùng chính xác ảnh hiển vi sinh học trong điều kiện số lượng ảnh gán nhãn còn hạn chế, vốn là tình trạng phổ biến trong nghiên cứu y sinh học.^[1]^[5]

Kiến trúc mới sử dụng một nhánh mã hóa để học các đặc trưng ngữ nghĩa và một nhánh decoder đối xứng để khôi phục độ phân giải của bản đồ đặc trưng. Khác với FCN, U-Net bổ sung các kết nối bỏ qua giữa những tầng có cùng độ phân giải trong bộ mã hóa và bộ giải mã. Các kết nối này cho phép mạng kết hợp thông tin ngữ nghĩa cấp cao với các chi tiết không gian ở độ phân giải cao, từ đó cải thiện đáng kể độ chính xác của kết quả phân vùng.^[1]

Trong cuộc thi ISBI Cell Tracking Challenge năm 2015, U-Net đạt kết quả dẫn đầu ở nhiều hạng mục phân vùng ảnh hiển vi. Thành công này góp phần đưa U-Net trở thành kiến trúc tiêu chuẩn trong phân vùng ảnh y sinh học và là nền tảng cho nhiều nghiên cứu tiếp theo trong lĩnh vực này.^[1]

Kiến trúc

Tổng quan

U-Net gồm hai thành phần chính: một nhánh co (contracting path) đóng vai trò bộ mã hóa và một nhánh mở rộng (expansive path) đóng vai trò bộ giải mã.^[1] Hai nhánh được bố trí đối xứng, tạo nên hình dạng giống chữ U, từ đó kiến trúc này được đặt tên là U-Net.

Trong quá trình xử lý, bộ mã hóa dần giảm độ phân giải không gian của ảnh để học các đặc trưng ngữ nghĩa ngày càng trừu tượng hơn, trong khi decoder khôi phục dần độ phân giải này để tạo ra bản đồ phân vùng cuối cùng. Các kết nối bỏ qua giữa hai nhánh cho phép kết hợp thông tin ngữ nghĩa cấp cao với các chi tiết không gian ở độ phân giải cao.^[1]

Nhánh co

Nhánh co của U-Net có cấu trúc tương tự một mạng thần kinh tích chập truyền thống. Mỗi mức gồm hai lớp tích chập 3×3 nối tiếp với hàm kích hoạt ReLU, theo sau là một lớp max-pooling 2×2 có bước nhảy bằng 2.^[1]

Sau mỗi lần lấy mẫu, chiều rộng và chiều cao của bản đồ đặc trưng giảm một nửa, trong khi số kênh đặc trưng tăng gấp đôi. Thiết kế này cho phép mạng học được các đặc trưng ngày càng phức tạp trên phạm vi không gian lớn hơn. Trong mô hình gốc năm 2015, số lượng kênh đặc trưng tăng dần lên theo chuỗi 64, 128, 256, 512 và 1024 khi đi sâu vào mạng.^[1]

Nhánh mở rộng

Nhánh mở rộng có nhiệm vụ khôi phục độ phân giải không gian của các bản đồ đặc trưng để tạo ra kết quả phân vùng ở mức điểm ảnh.

Mỗi mức của decoder bắt đầu bằng một phép tích chập chuyển vị (transposed convolution, còn gọi là up-convolution) 2×2 nhằm tăng gấp đôi độ phân giải của bản đồ đặc trưng. Sau đó, đặc trưng được nối với đầu ra tương ứng từ bộ mã hóa thông qua kết nối bỏ qua, rồi đi qua hai lớp tích chập 3×3 và hàm kích hoạt ReLU. Ở lớp cuối cùng, một tích chập 1×1 được sử dụng để ánh xạ các đặc trưng sang số lớp cần phân vùng, tạo ra bản đồ xác suất cho từng điểm ảnh.^[1]

Kết nối bỏ qua

Đóng góp quan trọng nhất của U-Net là việc sử dụng các kết nối bỏ qua giữa bộ mã hóa và bộ giải mã.^[1]

Trong các mạng mã hóa-giải mã thông thường, thông tin không gian chi tiết thường bị mất dần khi dữ liệu đi qua nhiều lớp lấy mẫu. Mặc dù decoder có thể khôi phục độ phân giải của bản đồ đặc trưng, nhiều chi tiết về vị trí và biên đối tượng đã không còn tồn tại trong các tầng sâu của mạng.^[1]

Để giải quyết vấn đề này, U-Net sao chép các bản đồ đặc trưng từ bộ mã hóa và nối chúng với các bản đồ đặc trưng có cùng độ phân giải trong decoder. Nếu ký hiệu đầu ra được mã hóa là $E$ và đầu ra từ bộ giải mã là $D$ , đầu vào của tầng tiếp theo trong bộ giải mã được biểu diễn dưới dạng:

$X=[E;D]$

trong đó $[;]$ là phép nối theo chiều kênh (concatenation).

Cơ chế này có điểm tương đồng với kết nối dư trong ResNet, nhưng có điểm khác bởi ResNet vốn cộng trực tiếp đầu vào với đầu ra của một khối mạng chủ yếu giúp cải thiện quá trình tối ưu hóa và lan truyền gradient.^[6] Trong khi đó, các kết nối bỏ qua của U-Net được thiết kế nhằm bảo tồn thông tin không gian phục vụ bài toán phân vùng ảnh.^[1]

Huấn luyện

Do dữ liệu gán nhãn trong y sinh học thường hạn chế, bài báo gốc sử dụng nhiều kỹ thuật tăng cường dữ liệu (data augmentation), đặc biệt là các phép biến dạng đàn hồi (elastic deformation). Theo các tác giả, đây là yếu tố quan trọng giúp mạng học được tính bất biến đối với những biến dạng thường gặp trong mô sinh học.^[1]

Mô hình gốc được huấn luyện với hàm mất mát dựa trên entropy chéo theo điểm ảnh và sử dụng trọng số lớn hơn cho các vùng biên giữa các đối tượng nhằm cải thiện khả năng tách các cấu trúc nằm sát nhau.^[1]

Biến thể

Sau khi được giới thiệu năm 2015, U-Net nhanh chóng trở thành nền tảng cho nhiều kiến trúc phân vùng ảnh khác nhau. Các biến thể này thường tập trung vào việc mở rộng U-Net sang dữ liệu ba chiều, cải thiện cơ chế kết nối bỏ qua hoặc kết hợp với các kiến trúc mới như transformer.^[5]

3D U-Net

Năm 2016, Özgün Çiçek và cộng sự giới thiệu 3D U-Net, một phiên bản mở rộng của U-Net dành cho dữ liệu thể tích như ảnh chụp cắt lớp vi tính (CT) và chụp cộng hưởng từ (MRI). Khác với U-Net gốc sử dụng các phép tích chập hai chiều, 3D U-Net thay thế chúng bằng các phép tích chập ba chiều để khai thác thông tin theo chiều sâu của dữ liệu thể tích.^[7] Kiến trúc này nhanh chóng trở thành một trong những phương pháp tiêu chuẩn trong phân vùng ảnh y khoa ba chiều.^[5]

V-Net

Cũng trong năm 2016, Fausto Milletari và cộng sự đề xuất V-Net, một kiến trúc mã hóa-giải mã ba chiều được thiết kế cho phân vùng thể tích tuyến tiền liệt trong ảnh MRI. V-Net sử dụng các kết nối dư tương tự ResNet và giới thiệu hàm mất mát Dice, giúp tối ưu trực tiếp chỉ số Dice coefficient vốn được sử dụng rộng rãi trong đánh giá chất lượng phân vùng ảnh y khoa.^[8]

U-Net++

Năm 2018, Zongwei Zhou và cộng sự giới thiệu U-Net++, trong đó các kết nối bỏ qua được thay thế bằng một tập hợp các đường dẫn lồng nhau nhằm thu hẹp khoảng cách ngữ nghĩa giữa bộ mã hóa và bộ giải mã. Theo các tác giả, thiết kế này giúp cải thiện khả năng kết hợp đặc trưng giữa hai nhánh của mạng và đạt kết quả tốt hơn U-Net gốc trên nhiều bộ dữ liệu y sinh học.^[9]

Attention U-Net

Cùng năm 2018, Ozan Oktay và cộng sự phát triển Attention U-Net, bổ sung các cổng chú ý (attention gate) từ trong kiến trúc Transformer vào các kết nối bỏ qua của U-Net.^[10] Các cổng chú ý cho phép mạng tập trung vào những vùng có liên quan tới đối tượng cần phân vùng, đồng thời giảm ảnh hưởng của các vùng nền không cần thiết. Attention U-Net đặc biệt phổ biến trong các bài toán phân vùng cơ quan và khối u trong ảnh y khoa.^[5]

nnU-Net

Năm 2021, Fabian Isensee và cộng sự giới thiệu nnU-Net (no-new-Net), một hệ thống tự động cấu hình dựa trên U-Net. Thay vì đề xuất một kiến trúc mới, nnU-Net tự động lựa chọn các siêu tham số, chiến lược tiền xử lý và quy trình huấn luyện phù hợp với từng bộ dữ liệu. Hệ thống này đạt thành tích hàng đầu trên nhiều cuộc thi phân vùng ảnh y khoa và được xem là một chuẩn tham chiếu trong lĩnh vực.^[11]

Các kiến trúc dựa trên vision transformer

Sự thành công của Vision Transformer (ViT) đã thúc đẩy nhiều nghiên cứu kết hợp transformer với U-Net. Một số ví dụ tiêu biểu gồm TransUNet,^[12] UNETR,^[13] và Swin-UNet.^[14] Trong đó, TransUNet sử dụng transformer sau các lớp tích chập của bộ mã hóa nhằm kết hợp thông tin cục bộ của CNN với khả năng mô hình hóa quan hệ toàn cục của transformer.^[12] UNETR thì thay thế toàn bộ phần mã hóa bằng ViT,^[13] trong khi Swin-UNet xây dựng một kiến trúc U-Net thuần transformer dựa trên Swin Transformer, trong đó cả bộ mã hóa và bộ giải mã đều được cấu tạo từ các khối transformer phân cấp.^[14]

Các mô hình này thường sử dụng kiến trúc transformer để học biểu diễn toàn cục của ảnh, trong khi vẫn duy trì cấu trúc mã hóa-giải mã và các kết nối bỏ qua đặc trưng của U-Net.^[5]

Ứng dụng

Y tế

Phân vùng ảnh y sinh học là lĩnh vực ứng dụng quan trọng nhất của U-Net. Kiến trúc này được sử dụng rộng rãi để xác định tế bào, mô, cơ quan và khối u trong các loại ảnh hiển vi, ảnh chụp cắt lớp vi tính (CT), ảnh cộng hưởng từ (MRI) và nhiều dạng ảnh y khoa khác.^[1]^[5] Nhờ khả năng đạt độ chính xác cao ngay cả khi số lượng dữ liệu gán nhãn còn hạn chế, U-Net và các biến thể của nó đã trở thành một trong những kiến trúc tiêu chuẩn trong phân vùng ảnh y khoa. Kể cả với sự ra mắt và phổ biến của các mô hình phân vùng ảnh mạnh hơn nhờ kiến trúc ViT, ViT vẫn có nhược điểm là cần một lượng lớn dữ liệu huấn luyện, trong khi dữ liệu y tế lại không quá dồi dào trên thực tế, giúp các kiến trúc tích chập từ U-Net vẫn có chỗ đứng.^[15]

Viễn thám

U-Net được ứng dụng trong phân tích ảnh vệ tinh và ảnh chụp từ trên không, bao gồm phân vùng lớp phủ mặt đất, đường giao thông, công trình xây dựng và khu vực cây xanh. Khả năng kết hợp thông tin toàn cục và chi tiết cục bộ của U-Net đặc biệt phù hợp với các bài toán yêu cầu xác định chính xác biên của các đối tượng trong ảnh có độ phân giải cao trong ảnh vệ tinh.^[16]

Mô hình khuếch tán

Kiến trúc mã hóa-giải mã cùng các kết nối bỏ qua của U-Net còn được sử dụng rộng rãi trong các mô hình khuếch tán (diffusion model). Trong các hệ thống như DDPM và Stable Diffusion, U-Net đóng vai trò mạng dự đoán nhiễu tại từng bước của quá trình khử nhiễu.^[17]^[18]

Ảnh hưởng

U-Net được xem là một trong những kiến trúc có ảnh hưởng nhất trong lĩnh vực phân vùng ảnh. Trong giai đoạn cuối thập niên 2010, U-Net trở thành kiến trúc mặc định cho nhiều bài toán phân vùng ảnh y khoa. Hàng loạt biến thể như 3D U-Net, V-Net, và U-Net++ được phát triển nhằm mở rộng hoặc cải thiện thiết kế ban đầu.^[5]

Từ đầu thập niên 2020, nhiều nghiên cứu bắt đầu kết hợp U-Net với các kiến trúc transformer nhằm tận dụng khả năng mô hình hóa quan hệ toàn cục của kiến trúc này. Các mô hình như TransUNet, UNETR và Swin-UNet cho thấy cấu trúc mã hóa-giải mã cùng các kết nối bỏ qua của U-Net vẫn tiếp tục được duy trì ngay cả khi các thành phần tích chập truyền thống được thay thế bằng transformer.^[12]

Mặc dù các mô hình dựa trên transformer như Segment Anything Model (SAM) đã đạt thành công đáng kể trong các bài toán phân vùng ảnh tổng quát,^[19]^[20]^[21] U-Net và các biến thể của nó vẫn được sử dụng rộng rãi trong phân vùng ảnh y khoa nhờ hiệu quả trên các tập dữ liệu chuyên biệt có quy mô hạn chế.^[15]

Ngoài lĩnh vực phân vùng ảnh, ảnh hưởng của U-Net còn mở rộng sang các mô hình khuếch tán hiện đại. Nhiều hệ thống tạo sinh hình ảnh sử dụng các biến thể của U-Net làm thành phần trung tâm trong quá trình dự đoán và loại bỏ nhiễu, góp phần đưa kiến trúc này trở thành một trong những thiết kế nền tảng của học sâu hiện đại.^[17]^[18]

Tham khảo

^ ^a ^b ^c ^d ^e ^f ^g ^h ⁱ ^j ^k ^l ^m ⁿ ^o ^p ^q Ronneberger, Olaf; Fischer, Philipp; Brox, Thomas (2015). "U-Net: Convolutional Networks for Biomedical Image Segmentation". Medical Image Computing and Computer-Assisted Intervention (MICCAI). tr. 234–241. arXiv:1505.04597. doi:10.1007/978-3-319-24574-4_28.
^ Prince, Jerry L.; Links, Jonathan M. (2014). Medical Imaging Signals and Systems (ấn bản thứ 2). Pearson.
^ Ciresan, Dan; Giusti, Alessandro; Gambardella, Luca M.; Schmidhuber, Jürgen (2012). "Deep Neural Networks Segment Neuronal Membranes in Electron Microscopy Images". Advances in Neural Information Processing Systems. Quyển 25.
^ Long, Jonathan; Shelhamer, Evan; Darrell, Trevor (2015). "Fully Convolutional Networks for Semantic Segmentation". IEEE Transactions on Pattern Analysis and Machine Intelligence. Quyển 39 số 4. tr. 640–651. doi:10.1109/TPAMI.2016.2572683.
^ ^a ^b ^c ^d ^e ^f ^g Jiangtao, Wang; Ruhaiyem, Nur Intan Raihana; Panpan, Fu (tháng 1 năm 2025). "A Comprehensive Review of U‐Net and Its Variants: Advances and Applications in Medical Image Segmentation". IET Image Processing (bằng tiếng Anh). Quyển 19 số 1. doi:10.1049/ipr2.70019. ISSN 1751-9659.
^ He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (2016). Deep Residual Learning for Image Recognition (PDF). Conference on Computer Vision and Pattern Recognition. arXiv:1512.03385. doi:10.1109/CVPR.2016.90.
^ Çiçek, Özgün; Abdulkadir, Ahmed; Lienkamp, Soeren S.; Brox, Thomas; Ronneberger, Olaf (2016). Ourselin, Sebastien; Joskowicz, Leo; Sabuncu, Mert R.; Unal, Gozde; Wells, William (biên tập). "3D U-Net: Learning Dense Volumetric Segmentation from Sparse Annotation". Medical Image Computing and Computer-Assisted Intervention – MICCAI 2016 (bằng tiếng Anh). Cham: Springer International Publishing. tr. 424–432. doi:10.1007/978-3-319-46723-8_49. ISBN 978-3-319-46723-8.
^ Milletari, Fausto; Navab, Nassir; Ahmadi, Seyed-Ahmad (tháng 10 năm 2016). "V-Net: Fully Convolutional Neural Networks for Volumetric Medical Image Segmentation". 2016 Fourth International Conference on 3D Vision (3DV). tr. 565–571. doi:10.1109/3DV.2016.79.
^ Zhou, Zongwei; Rahman Siddiquee, Md Mahfuzur; Tajbakhsh, Nima; Liang, Jianming (2018). Stoyanov, Danail; Taylor, Zeike; Carneiro, Gustavo; Syeda-Mahmood, Tanveer; Martel, Anne; Maier-Hein, Lena; Tavares, João Manuel R.S.; Bradley, Andrew; Papa, João Paulo (biên tập). "UNet++: A Nested U-Net Architecture for Medical Image Segmentation". Deep Learning in Medical Image Analysis and Multimodal Learning for Clinical Decision Support (bằng tiếng Anh). Cham: Springer International Publishing. tr. 3–11. doi:10.1007/978-3-030-00889-5_1. ISBN 978-3-030-00889-5. PMC 7329239. PMID 32613207.
^ Oktay, Ozan; Schlemper, Jo; Le Folgoc, Loïc (ngày 20 tháng 5 năm 2018). "Attention U-Net: Learning Where to Look for the Pancreas". Medical Imaging with Deep Learning (MIDL). arXiv:1804.03999.{{Chú thích tạp chí}}: Quản lý CS1: ngày tháng và năm (liên kết)
^ Isensee, Fabian; Jaeger, Paul F.; Kohl, Simon A. A.; Petersen, Jens; Maier-Hein, Klaus H. (tháng 2 năm 2021). "nnU-Net: a self-configuring method for deep learning-based biomedical image segmentation". Nature Methods (bằng tiếng Anh). Quyển 18 số 2. tr. 203–211. doi:10.1038/s41592-020-01008-z. ISSN 1548-7105.
^ ^a ^b ^c "TransUNet: Rethinking the U-Net architecture design for medical image segmentation through the lens of transformers". Medical Image Analysis (bằng tiếng Anh). Quyển 97. ngày 1 tháng 10 năm 2024. tr. 103280. doi:10.1016/j.media.2024.103280. ISSN 1361-8415.
^ ^a ^b Hatamizadeh, Ali; Tang, Yucheng; Nath, Vishwesh; Yang, Dong; Myronenko, Andriy; Landman, Bennett; Roth, Holger R.; Xu, Daguang (2022). "UNETR: Transformers for 3D Medical Image Segmentation". Winter Conference on Applications of Computer Vision (WACV) (bằng tiếng Anh). tr. 574–584.
^ ^a ^b Cao, Hu; Wang, Yueyue; Chen, Joy; Jiang, Dongsheng; Zhang, Xiaopeng; Tian, Qi; Wang, Manning (2023). Karlinsky, Leonid; Michaeli, Tomer; Nishino, Ko (biên tập). "Swin-Unet: Unet-Like Pure Transformer for Medical Image Segmentation". European Conference on Computer Vision (ECCV) (bằng tiếng Anh). Cham: Springer Nature Switzerland. tr. 205–218. doi:10.1007/978-3-031-25066-8_9. ISBN 978-3-031-25066-8.
^ ^a ^b Takahashi, Satoshi; Sakaguchi, Yusuke; Kouno, Nobuji; Takasawa, Ken; Ishizu, Kenichi; Akagi, Yu; Aoyama, Rina; Teraya, Naoki; Bolatkan, Amina (ngày 12 tháng 9 năm 2024). "Comparison of Vision Transformers and Convolutional Neural Networks in Medical Image Analysis: A Systematic Review". Journal of Medical Systems (bằng tiếng Anh). Quyển 48 số 1. tr. 84. doi:10.1007/s10916-024-02105-8. ISSN 1573-689X. PMC 11393140. PMID 39264388.
^ Diakogiannis, Foivos I.; Waldner, François; Caccetta, Peter; Wu, Chen (ngày 1 tháng 4 năm 2020). "ResUNet-a: A deep learning framework for semantic segmentation of remotely sensed data". ISPRS Journal of Photogrammetry and Remote Sensing. Quyển 162. tr. 94–114. doi:10.1016/j.isprsjprs.2020.01.013. ISSN 0924-2716.
^ ^a ^b Ho, Jonathan; Jain, Ajay; Abbeel, Pieter (2020). "Denoising Diffusion Probabilistic Models". Advances in Neural Information Processing Systems. Quyển 33. Curran Associates, Inc. tr. 6840–6851.
^ ^a ^b Rombach, Robin; Blattmann, Andreas; Lorenz, Dominik; Esser, Patrick; Ommer, Björn (2022). "High-Resolution Image Synthesis With Latent Diffusion Models". Computer Vision and Pattern Recognition (CVPR) (bằng tiếng Anh). tr. 10684–10695.
^ Kirillov, Alexander; Mintun, Eric; Ravi, Nikhila; Mao, Hanzi; Rolland, Chloé; Gustafson, Laura; Xiao, Tete; Whitehead, Spencer; Berg, Alexander C.; Lo, Wan-Yen; Dollár, Piotr; Girshick, Ross (2023). "Segment Anything". Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV). tr. 4015–4026.
^ Ravi, Nikhila; Gabeur, Valentin; Hu, Yuan-Ting; Hu, Ronghang; Ryali, Chaitanya; Ma, Tengyu; Khedr, Haitham; Rädle, Roman; Rolland, Chloe; Gustafson, Laura; Mintun, Eric; Pan, Junting; Alwala, Kalyan Vasudev; Carion, Nicolas; Wu, Chao-Yuan; Girshick, Ross; Dollár, Piotr; Feichtenhofer, Christoph (2025). "SAM 2: Segment Anything in Images and Videos". International Conference on Learning Representations (ICLR). arXiv:2408.00714.
^ Carion, Nicolas; Gustafson, Laura; Hu, Yuan-Ting; Debnath, Shoubhik; Hu, Ronghang; Suris, Didac; Ryali, Chaitanya; Alwala, Kalyan Vasudev; Khedr, Haitham; Huang, Andrew; Lei, Jie; Ma, Tengyu; Guo, Baishan; Kalla, Arpit; Marks, Markus; Greer, Joseph; Wang, Meng; Sun, Peize; Rädle, Roman; Afouras, Triantafyllos; Mavroudi, Effrosyni; Xu, Katherine; Wu, Tsung-Han; Zhou, Yu; Momeni, Liliane; Hazra, Rishi; Ding, Shuangrui; Vaze, Sagar; Porcher, Francois; Li, Feng; Li, Siyuan; Kamath, Aishwarya; Cheng, Ho Kei; Dollár, Piotr; Ravi, Nikhila; Saenko, Kate; Zhang, Pengchuan; Feichtenhofer, Christoph (2026). "SAM 3: Segment Anything with Concepts". International Conference on Learning Representations (ICLR). arXiv:2511.16719.