Nhà văn và nhà triết học người Pháp Voltaire từng nói rằng “sự độc đáo không gì khác hơn là sự bắt chước hợp lý” và khi nói đến việc sử dụng trí tuệ nhân tạo, ông ấy hoàn toàn đúng.
Sử dụng vô số phép toán phức tạp, các siêu máy tính mạnh mẽ có thể được sử dụng để phân tích hàng tỷ hình ảnh và văn bản, tạo ra một bản đồ số về xác suất giữa hai loại. Một trong những bản đồ như vậy được gọi là Khuếch tán ổn định và kể từ khi nó xuất hiện, nó đã trở thành chủ đề của sự ngạc nhiên, chế nhạo và sử dụng nhiệt tình.
Và trên hết, bạn cũng có thể sử dụng nó nhờ hướng dẫn chi tiết của chúng tôi về cách sử dụng Khuếch tán ổn định để tạo hình ảnh AI và hơn thế nữa!
Khuếch tán ổn định là một thuật toán học sâu sử dụng văn bản làm đầu vào để tạo hình ảnh hiển thị. Một câu trả lời dài hơn cho cùng câu hỏi đó phức tạp hơn: nó liên quan đến các mạng thần kinh dựa trên máy tính đã được đào tạo với các bộ dữ liệu được chọn từ dự án LAION-5B – một bộ sưu tập 5 tỷ hình ảnh và chú thích liên quan. Kết quả cuối cùng là thứ mà khi được cung cấp một vài từ, mô hình máy học sẽ tính toán và sau đó hiển thị hình ảnh có khả năng phù hợp nhất với chúng.
Khuếch tán ổn định là điều bất thường trong lĩnh vực của nó vì các nhà phát triển đã công khai mã nguồn và trọng số mô hình (sự hợp tác giữa Stability AI, Computer Vision & Learning Group tại LMU Munich và Runway AI).
Các trọng số của mô hình về cơ bản là một mảng dữ liệu rất lớn kiểm soát mức độ ảnh hưởng của đầu vào đến đầu ra.

Có hai phiên bản chính của Khuếch tán ổn định – phiên bản 1 và phiên bản 2. Sự khác biệt chính nằm ở bộ dữ liệu được sử dụng để huấn luyện các mô hình và bộ mã hóa văn bản. Có bốn mô hình chính có sẵn cho phiên bản 1:
Đối với phiên bản 2, tất cả các bộ dữ liệu và mạng thần kinh được sử dụng đều là nguồn mở và khác nhau về nội dung hình ảnh.
Bản cập nhật không phải là không bị chỉ trích nhưng nó có thể tạo ra kết quả vượt trội – mô hình cơ sở có thể được sử dụng để tạo hình ảnh có kích thước 768 x 768 (so với 512 x 512 trong v1) và thậm chí còn có một mô hình để tạo hình ảnh 2k.

Tuy nhiên, khi bắt đầu tạo hình ảnh AI, bạn sử dụng kiểu máy nào không quan trọng. Với phần cứng phù hợp, một chút kiến thức về máy tính và nhiều thời gian rảnh rỗi để khám phá nó, bất kỳ ai cũng có thể tải xuống các tệp có liên quan và tham gia.
Nếu bạn muốn sử dụng Stable Diffusion nhanh chóng và đơn giản mà không bị bẩn tay, bạn có thể thử bản demo của nó tại đây.
Bạn có hai trường văn bản cần hoàn thành: trường đầu tiên là dấu nhắc tích cực báo cho thuật toán tập trung vào các từ nhập đó. Thứ hai, một lời nhắc tiêu cực, yêu cầu thuật toán xóa các mục đó khỏi hình ảnh mà nó sắp tạo.

Có một điều bổ sung mà bạn có thể thay đổi trong bản demo đơn giản này.
Trong Tùy chọn nâng cao, thang hướng dẫn càng cao thì thuật toán sẽ bám sát các từ đầu vào càng chặt chẽ. Đặt giá trị này quá cao và bạn sẽ kết thúc với một mớ hỗn độn xấu xí, nhưng vẫn đáng để thử nghiệm để xem những gì bạn có thể nhận được.
Bản demo khá hạn chế và chậm vì các tính toán đang được thực hiện trên máy chủ. Nếu bạn muốn kiểm soát nhiều hơn đối với đầu ra, thì bạn cần tải mọi thứ xuống máy của chính mình. Vì vậy, chúng ta hãy làm điều đó!
Mặc dù bài viết này dựa trên quy trình cài đặt có liên quan của dự án webUI Khuếch tán Ổn định (phần tiếp theo bên dưới) và chúng tôi muốn giải thích các công cụ cơ bản theo ý của bạn (đừng bỏ lỡ phần về lời nhắc và mẫu!), cộng đồng SD là phát triển nhanh chóng và các phương pháp cài đặt dễ dàng hơn là một trong những điều mà hầu hết mọi người mong muốn.
Chúng tôi có ba phím tắt cài đặt tiềm năng:
Hãy bắt đầu với một lưu ý quan trọng – Stable Diffusion ban đầu được phát triển để xử lý trên GPU Nvidia và bạn sẽ cần một GPU có ít nhất 4GB VRAM, mặc dù nó hoạt động tốt hơn rất nhiều với con số đó gấp đôi. Do tính chất mã nguồn mở của dự án, nó có thể được tạo ra để hoạt động trên GPU AMD, mặc dù nó không dễ cài đặt và chạy không nhanh bằng; chúng ta sẽ giải quyết vấn đề này sau trong bài viết.
Hiện tại, hãy truy cập dự án webUI khuếch tán ổn định trên GitHub. Đây là một hệ thống đang trong quá trình quản lý hầu hết các bản tải xuống và hướng dẫn có liên quan, đồng thời gói gọn tất cả trong một giao diện dựa trên trình duyệt.
Bước đầu tiên là tải xuống và cài đặt Python 3.10.6 .
Khi bạn cài đặt Python, hãy đảm bảo rằng bạn đã chọn tùy chọn Thêm vào đường dẫn . Mọi thứ khác có thể vẫn ở trong cài đặt mặc định.

Nếu bạn đã cài đặt các phiên bản Python và bạn không cần sử dụng chúng, hãy gỡ cài đặt các phiên bản đó trước. Nếu không, hãy tạo một tài khoản người dùng mới, với quyền quản trị viên và chuyển sang người dùng đó trước khi cài đặt phiên bản 3.10.6 – điều này sẽ giúp hệ thống không bị nhầm lẫn với Python mà nó phải sử dụng.
Điều tiếp theo cần làm là cài đặt Git – điều này sẽ tự động thu thập tất cả các tệp bạn cần từ GitHub. Bạn có thể để tất cả các tùy chọn cài đặt trong cài đặt mặc định, nhưng một tùy chọn đáng để kiểm tra là môi trường đường dẫn.
Đảm bảo rằng điều này được đặt thành Git từ dòng lệnh , vì chúng tôi sẽ sử dụng điều này để cài đặt tất cả các tiện ích mà chúng tôi cần.

Với Git trên máy tính của bạn, hãy sử dụng nó để sao chép các tệp thiết lập cho webUI khuếch tán ổn định.
Đáng lẽ phải có một khoảng cách giữa t cuối cùng và dấu chấm – điều này ngăn Git tạo thêm một thư mục để điều hướng, mỗi khi bạn muốn sử dụng giao diện người dùng web Khuếch tán ổn định.

Tùy thuộc vào tốc độ kết nối internet của bạn, bạn sẽ thấy toàn bộ các thư mục và tệp. Tạm thời bỏ qua chúng, vì chúng ta cần lấy thêm một hoặc hai thứ nữa.
Chọn đúng mô hình có thể là khó khăn. Có bốn mẫu chính có sẵn cho SD v1 và hai mẫu cho SD v2, nhưng cũng có rất nhiều mẫu bổ sung. Chúng tôi sẽ sử dụng v1.4 vì nó đã được đào tạo rất nhiều và đó là phiên bản chúng tôi có độ ổn định cao nhất trên PC thử nghiệm của mình.
Giao diện người dùng web khuếch tán ổn định hỗ trợ nhiều mô hình, vì vậy miễn là bạn có mô hình phù hợp, bạn có thể tự do khám phá.
Tệp bạn muốn kết thúc bằng .ckpt nhưng bạn sẽ nhận thấy rằng có hai tệp (ví dụ : sd-v1-1.ckpt và sd-v1-1-full-ema.ckpt) – hãy sử dụng tệp đầu tiên, không phải tệp ema đầy đủ một.
Các tệp mô hình có dung lượng lớn (hơn 4GB) nên sẽ mất một lúc để tải xuống. Khi bạn đã có nó, hãy di chuyển tệp vào thư mục C:sdwebuimodelsStable-diffusion – hoặc vào thư mục bạn đã tạo để chứa giao diện người dùng web Khuếch tán ổn định.

Lưu ý rằng nếu bạn dự định sử dụng các mẫu Stable Diffusion v2, bạn sẽ cần thêm tệp cấu hình vào thư mục trên.
Bạn có thể tìm thấy chúng cho SD webUI tại đây (cuộn xuống cuối trang) – nhấp vào cái bạn cần sử dụng, sau đó nhấn CTRL+S , thay đổi Save as Type thành All files và nhập tên sao cho phù hợp. giống như mô hình bạn đang sử dụng. Cuối cùng, đảm bảo rằng tên kết thúc bằng định dạng .yaml .
Bạn gần như đã hoàn tất!
Để bắt đầu mọi thứ, hãy nhấp đúp vào tệp bó Windows có nhãn webui.bat trong thư mục sdwebui. Một cửa sổ nhắc lệnh sẽ mở ra và sau đó hệ thống sẽ bắt đầu truy xuất tất cả các tệp khác cần thiết.
Quá trình này có thể mất nhiều thời gian và thường ít có dấu hiệu tiến triển, vì vậy hãy kiên nhẫn.

Bạn sẽ cần chạy tệp webui.bat mỗi khi muốn sử dụng Khuếch tán ổn định, nhưng tệp này sẽ kích hoạt nhanh hơn nhiều trong tương lai vì tệp này đã có sẵn các tệp cần thiết.
Quá trình sẽ luôn kết thúc với cùng một vài dòng cuối cùng trong cửa sổ lệnh. Hãy chú ý đến URL mà nó cung cấp – đây là địa chỉ bạn sẽ nhập vào trình duyệt web (Chrome, Firefox, v.v.) để sử dụng giao diện người dùng web Khuếch tán Ổn định.
Đánh dấu và sao chép địa chỉ IP này , mở trình duyệt, dán liên kết vào trường địa chỉ, nhấn Enter và chơi lô tô!
Bạn đã sẵn sàng bắt đầu tạo một số hình ảnh do AI tạo.

Khi webUI khuếch tán ổn định (hoặc viết tắt là SDWUI ) đang chạy, sẽ có hai cửa sổ mở ra – một cửa sổ lệnh và tab trình duyệt. Trình duyệt là nơi bạn sẽ nhập đầu vào và đầu ra, vì vậy khi bạn hoàn tất và tắt SD, hãy đảm bảo rằng bạn đóng cả hai cửa sổ.
Bạn sẽ nhận thấy có rất nhiều tùy chọn trong tầm tay của mình. May mắn thay, bạn có thể bắt đầu ngay lập tức, vì vậy hãy bắt đầu bằng cách thêm một số từ vào trường Nhắc, bắt đầu bằng hình ảnh AI tương đương ‘Xin chào thế giới’:
“phi hành gia trên lưng ngựa”
Nếu bạn để giá trị Seed ở -1, nó sẽ ngẫu nhiên hóa điểm bắt đầu tạo mỗi lần, vì vậy chúng tôi sẽ sử dụng giá trị 1 nhưng bạn kiểm tra bất kỳ giá trị nào bạn muốn.
Bây giờ, chỉ cần nhấp vào nút Tạo lớn!
Tùy thuộc vào thông số kỹ thuật của hệ thống, bạn sẽ có hình ảnh đầu tiên do AI tạo ra trong vòng một phút hoặc lâu hơn…

SDWUI lưu trữ tất cả các hình ảnh được tạo trong thư mục outputstxt2img-images . Đừng lo lắng rằng hình ảnh xuất hiện quá nhỏ. Chà, nó nhỏ – chỉ 512 x 512, nhưng vì mô hình chủ yếu được đào tạo trên các hình ảnh có kích thước đó, đây là lý do tại sao chương trình mặc định ở độ phân giải này.
Nhưng như bạn thấy, chúng ta chắc chắn có hình ảnh một phi hành gia đang cưỡi ngựa. Khuếch tán ổn định rất nhạy cảm với các từ nhắc nhở và nếu bạn muốn tập trung vào những điều cụ thể, hãy thêm các từ vào lời nhắc bằng dấu phẩy. Bạn cũng có thể thêm các từ vào Lời nhắc tiêu cực để yêu cầu nó cố gắng bỏ qua một số khía cạnh.
Việc tăng các bước lấy mẫu có xu hướng mang lại kết quả tốt hơn, cũng như có thể sử dụng một phương pháp lấy mẫu khác. Cuối cùng, giá trị của Thang đo CFG cho SDWUI biết mức độ ‘tuân thủ’ các lời nhắc đã nhập – giá trị càng thấp, việc giải thích các hướng dẫn sẽ càng tự do. Vì vậy, hãy thử một lần nữa và xem liệu chúng ta có thể làm tốt hơn không.
Lần này, các từ gợi ý của chúng tôi là ‘ phi hành gia trên ngựa, nasa, hiện thực ‘ và chúng tôi đã thêm ‘ vẽ tranh, hoạt hình, siêu thực ‘ vào trường gợi ý phủ định; chúng tôi cũng tăng các bước lấy mẫu lên 40, sử dụng phương pháp DDIM và nâng thang đo CFG lên 9…

Bây giờ nó được cho là tốt hơn rất nhiều, nhưng vẫn còn lâu mới hoàn hảo. Ban đầu, chân ngựa và tay của phi hành gia trông không ổn. Nhưng với thử nghiệm sâu hơn bằng cách sử dụng các từ gợi ý nhắc nhở và phủ định, cũng như số bước và giá trị thang đo, cuối cùng bạn có thể đạt được điều gì đó mà bạn hài lòng.
Tùy chọn Khôi phục khuôn mặt giúp cải thiện chất lượng của bất kỳ khuôn mặt người nào mà bạn muốn thấy ở đầu ra và việc bật Highres Fix sẽ cho phép bạn truy cập vào các điều khiển khác, chẳng hạn như mức độ khử nhiễu được áp dụng. Với một vài lời nhắc nữa và một số chỉnh sửa bổ sung, chúng tôi giới thiệu cho bạn tác phẩm tuyệt vời nhất của chúng tôi.

Sử dụng một hạt giống khác cũng có thể giúp bạn có được hình ảnh mà bạn đang theo đuổi, vì vậy hãy thử nghiệm ngay!
Khuếch tán ổn định có thể được sử dụng để tạo tất cả các loại chủ đề và phong cách nghệ thuật, từ phong cảnh giả tưởng và cảnh thành phố sôi động đến động vật thực tế và ấn tượng hài hước.
Với nhiều mô hình để tải xuống và khám phá, có vô số nội dung có thể được tạo ra và mặc dù có thể lập luận rằng việc sử dụng Khuếch tán ổn định không giống như sáng tạo nghệ thuật hoặc phương tiện thực tế, nhưng nó có thể rất thú vị khi chơi với.
Vì vậy, bạn nói rằng, cuối cùng tôi đã hoàn thiện phi hành gia này và không có gợi ý hay nào nảy ra trong đầu về việc tạo ra thứ gì đó trông đẹp mắt như các hình minh họa lưu hành trên mạng. Hóa ra, chúng tôi có thể tạo ra những hình ảnh đẹp hơn nhiều khi chúng tôi hiểu mức độ quan trọng và chi tiết của văn bản nhập vào.
Mẹo: Trong SDWUI, có một biểu tượng bảng màu ngay bên cạnh nút tạo sẽ nhập tên nghệ sĩ ngẫu nhiên. Chơi xung quanh với điều này để tạo các cách và kiểu khác nhau của cùng một lời nhắc.
Mẹo 2: Hiện đã có rất nhiều tài nguyên cho lời nhắc và phòng trưng bày.
Dưới đây là một số mẫu hình ảnh tuyệt vời và lời nhắc tương ứng của chúng để cho bạn ý tưởng về những gì nó cần:
Lời nhắc: Chân dung đầy đủ của một kỹ thuật viên nano ngoài thế giới hậu khải huyền tuyệt đẹp, phức tạp, trang nhã, rất chi tiết, vẽ kỹ thuật số, trạm nghệ thuật, nghệ thuật khái niệm, lấy nét mượt mà, sắc nét, minh họa, nghệ thuật của Krenz Cushat và Artem Demura và alphonse mucha

Lời nhắc (nguồn): hiệp sĩ mèo đang quỳ, chân dung, áo giáp tinh xảo, thiết kế phức tạp, bạc, lụa, ánh sáng điện ảnh, 4k

Lời nhắc (nguồn): Bộ quần áo lơ lửng trong vũ trụ chi tiết cực kỳ chân thực của Guineapig lơ lửng trong không gian, nubela, hố ấm, những ngôi sao xinh đẹp, 4 k, 8 k, của simon stalenhag, frank frazetta, greg rutkowski, beeple, yoko taro, christian macnevin, beeple, wlop và krenz cushat, nghệ thuật nhân vật giả tưởng hoành tráng, ánh sáng ngoài trời thể tích, giữa trưa, giả tưởng cao, xã hội cộng đồng, màu sắc tươi vui, thời lượng đầy đủ, chi tiết tinh tế, hậu kỳ @ – xử lý, kiệt tác, điện ảnh

Lời nhắc (nguồn): bến cảng cũ, ánh xạ tông màu, sáng bóng, phức tạp, ánh sáng điện ảnh, rất chi tiết, vẽ kỹ thuật số, artstation, nghệ thuật khái niệm, mượt mà, tiêu điểm sắc nét, minh họa, nghệ thuật của terry moore và greg rutkowski và alphonse mucha

Lời nhắc (nguồn): ảnh chân dung của một thủ lĩnh chiến binh già châu Á, trang điểm theo bộ lạc, màu xanh trên nền đỏ, nhìn nghiêng, nhìn đi chỗ khác, đôi mắt nghiêm nghị, chụp ảnh chân dung 50mm, chụp ảnh ánh sáng viền cứng-beta -ar 2:3 -beta – upbeta -upbeta

Lời nhắc (nguồn): Một chiếc thuyền kayak trên sông. nước trong xanh, ánh sáng khí quyển. của makoto shinkai, stanley artgerm lau, wlop, rossdraws, james jean, andrei riabovitchev, marc simonetti, krenz cushat, sakimichan, xu hướng d & d trên Artstation, nghệ thuật kỹ thuật số.

Lời nhắc (nguồn): một chú chó biết bay ma thuật dễ thương, nghệ thuật giả tưởng được vẽ bởi các nghệ sĩ ý tưởng của Disney, màu vàng, chất lượng cao, rất chi tiết, thanh lịch, sắc nét, nghệ thuật khái niệm, khái niệm nhân vật, vẽ kỹ thuật số, bí ẩn, phiêu lưu

Vậy bạn có thể làm gì khác với Khuếch tán ổn định? Ngoài việc tạo niềm vui cho ảnh từ các từ, nó cũng có thể được sử dụng để nâng cấp ảnh lên độ phân giải cao hơn, khôi phục hoặc sửa ảnh bằng cách xóa các vùng không mong muốn và thậm chí mở rộng ảnh ra ngoài đường viền khung hình ban đầu.
Bằng cách chuyển sang tab img2img trong SDWUI, chúng ta có thể sử dụng thuật toán AI để nâng cấp hình ảnh có độ phân giải thấp.
Các mô hình đào tạo chủ yếu được phát triển bằng cách sử dụng các hình ảnh rất nhỏ, với tỷ lệ khung hình 1:1, vì vậy, nếu bạn đang dự định nâng cấp nội dung nào đó có kích thước 1920 x 1080 chẳng hạn, thì bạn có thể nghĩ rằng mình đã gặp may.
May mắn thay, SDWUI có một giải pháp cho bạn. Ở cuối tab img2img, có menu thả xuống Tập lệnh nơi bạn có thể chọn SD Upscale . Tập lệnh này sẽ chia hình ảnh thành nhiều ô 512 x 512 và sử dụng một thuật toán AI khác (ví dụ: ESRGAN) để nâng cấp chúng. Sau đó, chương trình sử dụng Khuếch tán ổn định để cải thiện kết quả của các ô lớn hơn, trước khi ghép mọi thứ lại thành một hình ảnh duy nhất.

Đây là ảnh chụp màn hình được chụp từ Cyberpunk 2077, với độ phân giải trong trò chơi là 1366×768. Như bạn có thể thấy, nó trông không quá tệ, nhưng văn bản hơi khó đọc, vì vậy, hãy thực hiện quy trình này bằng cách sử dụng ESRGAN_4x để nâng cấp từng ô, sau đó là xử lý Khuếch tán ổn định để dọn dẹp chúng.
Chúng tôi đã sử dụng 80 bước lấy mẫu, phương pháp lấy mẫu Euler-a, các ô xếp 512 x 512 với độ chồng lấp 32 pixel và tỷ lệ khử nhiễu là 0,1 để không loại bỏ quá nhiều chi tiết nhỏ.

Thật không may, đó không phải là một kết quả tuyệt vời vì nhiều họa tiết đã bị mờ hoặc tối đi. Vấn đề lớn nhất là ảnh hưởng đến các thành phần văn bản trong hình ảnh gốc, vì chúng rõ ràng là tệ hơn sau tất cả quá trình xử lý số mạng nơ-ron đó.
Nếu chúng ta sử dụng một chương trình chỉnh sửa hình ảnh như GIMP để nâng cấp (sử dụng phép nội suy nhị phân mặc định) ảnh chụp màn hình gốc theo hệ số 2, thì chúng ta có thể dễ dàng thấy được hiệu quả của phương pháp AI.

Vâng, mọi thứ hiện đang mờ, nhưng ít nhất bạn có thể dễ dàng nhận ra tất cả các chữ số và chữ cái được hiển thị. Nhưng chúng tôi hơi bất công với SDWUI ở đây, vì phải mất thời gian và chạy nhiều lần để tìm ra cài đặt hoàn hảo – thật không may, không có giải pháp nhanh chóng nào cho vấn đề này.
Một khía cạnh khác mà hệ thống đang gặp khó khăn là hình ảnh chứa nhiều yếu tố trực quan: văn bản, số, bầu trời, tòa nhà, con người, v.v. Mặc dù mô hình AI được đào tạo trên hàng tỷ hình ảnh, nhưng tương đối ít trong số chúng sẽ giống hệt như ảnh chụp màn hình này.
Vì vậy, hãy thử một hình ảnh khác, một cái gì đó chứa ít yếu tố. Chúng tôi đã chụp ảnh một con mèo có độ phân giải thấp (320 x 200) và bên dưới là hai ảnh nâng cấp 4x – ảnh bên trái được thực hiện trong GIMP, không sử dụng phép nội suy và ảnh bên phải là kết quả của 150 bước lấy mẫu, Euler -a, chồng chéo 128 pixel và giá trị khử nhiễu rất thấp.

Mặc dù hình ảnh được nâng cấp bằng AI có vẻ nhiều pixel hơn một chút so với hình ảnh khác, đặc biệt là xung quanh tai; phần dưới của phần tiếp theo cũng không quá tuyệt vời. Nhưng với nhiều thời gian hơn và thử nghiệm thêm hàng chục tham số mà SDWUI cung cấp để chạy thuật toán, bạn có thể đạt được kết quả tốt hơn. Bạn cũng có thể thử một mô hình SD khác, chẳng hạn như x4-upscaling-ema, mô hình này sẽ mang lại kết quả vượt trội khi nhắm đến hình ảnh cuối cùng rất lớn.
Hai thủ thuật khác mà bạn có thể thực hiện với Khuếch tán ổn định là inpainting và outpainting – hãy bắt đầu với thủ thuật đầu tiên.
Inpainting liên quan đến việc loại bỏ một khu vực đã chọn khỏi một hình ảnh và sau đó lấp đầy khoảng trống đó bằng những gì nên có nếu đối tượng không có mặt. Tính năng này được tìm thấy trong tab img2img chính, sau đó chọn tab phụ Inpaint.
Để làm cho điều này hoạt động tốt nhất có thể, hãy sử dụng nhiều lời nhắc được lựa chọn cẩn thận (thử nghiệm với cả những lời nhắc tiêu cực), nhiều bước lấy mẫu và giá trị khử nhiễu khá cao.

Chúng tôi chụp ảnh một dòng suối cạn ở vùng nông thôn, sau đó thêm biểu tượng phẳng của một con vịt cao su lên mặt nước. Phương pháp mặc định trong SDWUI là chỉ công cụ mặt nạ tích hợp sẵn, công cụ này chỉ tô màu đen trong khu vực bạn muốn xóa.
Nếu bạn nhìn vào lời nhắc trong ảnh chụp màn hình ở trên, bạn sẽ thấy chúng tôi bao gồm nhiều từ có liên quan đến hình dạng của nước (hình ảnh phản chiếu, gợn sóng, nông) và bao gồm các đối tượng cũng ảnh hưởng đến hình dạng này (cây cối, đá).
Đây là cách các hình ảnh gốc và không được tô vẽ, đặt cạnh nhau:

Bạn có thể biết thứ gì đó đã bị xóa và một trình chỉnh sửa ảnh tài năng có thể đạt được điều tương tự hoặc tốt hơn mà không cần sử dụng đến AI. Nhưng nó không đặc biệt tệ và một lần nữa, với nhiều thời gian và chỉnh sửa hơn, kết quả cuối cùng có thể dễ dàng được cải thiện.
Outpainting thực hiện điều tương tự nhưng thay vì thay thế vùng bị che, nó chỉ mở rộng hình ảnh ban đầu. Ở trong tab img2img và tab phụ, đồng thời chuyển đến menu Tập lệnh ở dưới cùng – chọn Poor man’s outpainting .
Để điều này hoạt động tốt, hãy sử dụng nhiều bước lấy mẫu nhất mà hệ thống/sự kiên nhẫn của bạn có thể đối phó, cùng với giá trị rất cao đối với CFG và thang đo khử nhiễu. Ngoài ra, hãy chống lại sự cám dỗ để mở rộng hình ảnh theo nhiều pixel; bắt đầu ở mức thấp, ví dụ 64 và thử nghiệm từ đó.
Lấy hình ảnh luồng của chúng tôi, trừ đi con vịt cao su, chúng tôi chạy nó qua nhiều lần thử, điều chỉnh lời nhắc mỗi lần. Và đây là điều tốt nhất chúng tôi đạt được trong thời gian có sẵn:

Nếu nói rằng nó đáng thất vọng sẽ là một cách đánh giá thấp. Vậy vấn đề ở đây là gì? Outpainting rất nhạy cảm với các lời nhắc được sử dụng và có thể dễ dàng dành nhiều giờ để cố gắng tìm ra sự kết hợp hoàn hảo, ngay cả khi bạn đã hiểu rất rõ hình ảnh sẽ hiển thị như thế nào.
Một cách giúp cải thiện lựa chọn lời nhắc là sử dụng nút Thẩm vấn CLIP bên cạnh nút Tạo. Lần đầu tiên bạn sử dụng điều này sẽ buộc SDWUI tải xuống một loạt các tệp lớn, vì vậy nó sẽ không tải xuống ngay lập tức, nhưng khi mọi thứ đã được ghi lại, hệ thống sẽ chạy hình ảnh thông qua mạng thần kinh CLIP để cung cấp cho bạn lời nhắc rằng bộ mã hóa cho là phù hợp nhất.
Trong trường hợp của chúng tôi, nó cho chúng tôi cụm từ ” một dòng sông chảy qua một khu rừng đầy cây và đá vào một ngày nắng không có lá trên cây, của Alexander Milne Calder. ” Calder, một nhà điêu khắc người Mỹ từ thế kỷ trước, chắc chắn là không tham gia vào việc chụp ảnh mà chỉ sử dụng phần còn lại làm lời nhắc cho việc vẽ bên ngoài đã cho chúng tôi điều này:

Xem nó tốt hơn bao nhiêu? Sự thiếu tập trung và tối vẫn còn là vấn đề, nhưng nội dung được tạo ra là rất tốt. Tuy nhiên, tất cả điều này cho thấy rất rõ ràng – Khuếch tán ổn định chỉ tốt khi bạn sử dụng lời nhắc.
Mô hình Khuếch tán ổn định đầu tiên được đào tạo bằng cách sử dụng một máy tính rất mạnh, được trang bị hàng trăm GPU Nvidia A100, chạy trong hàng trăm giờ. Vì vậy, bạn có thể ngạc nhiên khi biết rằng bạn có thể tự đào tạo trên một chiếc PC phù hợp.
Nếu bạn sử dụng SDWUI và nhắc nó là “cạc đồ họa trong máy tính”, thì bạn sẽ không nhận được bất cứ thứ gì thực sự giống như vậy – hầu hết các kết quả thường chỉ hiển thị một phần của cạc đồ họa. Thật khó để nói chính xác có bao nhiêu hình ảnh trong bộ dữ liệu LAION-5B sẽ bao gồm tình huống này nhưng điều đó không thực sự quan trọng, bạn có thể tự mình điều chỉnh một phần nhỏ của mô hình được đào tạo.
Bạn sẽ cần ít nhất 20 hình ảnh, được chụp từ các góc khác nhau, v.v. và tất cả các hình ảnh đó phải có kích thước 512 x 512 đối với kiểu máy Khuếch tán Ổn định 1.x hoặc 768 x 768 đối với kiểu máy SD 2.x. Bạn có thể tự cắt hình ảnh hoặc sử dụng SDWUI để thực hiện việc đó cho bạn.

Chuyển đến tab Đào tạo và nhấp vào tab phụ Hình ảnh tiền xử lý . Bạn sẽ thấy hai trường cho vị trí thư mục – trường đầu tiên là nơi lưu trữ ảnh gốc của bạn và trường thứ hai là nơi bạn muốn lưu trữ ảnh đã cắt. Với tất cả thông tin đã nhập, chỉ cần nhấn nút Tiền xử lý và bạn đã sẵn sàng để bắt đầu đào tạo. Lưu trữ chúng trong một thư mục, ở đâu đó trên PC của bạn và ghi lại địa chỉ của thư mục.
Trước tiên hãy tạo một tệp nhúng – nhấp vào tab phụ Tạo nhúng , đặt tên cho tệp, theo sau là một số văn bản khởi tạo. Chọn một cái gì đó đơn giản để dễ nhớ khi bạn nhập lời nhắc cho text2img.

Sau đó, đặt số lượng vectơ trên mỗi mã thông báo. Giá trị này càng cao, thế hệ AI sẽ càng chính xác, nhưng bạn cũng sẽ cần ngày càng nhiều hình ảnh nguồn hơn và sẽ mất nhiều thời gian hơn để huấn luyện mô hình. Tốt nhất nên sử dụng giá trị 1 hoặc 2 để bắt đầu.
Bây giờ, chỉ cần nhấp vào nút Tạo nhúng và tệp sẽ được lưu trữ trong thư mục sdwebuiembeddings.
Với tệp nhúng đã sẵn sàng và bộ sưu tập hình ảnh của bạn trong tay, đã đến lúc bắt đầu quá trình đào tạo, vì vậy hãy chuyển sang tab phụ Đào tạo.

Có khá nhiều phần ở đây. Bắt đầu bằng cách nhập tên của phương pháp nhúng mà bạn sẽ thử (tên này sẽ có trong trình đơn thả xuống) và thư mục tập dữ liệu, thư mục mà bạn đã lưu trữ các hình ảnh đào tạo của mình.
Tiếp theo, hãy xem tỷ lệ Embedding Learning – giá trị cao hơn giúp bạn đào tạo nhanh hơn, nhưng đặt quá cao và bạn sẽ gặp đủ loại vấn đề. Giá trị 0,005 phù hợp nếu bạn đã chọn 1 vectơ cho mỗi mã thông báo.
Sau đó, thay đổi tệp mẫu Lời nhắc từ style_filewords thành chủ đề_filewords và giảm số bước Tối đa xuống dưới 30.000 (giá trị mặc định là 100.000 sẽ tiếp tục trong nhiều giờ). Bây giờ bạn đã sẵn sàng nhấp vào nút Train Embedding.
Điều này sẽ khiến PC của bạn hoạt động vất vả và mất nhiều thời gian, vì vậy hãy đảm bảo rằng máy tính của bạn ổn định và không cần thiết trong vài giờ tới.

Sau khoảng 3 giờ, nỗ lực đào tạo của chúng tôi (được thực hiện trên Intel Core i9-9700K, 16GB DDR4-3200, Nvidia RTX 2080 Super) đã hoàn thành, sau khi xử lý tổng cộng 30 hình ảnh được lấy từ web.
Tất cả kết quả đào tạo được lưu trữ trong thư mục textural_inversion và những gì bạn nhận được là nhiều phần nhúng và một hình ảnh được liên kết cho mỗi phần. Xem qua các ảnh trong thư mục ảnh và ghi chú tên của ảnh mà bạn thích nhất, điều này không dễ dàng trong trường hợp của chúng tôi.

Hầu hết chúng đều khá tệ và đó là do hai điều – chất lượng của hình ảnh nguồn để đào tạo và số bước được sử dụng. Sẽ tốt hơn nếu chúng tôi tự chụp ảnh cạc đồ họa trong máy tính, vì vậy chúng tôi có thể đảm bảo rằng phần lớn ảnh tập trung vào thẻ.
Khi bạn đã chọn được hình ảnh đẹp nhất, hãy vào thư mục nhúng và chọn tệp có cùng tên. Sao chép và dán nó vào thư mục embeddings trong SDWUI chính. Bạn nên đổi tên tệp thành tên nào đó cho biết số lượng vectơ được sử dụng nếu bạn định đào tạo nhiều lần.
Bây giờ, tất cả những gì bạn cần làm là khởi động lại SDWUI và quá trình nhúng được đào tạo của bạn sẽ tự động được đưa vào thế hệ AI, như minh họa bên dưới.

Giống như chúng tôi, nếu bạn chỉ thực hiện một số ít hình ảnh hoặc mới được đào tạo trong vài giờ, bạn có thể không thấy nhiều khác biệt trong kết quả đầu ra txt2img, nhưng bạn có thể lặp lại toàn bộ quá trình bằng cách sử dụng lại phần nhúng mà bạn đã tạo.
Quá trình đào tạo bạn đã thực hiện luôn có thể được cải thiện bằng cách sử dụng nhiều hình ảnh và các bước hơn, cũng như điều chỉnh số lượng vectơ.
Khuếch tán ổn định và giao diện SDWUI có rất nhiều tính năng nên bài viết này có thể dễ dàng dài gấp ba lần để trình bày tất cả. Bạn có thể xem tổng quan về chúng tại đây, nhưng thật thú vị khi tự mình khám phá các chức năng khác nhau.
Điều này cũng đúng với tab Cài đặt – có rất nhiều thứ bạn có thể thay đổi, nhưng phần lớn, bạn có thể để chúng nguyên như vậy.
Khuếch tán ổn định hoạt động càng nhanh thì card đồ họa của bạn càng có nhiều VRAM – 4GB là mức tối thiểu tuyệt đối, nhưng có một số thông số có thể được sử dụng để giảm dung lượng bộ nhớ video được sử dụng và cũng có những thông số khác sẽ sử dụng thẻ của bạn hiệu quả hơn.
Nhấp chuột phải vào tệp lô webui mà bạn sử dụng để khởi động SDWUI và nhấp vào Tạo lối tắt. Nhấp chuột phải vào tệp đó và chọn Thuộc tính. Trong trường Mục tiêu, có thể thêm các tham số sau để thay đổi cách SDWUI thực hiện:
Có rất nhiều thông số khác có thể được thêm vào, nhưng đừng quên rằng đây là một dự án đang trong quá trình hoàn thiện và chúng có thể không phải lúc nào cũng hoạt động chính xác. Ví dụ: chúng tôi nhận thấy rằng CLIP thẩm vấn hoàn toàn không bắt đầu khi sử dụng tham số –no-half (ngăn không cho FP16 được sử dụng trong tính toán).
Trong khi chúng ta đang bàn về GPU, hãy nhớ rằng Stable Diffusion được phát triển cho card đồ họa Nvidia. SDWUI có thể được tạo để hoạt động trên GPU AMD bằng cách làm theo quy trình cài đặt này. Các triển khai khác cho Khuếch tán ổn định có sẵn cho cạc đồ họa AMD và triển khai này dành cho Windows có hướng dẫn cài đặt chi tiết. Bạn sẽ không nhận được giao diện người dùng với phương pháp đó, vì vậy bạn sẽ thực hiện mọi thứ thông qua dấu nhắc lệnh.
Với hầu hết các kiến thức cơ bản được đề cập, bạn sẽ có đủ kiến thức để đi sâu vào thế giới tạo hình ảnh AI một cách chính xác. Hãy cho chúng tôi biết làm thế nào bạn nhận được trong các ý kiến dưới đây.