Generative AI sẽ rơi vào trạng thái “MAD” khi được huấn luyện bằng dữ liệu AI quá 5 lần

Thứ Hai 28/08/2023
GVN360

GearVN trên Google News

00Days06Hours13Minutes08Seconds

Flash sale 10H mỗi ngày

6/4

Màn hình ViewSonic VX2758A-2K-PRO-3 27" IPS 2K 240Hz chuyên game

~~7.990.000₫~~

6.890.000₫ -14%

0.0 (0 đánh giá)

Đã bán: 19

Màn hình ViewSonic VX2528J 25" IPS 180Hz Gsync chuyên game

~~4.290.000₫~~

3.190.000₫ -26%

0.0 (0 đánh giá)

Đã bán: 12

Màn hình ASUS TUF GAMING VG27AQ1A 27" IPS 2K 170Hz G-Sync HDR chuyên game

~~9.490.000₫~~

5.290.000₫ -44%

0.0 (0 đánh giá)

Đã bán: 17

Card màn hình ASUS Dual GeForce RTX 3060 OC Edition 12GB V2 (DUAL-RTX3060-O12G-V2)

~~8.690.000₫~~

7.890.000₫ -9%

0.0 (0 đánh giá)

Đã bán: 0/2

Bàn phím gaming Mountain Everest 60 Black Tactile55 Switch

~~4.370.000₫~~

1.390.000₫ -68%

0.0 (0 đánh giá)

Đã bán: 2

Bàn phím gaming Mountain Everest 60 Black Linear45 Switch

~~4.370.000₫~~

1.390.000₫ -68%

0.0 (0 đánh giá)

Đã bán: 2

Màn hình MSI MPG 271QRX QD-OLED 27" QD-LED 2K 360Hz chuyên game

~~29.990.000₫~~

23.890.000₫ -20%

0.0 (0 đánh giá)

Đã bán: 1

Màn hình Viewsonic VA2432-H 24" IPS 100Hz viền mỏng

~~4.550.000₫~~

1.990.000₫ -56%

0.0 (0 đánh giá)

Đã bán: 835

Màn hình cong ViewSonic VX3218C-2K 32" 2K 165Hz chuyên game

~~7.990.000₫~~

5.590.000₫ -30%

0.0 (0 đánh giá)

Đã bán: 7

Màn hình ViewSonic VX2758A-2K-PRO-3 27" IPS 2K 240Hz chuyên game

~~7.990.000₫~~

6.890.000₫ -14%

0.0 (0 đánh giá)

Đã bán: 19

Màn hình ViewSonic VX2528J 25" IPS 180Hz Gsync chuyên game

~~4.290.000₫~~

3.190.000₫ -26%

0.0 (0 đánh giá)

Đã bán: 12

Màn hình ASUS TUF GAMING VG27AQ1A 27" IPS 2K 170Hz G-Sync HDR chuyên game

~~9.490.000₫~~

5.290.000₫ -44%

0.0 (0 đánh giá)

Đã bán: 17

Card màn hình ASUS Dual GeForce RTX 3060 OC Edition 12GB V2 (DUAL-RTX3060-O12G-V2)

~~8.690.000₫~~

7.890.000₫ -9%

0.0 (0 đánh giá)

Đã bán: 0/2

Bàn phím gaming Mountain Everest 60 Black Tactile55 Switch

~~4.370.000₫~~

1.390.000₫ -68%

0.0 (0 đánh giá)

Đã bán: 2

Bàn phím gaming Mountain Everest 60 Black Linear45 Switch

~~4.370.000₫~~

1.390.000₫ -68%

0.0 (0 đánh giá)

Đã bán: 2

Màn hình MSI MPG 271QRX QD-OLED 27" QD-LED 2K 360Hz chuyên game

~~29.990.000₫~~

23.890.000₫ -20%

0.0 (0 đánh giá)

Đã bán: 1

Màn hình Viewsonic VA2432-H 24" IPS 100Hz viền mỏng

~~4.550.000₫~~

1.990.000₫ -56%

0.0 (0 đánh giá)

Đã bán: 835

Màn hình cong ViewSonic VX3218C-2K 32" 2K 165Hz chuyên game

~~7.990.000₫~~

5.590.000₫ -30%

0.0 (0 đánh giá)

Đã bán: 7

Màn hình ViewSonic VX2758A-2K-PRO-3 27" IPS 2K 240Hz chuyên game

~~7.990.000₫~~

6.890.000₫ -14%

0.0 (0 đánh giá)

Đã bán: 19

Xem thêm khuyến mãi

Khi AI bị “MAD”, nó có thể đưa ra kết quả không còn khách quan và chính xác nữa.

Một bài nghiên cứu mới về AI cho biết mạng lưới của thế hệ AI hiện tại (được dùng bởi ChatGPT, Midjourney,…) có 1 hạn chế. Có vẻ như mạng lưới AI được huấn luyện bằng những dữ liệu được tạo bởi AI (chẳng hạn như văn bản được tạo bởi ChatGPT, hoặc hình ảnh được tạo bởi một mô hình Stable Diffusion) có chiều hướng trở nên “MAD” sau 5 chu kỳ huấn luyện. Trong những hình ngay dưới đây, các kết quả cho ra đều không giống thực tế một chút nào.

MAD là chữ viết tắt của Model Autophagy Disorder, và nó được sử dụng bởi những nhà nghiên cứu tại đại học Rice và Stanford. Những người này đang trong quá trình tìm hiểu cách mà các mô hình AI, cũng như là chất lượng đầu ra của nó, ngày một đi xuống khi được huấn luyện nhiều lần bởi các dữ liệu được tạo ra bởi AI. Cơ bản thì AI sẽ “ăn chính nó” và đưa ra những kết quả đi theo chiều hướng giá trị trung bình của dữ liệu, kiểu như con rắn nuốt cái đuôi của nó vậy.

In work led by @iliaishacked we ask what happens as we train new generative models on data that is in part generated by previous models.

We show that generative models lose information about the true distribution, with the model collapsing to the mean representation of data pic.twitter.com/OFJDZ4QofZ
— Nicolas Papernot (@NicolasPapernot) June 1, 2023

Nôm na là việc huấn luyện LMM bằng kết quả của chính nó hoặc của AI khác sẽ tạo ra hiệu ứng hội tụ trên dữ liệu dùng để tạo ra chính LLM. Theo biểu đồ trên cho thấy, những dữ liệu ở phần rìa dần dần sẽ biến mất. Điều này khiến những dữ liệu còn lại trong mô hình sẽ không còn đa dạng như trước, và tiến gần đến giá trị trung bình hơn. Theo kết quả đưa ra thì sau 5 lần huấn luyện như vậy, tình trạng “MAD” sẽ xảy ra.

Cool paper from my friends at Rice. They look at what happens when you train generative models on their own outputs…over and over again. Image models survive 5 iterations before weird stuff happens.https://t.co/JWPyRwhW8o

Credit: @SinaAlmd, @imtiazprio, @richbaraniuk pic.twitter.com/KPliZCABd4
— Tom Goldstein (@tomgoldsteincs) July 7, 2023

Không rõ MAD có ảnh hưởng đến tất cả mô hình AI hay không, nhưng các nhà nghiên cứu có xác nhận nó xảy ra với autoencoders, Gaussian mixture models, và những mô hình ngôn ngữ lớn. Riêng đối với các mô hình ngôn ngữ lớn – phần lõi của các ứng dụng chatbot phổ biến hiện nay (ChatGPT, AI Claude,…) – thì chúng cũng có khả năng trở nên “MAD” khi được huấn luyện bằng chính dữ liệu mà nó đã tạo ra.

Đây có thể là vấn đề đối với các mô hình ngôn ngữ hiện tại: nếu 1 mô hình được thương mại hóa và được huấn luyện bởi những dữ liệu đầu ra của chính nó thì khả năng cao là mô hình đó sẽ càng ngày càng cho ra dữ liệu nghiêng về giá trị trung bình nhiều hơn. Và nếu giá trị nghiêng về hướng trung bình nhiều hơn thì điều đó nghĩa là con AI đó đã có “thành kiến” (biased), do nó không còn xét đến những dữ liệu nhỏ lẻ khác.

Còn một vấn đề quan trọng nữa, đó là chúng ta cần phải xác định đâu là dữ liệu gốc, đâu là dữ liệu nhân tạo. Bằng không, chúng ta có thể vô tình nạp những dữ liệu nhân tạo cho AI để huấn luyện nó hết lần này đến lần khác, dẫn đến tình trạng MAD như trên. Có điều là nội dung AI đã xuất hiện cách đây rất lâu rồi, trước cả khi ChatGPT hay Midjourney bùng nổ, và nó đã nằm trên Internet đó giờ. Vì thế cho nên việc phân loại nội dung sẽ rất là khó khăn, nhưng đồng thời cũng là việc rất cần thiết.

Cũng có những cách khác để tránh việc AI trở nên có “thành kiến”. Một trong số đó là chỉnh mức độ quan trọng (weighting) của dữ liệu khi huấn luyện AI: nếu chúng ta khiến những dữ liệu nhỏ lẻ trở nên liên quan và xuất hiện nhiều lần hơn, theo lẽ thường tình thì nó cũng sẽ tiến gần tới giá trị trung bình luôn. Nói cách khác, theo như biểu đồ hình cái chuông úp ngược ban nãy, mô hình AI vẫn sẽ làm mất những dữ liệu ở phần rìa, nhưng những dữ liệu đó bây giờ không chỉ nằm ở phần rìa nữa mà nó còn nằm ở những nơi khác, gần phần giữa của cái chuông úp ngược hơn. Cho nên dù mô hình AI có cắt bớt dữ liệu nằm ở phần rìa thì cũng chẳng có gì to tát cho lắm.

Tất nhiên, cách này sẽ dấy lên nhiều câu hỏi, và khi trả lời xong 1 câu thì nhiều khi sẽ xuất hiện thêm vài câu khác – những câu hỏi liên quan đến tính chính xác của câu trả lời của mô hình AI, và liên quan đến việc liệu mô hình AI đó có còn thành kiến hay không, mà nếu có thì thành kiến đó đến từ đâu.

Tóm tắt ý chính:

MAD là chữ viết tắt của Model Autophagy Disorder
Có vẻ như mạng lưới AI được huấn luyện bằng những dữ liệu được tạo bởi AI có chiều hướng trở nên “MAD” sau 5 chu kỳ huấn luyện
Cơ bản thì AI sẽ “ăn chính nó” và đưa ra những kết quả đi theo chiều hướng giá trị trung bình của dữ liệu

Mời các bạn tham khảo thêm một số thông tin liên quan tại GVN 360 như:

Nguồn: tom’s HARDWARE