AI biết rất nhiều nhưng lại không biết mọi ngôn ngữ, và đây là lý do vì sao

Thứ Hai 28/08/2023
GVN360

AI có thể học hết tất cả các ngôn ngữ trên thế giới, nhưng chưa chắc nó sẽ làm như thế.

Các mô hình ngôn ngữ (language model) như GPT-3, GPT-4 đều đang đối mặt với một thách thức lớn, và đó là một danh sách mà các nước trên thế giới đang phải vò đầu bứt tóc vì nó. Trước khi đi vào chi tiết về những vấn đề với các mô hình ngôn ngữ lớn, chúng ta hãy nói sơ về mấy cái cơ bản đã nhé.

Mô hình ngôn ngữ hoạt động như thế nào?

Hẳn các bạn cũng đã nghe nói nhiều đến ChatGPT rồi. Nó không hẳn là 1 mô hình, mà chính xác thì nó là 1 ứng dụng nằm phía trên một mô hình ngôn ngữ lớn. Trong trường hợp này, mô hình ngôn ngữ lớn đó chính là một phiên bản của GPT. Một trong những tác vụ mà các mô hình như ChatGPT thường làm đó chính là xử lý ngôn ngữ tự nhiên (natural language processing). Nó được ứng dụng vào mọi thứ, từ dịch vụ gọi điện chăm sóc khách hàng cho đến tự điền vào chỗ trống (auto complete). GPT giống như là một nhà sách vậy: nó chưa bao giờ ra khỏi nhà sách đó, và chỉ học hỏi thông qua những cuốn sách có sẵn trong tiệm sách mà thôi.

Cơ bản mà nói, những mô hình ngôn ngữ lớn này sẽ quét rất nhiều chữ và tìm cách học một ngôn ngữ nào đó. Nó có thể kiểm tra quá trình học hỏi của mình bằng cách che đi câu trả lời và tự đưa ra câu trả lời của nó, sau đó mở đáp án ra để xem xem có chính xác hay không. Sau đó, nó có thể dùng kiến thức đó để nhận biết cảm xúc, tóm tắt, biên dịch, và tạo ra câu trả lời hoặc lời khuyên dựa theo dữ liệu đã được phân tích.

Nhìn chung thì đây là một điều vô cùng ấn tượng, mà cũng đúng thôi, vì nó đọc rất nhiều thông tin mà. Bạn có thể nhờ ChatGPT viết lại một đoạn văn bản nào đó theo phong cách của Shakespeare, và nó có thể làm được điều đó là vì nó đã đọc tất cả các tác phẩm của ông ấy rồi.

Giờ chúng ta nói đến vấn đề ở đầu bài nhé.

Common Crawl là một trong những bộ dữ liệu được nạp vào GPT-3, và nó có những hạn chế của nó

Nôm na thì Common Crawl sẽ đi đến tất cả các trang web và “index” nó (ghi vào mục lục). Đó chính là cái danh sách được đề cập ở đoạn mở đầu. Trong danh sách này, Common Crawl sẽ bỏ vào đó tất cả các ngôn ngữ mà nó nghĩ là nó đã “index”, và tiếng Anh là chiếm đa số. Cứ mỗi lần “crawl” là thấy hơn 40% là tiếng Anh rồi. Thế nhưng vào năm 2023, tiếng Phần Lan chiếm hơn 13 triệu trang, cũng nhiều nhưng % của nó chỉ có 0,4% của toàn bộ đợt quét mà thôi. Vậy là rõ ràng cái “nhà sách” này có vấn đề về các đầu sách các bạn ạ.

Được biết, số ngôn ngữ mà nó tập trung quét là rất ít. Có bài nghiên cứu nói rằng trong tổng số 7000 ngôn ngữ được sử dụng trên toàn cầu, chỉ có khoảng 20 ngôn ngữ là chiếm đa số. 20 ngôn ngữ này được xếp vào loại “high-resource” (tạm dịch: giàu tài nguyên), còn những ngôn ngữ còn lại thì được gọi là “low-resource” (tạm dịch: ít tài nguyên). Những ngôn ngữ “low-resource” này không xuất hiện nhiều trên mạng dưới dạng văn bản, vì thế cho nên nó không được cho vào bộ dữ liệu ngôn ngữ (language dataset). Và thế là AI không thể hiểu được nó.

Quay lại với “nhà sách” kia, nó có rất nhiều sách tiếng Anh, Đức, Trung Quốc – những ngôn ngữ “high-resource”. Tiếp đó là có những cuốn sách quý hiếm – những ngôn ngữ “low-resource”. Chính vì thế cho nên mấy mô hình ngôn ngữ không biết nhiều về những ngôn ngữ “low-resource” này, hay thậm chí là chẳng biết gì luôn.

Ví dụ về tiếng Catalan

Catalan là ngôn ngữ chính thức của Andorra (một tiểu bang không giáp biển có chủ quyền, nằm trên bán đảo Iberia) và của 3 vùng hành chính ở phía đông Tây Ban Nha. Trong mô hình ngôn ngữ GPT-3, 92% là tiếng Anh, 1,4% là tiếng Đức, 0,7% là tiếng Tây Ban Nha, và số lượng chữ Catalan trong toàn bộ dữ liệu dùng để huấn luyện là 0,01%. Dù vậy, GPT-3 vẫn hiểu tiếng Catalan rất tốt đó nha.

Phần trăm của Catalan trong Common Crawl chiếm 0,2%, tuy không nhiều nhưng chí ít vẫn có chút đỉnh. Những mô hình ngôn ngữ lớn như GPT-3 (hay thậm chí là GPT-4 trong tương lai) đã được chứng minh là nó vẫn hoạt động rất tốt dù có trong tay rất ít dữ liệu. Thế nhưng các nhà nghiên cứu cho rằng chuyện phát triển một mô hình chuyên dành riêng cho 1 ngôn ngữ (được huấn luyện và đánh giá riêng cho ngôn ngữ đó) vẫn hợp lý hơn.

Common Crawl nói là nó đã “index” được hàng triệu ví dụ về các từ Catalan, nhưng GPT-3 cho biết nó chỉ mới đọc được khoảng 140 trang bằng tiếng Catalan mà thôi. Đây không chỉ đơn thuần là vấn đề về hiệu năng nữa, mà nó còn liên quan đến thiện chí của các công ty như Meta, Microsoft, Google, hay OpenAI. Chỉ cần bạn hình dung một trong những công ty này loại bỏ tiếng Catalan ra khỏi dữ liệu huấn luyện của họ là đủ để thấy ngôn ngữ này sẽ đi đâu về đâu rồi đó. Nó cũng giống như hồi đầu năm 2023, Catalan News đã phản ánh chuyện Google giảm bớt các đường link Catalan trong trang kết quả tìm kiếm.

Sự cần thiết của tính minh bạch dẫn đến sự ra đời của các mô hình đa ngôn ngữ mã nguồn mở

Common Crawl chỉ là 1 phần trong bộ dữ liệu mà GPT-3 dùng để huấn luyện. Từ đó cho thấy mô hình ngôn ngữ này vẫn còn rất nhiều thứ mà chúng ta không hề biết. Hiện tại, những cái “nhà sách” đều được vận hành bởi những công ty lớn như Meta, Microsoft, Baidu, Google, OpenAI. Họ sẽ là người quyết định những cuốn sách nào sẽ được thêm vào nhà sách, mà không hề nói cho người khác biết là mấy cuốn sách đó đến từ đâu, hay là tác giả của nó là ai.

Thế nên có người tìm cách xây dựng cả một thư viện ngay kế bên các nhà sách này. Chẳng hạn, có công ty tên là Hugging Face đóng vai trò như là một cái “hub” cho việc nghiên cứu AI trên Internet. Họ đang phát triển BLOOM – một dự án dùng để tạo ra mô hình đa ngôn ngữ mã nguồn mở. Ban đầu, đây chỉ là một dự án nhỏ của Hugging Face, nhưng bây giờ thì nó đã là một dự án cộng đồng với rất nhiều người tham gia. Cơ bản thì họ lên Wikipedia để lấy danh sách những ngôn ngữ được nói nhiều nhất và bổ sung nó vào BLOOM; và đôi lúc họ cũng có thêm những ngôn ngữ “low-resource” vào trong đó luôn (hầu hết là mấy thứ tiếng ở châu Phi).

Để thu thập thông tin về ngôn ngữ ở châu Phi, Hugging Face đã bắt tay với các cộng đồng tại địa phương càng nhiều càng tốt và hỏi họ xem rằng dữ liệu nào là dữ liệu chính xác.

Biết được dữ liệu đến từ đâu, và được lấy như thế nào, đó là sự khác biệt của mã nguồn mở. Hay nói cách khác là bạn biết thông tin về những cuốn sách trong nhà sách đó.

Mặt khác, chuyện mở rộng hoặc bổ sung bộ dữ liệu cho các ngôn ngữ “high-resource” cũng là điều quan trọng không kém. Chẳng hạn, tiếng Anh cũng có nhiều ngữ điệu, vùng miền khác nhau; cho nên việc huấn luyện các mô hình ngôn ngữ để nó nghe được giọng nói của các vùng miền cũng là điều nên làm, cho dù đó đều là tiếng Anh đi chăng nữa. Đó là chưa kể có những ngôn ngữ được nhiều người sử dụng ngoài đời thực, nhưng nó lại rất ít khi xuất hiện trên mạng. Nếu các mô hình ngôn ngữ vô tình bỏ qua những thứ tiếng này thì có khả năng nó sẽ biến mất luôn.

Hi vọng bài viết này sẽ giúp bạn hiểu thêm về AI nói chung, cũng như là các mô hình ngôn ngữ nói riêng. Nếu các bạn có góp ý hoặc bổ sung thì hãy chia sẻ với mình bên dưới phần bình luận nhé. Cảm ơn các bạn đã quan tâm.

Mời các bạn tham khảo thêm một số thông tin liên quan tại GVN 360 như:

Nguồn: Vox