AI: Điểm yếu nguy hiểm của ngôn ngữ ít dữ liệu
Những mô hình ngôn ngữ lớn (LLM) được ca ngợi như những “bộ não biết nói”, có thể tư vấn, phân tích, thậm chí hỗ trợ con người ra quyết định.
Nhưng đằng sau vẻ trơn tru ấy, có một khoảng trống âm thầm: AI không "giỏi" mọi ngôn ngữ và tiếng Anh luôn chiếm ưu thế. Đôi khi, sự thiếu công bằng đó không chỉ là vấn đề kỹ thuật mà là vấn đề sinh tử. Hãy hình dung một câu hỏi tưởng chừng đơn giản: một phụ nữ mang thai bị phù chân vào cuối thai kỳ nên làm gì? Với người hỏi bằng tiếng Anh, câu trả lời của AI có thể rất chuẩn xác: cần cảnh giác với tiền sản giật, một biến chứng nguy hiểm. Nhưng với người hỏi bằng một ngôn ngữ khác, tiếng Swahili (ngôn ngữ phổ biến ở khu vực Đông Phi) chẳng hạn, câu trả lời lại có thể là: “Bạn không cần lo lắng”.
Phóng viên TTXVN tại London dẫn kết quả của một nghiên cứu mới đây cho thấy độ chính xác của mô hình ở những ngôn ngữ ngoài tiếng Anh có thể thấp hơn tới gần 30 điểm phần trăm. Trong trường hợp tệ nhất, một mô hình có thể trả lời đúng khoảng 75% câu hỏi bằng tiếng Anh lại chỉ đạt 22,6% ở ngôn ngữ khác. Một sự chênh lệch như vậy, nếu xảy ra trong lĩnh vực y tế hay pháp lý, không còn là lỗi công nghệ, mà là rủi ro xã hội.
Điều đáng nói là thế giới không vận hành bằng một ngôn ngữ duy nhất. Khi các tổ chức quốc tế bắt đầu triển khai AI ở những khu vực đang phát triển – từ châu Phi đến Đông Nam Á – những cộng đồng không nói tiếng Anh lại là những đối tượng được kỳ vọng sẽ hưởng lợi nhiều nhất. Trớ trêu thay, đây lại là nhóm ít có khả năng tận dụng các công cụ này, bởi các mô hình AI hiện tại vẫn xử lý các ngôn ngữ ít dữ liệu (không phải tiếng Anh) một cách kém hiệu quả.
Vấn đề không chỉ nằm ở dữ liệu, mà còn nằm ở cách AI “nghĩ”. Phần lớn các mô hình hiện nay được huấn luyện trên kho dữ liệu khổng lồ bằng tiếng Anh. Khi gặp một ngôn ngữ khác, các mô hình thường “dịch ngược” về tiếng Anh để xử lý, rồi mới trả lời lại. Quy trình hai bước ấy nghe có vẻ hợp lý, nhưng thực chất lại mở ra thêm nhiều tầng sai lệch.
Ngay cả ở cấp độ kỹ thuật sâu hơn, sự thiên lệch cũng đã được “lập trình” từ đầu. Các mô hình xử lý văn bản bằng cách chia nhỏ thành “token” — những đơn vị ngôn ngữ cơ bản. Vì được huấn luyện chủ yếu bằng tiếng Anh, chúng phân mảnh các ngôn ngữ khác kém hiệu quả hơn. Cùng một câu có thể cần nhiều token hơn gấp nhiều lần ở ngôn ngữ khác… khiến chi phí tăng lên đáng kể. Điều đó có nghĩa là không chỉ kém chính xác hơn, người dùng ở các ngôn ngữ khác còn phải trả giá đắt hơn - theo cả nghĩa đen lẫn nghĩa bóng.
Một phản ứng tự nhiên là “trộn” thêm tiếng Anh vào câu hỏi, hy vọng AI sẽ hiểu rõ hơn, song điều này lại phản tác dụng. Theo nghiên cứu, việc trộn nhiều ngôn ngữ trong cùng một câu hỏi… thường làm hiệu suất giảm thêm. Thay vì giúp mô hình bám vào điểm tựa, hệ thống rơi vào trạng thái nhiễu loạn giữa các ngôn ngữ.
Điều đáng suy ngẫm không chỉ là AI chưa hoàn hảo, mà là con người đang quá nhanh chóng tin vào sự hoàn hảo ấy. Khi một công nghệ được triển khai ở quy mô toàn cầu, mọi sai lệch nhỏ đều có thể nhân lên thành hệ quả lớn. Một câu trả lời sai trong tiếng Anh có thể được kiểm chứng lại, nhưng một câu trả lời sai trong một ngôn ngữ ít phổ biến có thể không bao giờ bị phát hiện.
Mặc dù vậy, vẫn có những tín hiệu tích cực. Chỉ cần bổ sung một lượng nhỏ dữ liệu chất lượng cao bằng ngôn ngữ địa phương, hiệu suất của mô hình đã có thể cải thiện đáng kể. Nhưng đó mới chỉ là bước đầu. Điều cần thiết hơn là một cách tiếp cận công bằng ngay từ gốc: xây dựng AI không chỉ “biết nhiều”, mà còn “hiểu đều các ngôn ngữ”. Nếu không, trí tuệ nhân tạo thay vì thu hẹp khoảng cách tri thức, lại có nguy cơ đào sâu thêm những bất bình đẳng vốn đã tồn tại. Khi đó, câu hỏi không còn là AI thông minh đến đâu, mà là: AI đang phục vụ ai.
- Từ khóa :
- chuyển đổi số
- công nghệ số
- AI
- trí tuệ nhân tạo
Tin liên quan
-
Công nghệ
Nâng cao năng lực chuyển đổi số cho lãnh đạo, quản lý và công chức
06:00' - 23/03/2026
Nếu không lấy người dân làm trung tâm, các nền tảng, giải pháp số rất dễ trở nên hình thức, kém hiệu quả, thậm chí làm gia tăng khoảng cách số giữa người dân và chính quyền.
-
Kinh tế tổng hợp
Drone và công nghệ số giúp nông dân Đồng Tháp tăng lợi nhuận
09:16' - 15/03/2026
Nhiều hợp tác xã ở tỉnh Đồng Tháp đang mạnh dạn ứng dụng khoa học, công nghệ và chuyển đổi số vào quản lý, sản xuất và tiêu thụ sản phẩm.
-
Công nghệ
Chuyển đổi số và AI đang làm thay đổi hệ sinh thái của ngành Dược
13:00' - 07/03/2026
Để tận dụng hiệu quả cơ hội từ chuyển đổi số, các chuyên gia cho rằng ngành Dược cần xây dựng hệ sinh thái hợp tác chặt chẽ giữa trường đại học, viện nghiên cứu, doanh nghiệp dược phẩm và cơ sở y tế.
-
Công nghệ
Phát triển thị trường lao động gắn với chuyển đổi số
06:00' - 07/03/2026
Hà Nội sẽ triển khai đồng bộ nhiều nhóm giải pháp trọng tâm, trong đó đặc biệt ưu tiên đào tạo, bồi dưỡng các kỹ năng mới có nhu cầu cao phục vụ kinh tế xanh và chuyển đổi số.
-
Công nghệ
Tháng Thanh niên 2026: Tuổi trẻ tiên phong chuyển đổi số
14:11' - 01/03/2026
Ngày 28/2, Thành đoàn Hải Phòng tổ chức Lễ khởi động Tháng Thanh niên năm 2026 và Tỉnh Đoàn Vĩnh Long cũng đã tổ chức Lễ ra quân Tháng Thanh niên năm 2026.
Tin cùng chuyên mục
-
Công nghệ
Toshiba, Mitsubishi thành lập liên minh sản xuất chip lớn thứ hai thế giới
08:20'
Ngày 27/3, Toshiba cho biết sẽ bắt đầu đàm phán với Mitsubishi Electric và hãng sản xuất chip Rohm để hợp nhất mảng kinh doanh chip công suất - loại chip giúp tiết kiệm điện năng.
-
Công nghệ
Apple “mở cửa” trợ lý ảo Siri cho các đối thủ AI
15:40' - 27/03/2026
Các ứng dụng AI của bên thứ ba có thể tích hợp trực tiếp với Siri, cho phép người dùng chuyển hướng những yêu cầu tìm kiếm sang các dịch vụ như Gemini của Alphabet.
-
Công nghệ
Google nâng tầm trải nghiệm tính năng Search Live
11:50' - 27/03/2026
Việc mở rộng tính năng này cho phép người dùng thực hiện các cuộc hội thoại tương tác với công cụ Tìm kiếm trong chế độ AI, kết hợp cả giọng nói và camera.
-
Công nghệ
Số hóa và lan tỏa di sản thông qua truyền thông sáng tạo
08:34' - 27/03/2026
Sinh viên Đại học FPT Thành phố Hồ Chí Minh đang triển khai dự án số hóa, toàn bộ tư liệu thu thập từ hoạt động điền dã sẽ được xử lý, hệ thống hóa và tích hợp vào thư viện số hóa Đạo Mẫu Việt Nam.
-
Công nghệ
Đối thoại về thí điểm Sàn giao dịch tài sản số
12:07' - 26/03/2026
Các sàn giao dịch, những tổ chức lớn có tên tuổi trên thế giới đang rất mong chờ những quyết định, thông tin và bước đi cụ thể từ Việt Nam để có thể tham gia vào thị trường quy mô hơn 200 tỷ USD này.
-
Công nghệ
Gap sẽ ra mắt tính năng thanh toán trực tiếp trên Gemini
06:25' - 26/03/2026
Công ty bán lẻ thời trang và phụ kiện Gap Inc. sẽ ra mắt tính năng thanh toán trực tiếp trên ứng dụng trí tuệ nhân tạo (AI) Gemini của công ty công nghệ Google.
-
Công nghệ
Hà Nội: Dùng bản đồ số GIS và AI để quy định tuyến tuyển sinh
13:55' - 25/03/2026
Với tuyển sinh lớp 1 và lớp 6, địa bàn tuyển sinh cũng thực hiện theo tuyến tuyển sinh có ứng dụng bản đồ số GIS và trí tuệ nhân tạo do UBND các xã, phường quy định cho các trường trên địa bàn.
-
Công nghệ
EU ra mắt trợ lý AI chống gian lận thực phẩm
06:00' - 25/03/2026
Cơ chế hoạt động của TraceMap dựa trên việc theo dõi các dòng chảy thương mại và mô hình sản xuất theo thời gian thực. Khi phát hiện dấu hiệu nghi vấn, hệ thống sẽ hỗ trợ khoanh vùng đối tượng.
-
Công nghệ
Chiến lược phát triển năng lượng nguyên tử Việt Nam: Chuyển giao công nghệ, mở rộng ứng dụng vào đời sống
11:28' - 24/03/2026
Một trong những mục tiêu tổng quát của Chiến lược phát triển, ứng dụng năng lượng nguyên tử vì mục đích hòa bình là mở rộng ứng dụng bức xạ và đồng vị phóng xạ trong các ngành kinh tế - kỹ thuật.

Trí tuệ nhân tạo ngày càng hiện diện ở nhiều lĩnh vực. Ảnh minh hoạ