Giới khoa học đau đầu khi “cạn dữ liệu” huấn luyện AI
Các chuyên gia dự báo đến năm 2028, lượng dữ liệu cần thiết để huấn luyện các mô hình ngôn ngữ lớn (LLM) sẽ ngang bằng với toàn bộ kho dữ liệu văn bản công khai trên Internet.
Theo nghiên cứu của Viện Epoch AI, quy mô tập dữ liệu huấn luyện AI đang tăng gấp đôi mỗi năm, trong khi lượng nội dung Internet chỉ tăng chưa đến 10% hàng năm. Shayne Longpre, nhà nghiên cứu AI tại Viện Công nghệ Massachusetts (MIT), cho rằng tình trạng thiếu hụt dữ liệu đã bắt đầu xuất hiện.
Thêm vào đó, các nhà xuất bản và chủ sở hữu nội dung đang siết chặt quyền kiểm soát việc sử dụng dữ liệu của họ. Nhiều vụ kiện đã được đệ trình, trong đó có vụ The New York Times kiện OpenAI và Microsoft về vi phạm bản quyền vào tháng 12/2023.
Tuy nhiên, các công ty AI lớn như OpenAI và Anthropic đang tìm nhiều giải pháp thay thế. Họ đang khai thác các nguồn dữ liệu phi truyền thống và thậm chí tự tạo ra dữ liệu mới. OpenAI cho biết họ đang tạo ra 100 tỷ từ mỗi ngày, tương đương với khoảng 36 nghìn tỷ từ một năm.
Một hướng đi khác là phát triển các mô hình AI nhỏ hơn, chuyên biệt cho từng nhiệm vụ cụ thể. Các mô hình này cần ít dữ liệu hơn nhưng đòi hỏi kỹ thuật huấn luyện tinh vi hơn. Theo một nghiên cứu năm 2024, nhờ cải tiến thuật toán, sức mạnh tính toán cần thiết để đạt cùng hiệu suất đã giảm một nửa sau mỗi 8 tháng.
Yann LeCun, Giám đốc khoa học AI tại Meta, đề xuất hướng tiếp cận mới: học từ dữ liệu đa dạng hơn như video và hình ảnh. Ông chỉ ra rằng một đứa trẻ 4 tuổi đã tiếp nhận lượng thông tin gấp 50 lần so với dữ liệu huấn luyện của một mô hình LLM hiện đại, chỉ thông qua việc quan sát thế giới xung quanh.
Andy Zou, nghiên cứu sinh tại Đại học Carnegie Mellon, lạc quan cho rằng các mô hình AI, sau khi đã đọc phần lớn Internet, có thể không cần thêm dữ liệu để trở nên thông minh hơn. Thay vào đó, khả năng tự học và tự suy ngẫm của AI có thể là chìa khóa cho những tiến bộ trong tương lai.
- Từ khóa :
- trí tuệ nhân tạo
- công nghệ ai
- chatgpt
Tin liên quan
-
Ý kiến và Bình luận
"Cha đẻ của AI" cũng lo ngại về những rủi ro từ trí tuệ nhân tạo
13:45' - 08/12/2024
Ngày 7/12, chủ nhân giải Nobel Vật lý Geoffrey Hinton và Nobel Hóa học Demis Hassabis đã kêu gọi quản lý chặt chẽ trí tuệ nhân tạo (AI), công nghệ đóng vai trò quan trọng trong các giải thưởng của họ.
-
Chứng khoán
Nghiên cứu đưa ứng dụng trí tuệ nhân tạo và dữ liệu lớn vào thị trường chứng khoán
20:20' - 06/12/2024
Ngày 6/12, Bộ Tài chính cho biết cơ quan này đang nghiên cứu đưa ứng dụng trí tuệ nhân tạo (AI) và dữ liệu lớn (Big Data) vào giám sát giao dịch thị trường chứng khoán.
-
Công nghệ
Ứng dụng trí tuệ nhân tạo trong giảng dạy và quản lý giáo dục
15:13' - 30/11/2024
Cuộc cách mạng công nghiệp lần thứ tư và trí tuệ nhân tạo (AI) đang tác động sâu rộng đến mọi lĩnh vực, trong đó có giáo dục.
Tin cùng chuyên mục
-
Công nghệ
OpenAI tìm người "ghìm cương" rủi ro của AI
13:30'
Giám đốc điều hành (CEO) của OpenAI, Sam Altman, nhấn mạnh rằng thế giới đang bước vào một kỷ nguyên đòi hỏi sự hiểu biết sâu sắc hơn về cách các năng lực của AI có thể bị lạm dụng.
-
Công nghệ
Bước tiến hướng tới tự chủ về công nghệ của châu Phi
07:30'
Trong quá trình củng cố chủ quyền kỹ thuật số, Ethiopia không chỉ định vị mình là một quốc gia tham gia mà còn là một nhà lãnh đạo trong tương lai kỹ thuật số của châu Phi.
-
Công nghệ
Chuyển đổi số để đảm bảo vai trò của báo chí trong xu thế mới
15:35' - 01/01/2026
Ứng dụng chuyển đổi số hiệu quả để làm tốt vai trò dẫn dắt, định hướng dư luận xã hội, làm chủ mặt trận thông tin và truyền thông trên không gian mạng.
-
Công nghệ
Những ứng dụng kiểm tra chính tả hỗ trợ AI tốt nhất
07:30' - 01/01/2026
Các nhà phát triển đã tích hợp những tính năng để tự động định dạng văn bản, loại bỏ các từ thừa và bỏ qua những lỗi sai để tạo ra văn bản cần ít chỉnh sửa hơn.
-
Công nghệ
'Học viện AI cho Việt Nam' chính thức khởi động nhằm phát triển nhân lực công nghệ cao
22:13' - 31/12/2025
Đại học Bách khoa Hà Nội phối hợp với Trung tâm Đổi mới sáng tạo Quốc gia và Công ty Cổ phần Đầu tư và Phát triển Giáo dục Hồng Lĩnh ký kết “Chương trình Học viện AI cho Việt Nam”.
-
Công nghệ
Thúc đẩy chuyển đổi số trong giáo dục và đào tạo
14:00' - 31/12/2025
Học sinh và giáo viên Phú Thọ tích cực tham gia các cuộc thi STEM, Robotics, nghiên cứu khoa học kỹ thuật ở nhiều cấp độ và đạt được nhiều thành tích cao.
-
Công nghệ
Thanh niên - lực lượng nòng cốt ứng dụng khoa học công nghệ
13:30' - 31/12/2025
Đoàn Thanh niên tỉnh Lạng Sơn cần đột phá hỗ trợ khởi nghiệp đổi mới sáng tạo và nâng cao năng lực số; thực hiện hiệu quả các mô hình “Tình nguyện số”, “Tổ công nghệ số cộng đồng”.
-
Công nghệ
Meta mua lại startup Trung Quốc để tăng cường phát triển AI
06:30' - 31/12/2025
Meta cho biết công ty sẽ vận hành và thương mại hóa dịch vụ của Manus, đồng thời tích hợp công nghệ này vào các sản phẩm dành cho người tiêu dùng và doanh nghiệp, trong đó có cả Meta AI.
-
Công nghệ
Nghị quyết số 57-NQ/TW: Đưa tri thức đến người dân qua phong trào “Bình dân học vụ số”
13:30' - 30/12/2025
Điểm nổi bật của phong trào "Bình dân học vụ số" là không triển khai theo lối hành chính, hình thức, mà bám sát nhu cầu thực tế của từng nhóm đối tượng, từng địa bàn.

Biểu tượng của OpenAI và ChatGPT. Ảnh: AFP/TTXVN