Giới khoa học đau đầu khi “cạn dữ liệu” huấn luyện AI
Các chuyên gia dự báo đến năm 2028, lượng dữ liệu cần thiết để huấn luyện các mô hình ngôn ngữ lớn (LLM) sẽ ngang bằng với toàn bộ kho dữ liệu văn bản công khai trên Internet.
Theo nghiên cứu của Viện Epoch AI, quy mô tập dữ liệu huấn luyện AI đang tăng gấp đôi mỗi năm, trong khi lượng nội dung Internet chỉ tăng chưa đến 10% hàng năm. Shayne Longpre, nhà nghiên cứu AI tại Viện Công nghệ Massachusetts (MIT), cho rằng tình trạng thiếu hụt dữ liệu đã bắt đầu xuất hiện.
Thêm vào đó, các nhà xuất bản và chủ sở hữu nội dung đang siết chặt quyền kiểm soát việc sử dụng dữ liệu của họ. Nhiều vụ kiện đã được đệ trình, trong đó có vụ The New York Times kiện OpenAI và Microsoft về vi phạm bản quyền vào tháng 12/2023.
Tuy nhiên, các công ty AI lớn như OpenAI và Anthropic đang tìm nhiều giải pháp thay thế. Họ đang khai thác các nguồn dữ liệu phi truyền thống và thậm chí tự tạo ra dữ liệu mới. OpenAI cho biết họ đang tạo ra 100 tỷ từ mỗi ngày, tương đương với khoảng 36 nghìn tỷ từ một năm.
Một hướng đi khác là phát triển các mô hình AI nhỏ hơn, chuyên biệt cho từng nhiệm vụ cụ thể. Các mô hình này cần ít dữ liệu hơn nhưng đòi hỏi kỹ thuật huấn luyện tinh vi hơn. Theo một nghiên cứu năm 2024, nhờ cải tiến thuật toán, sức mạnh tính toán cần thiết để đạt cùng hiệu suất đã giảm một nửa sau mỗi 8 tháng.
Yann LeCun, Giám đốc khoa học AI tại Meta, đề xuất hướng tiếp cận mới: học từ dữ liệu đa dạng hơn như video và hình ảnh. Ông chỉ ra rằng một đứa trẻ 4 tuổi đã tiếp nhận lượng thông tin gấp 50 lần so với dữ liệu huấn luyện của một mô hình LLM hiện đại, chỉ thông qua việc quan sát thế giới xung quanh.
Andy Zou, nghiên cứu sinh tại Đại học Carnegie Mellon, lạc quan cho rằng các mô hình AI, sau khi đã đọc phần lớn Internet, có thể không cần thêm dữ liệu để trở nên thông minh hơn. Thay vào đó, khả năng tự học và tự suy ngẫm của AI có thể là chìa khóa cho những tiến bộ trong tương lai.
- Từ khóa :
- trí tuệ nhân tạo
- công nghệ ai
- chatgpt
Tin liên quan
-
Ý kiến và Bình luận
"Cha đẻ của AI" cũng lo ngại về những rủi ro từ trí tuệ nhân tạo
13:45' - 08/12/2024
Ngày 7/12, chủ nhân giải Nobel Vật lý Geoffrey Hinton và Nobel Hóa học Demis Hassabis đã kêu gọi quản lý chặt chẽ trí tuệ nhân tạo (AI), công nghệ đóng vai trò quan trọng trong các giải thưởng của họ.
-
Chứng khoán
Nghiên cứu đưa ứng dụng trí tuệ nhân tạo và dữ liệu lớn vào thị trường chứng khoán
20:20' - 06/12/2024
Ngày 6/12, Bộ Tài chính cho biết cơ quan này đang nghiên cứu đưa ứng dụng trí tuệ nhân tạo (AI) và dữ liệu lớn (Big Data) vào giám sát giao dịch thị trường chứng khoán.
-
Công nghệ
Ứng dụng trí tuệ nhân tạo trong giảng dạy và quản lý giáo dục
15:13' - 30/11/2024
Cuộc cách mạng công nghiệp lần thứ tư và trí tuệ nhân tạo (AI) đang tác động sâu rộng đến mọi lĩnh vực, trong đó có giáo dục.
Tin cùng chuyên mục
-
Công nghệ
TikTok hợp tác bảo tồn di sản văn hóa Việt Nam trên nền tảng số
16:22'
Ngày 28/3, TikTok hợp tác với Viện Công nghệ Thông tin và Truyền thông CDIT, Quỹ Hỗ trợ bảo tồn di sản văn hóa Việt Nam triển khai chiến dịch số hóa di sản, đưa văn hóa Việt đến gần hơn với giới trẻ.
-
Công nghệ
Trí tuệ nhân tạo tổng quát có phải là mối lo thực sự của thế giới?
09:30'
Tuy nhiên, theo nhà khoa học AI hàng đầu của Meta, Yann LeCun, việc mở rộng quy mô các mô hình ngôn ngữ lớn (LLM) hiện tại không đủ để đạt đến “AI ở cấp độ con người”.
-
Công nghệ
Vai trò quan trọng của người trẻ trong kỷ nguyên số
08:19' - 27/03/2025
Tỉnh Bình Định thường xuyên bố trí nguồn lực, đồng hành trong đổi mới sáng tạo, khởi nghiệp của thanh niên, nhất là mô hình kinh tế số.
-
Công nghệ
Cường quốc châu Á muốn đi đầu trong cuộc đua sản xuất robot hình người
15:19' - 26/03/2025
Trung Quốc đang tham vọng trở thành quốc gia đi đầu trong "cuộc đua" sản xuất robot hình người.
-
Công nghệ
Trung Quốc thúc đẩy "trí tuệ nhân tạo +" trong doanh nghiệp nhà nước
14:26' - 26/03/2025
Trung Quốc sẽ thúc đẩy hành động đặc biệt “trí tuệ nhân tạo +” (AI+) trong các doanh nghiệp nhà nước trung ương, tập trung hơn vào việc khai thác dữ liệu và xây dựng nền tảng tính toán thông minh.
-
Công nghệ
Thanh niên phát huy vai trò tiên phong trong chuyển đổi số
14:16' - 26/03/2025
Trong bối cảnh chuyển đổi số diễn ra mạnh mẽ, thanh niên đang phát huy vai trò tiên phong, sáng tạo trong việc ứng dụng công nghệ để giải quyết các vấn đề thực tiễn của xã hội.
-
Công nghệ
DeepSeek phát hành bản nâng cấp
17:04' - 25/03/2025
Ngày 25/3, công ty khởi nghiệp trí tuệ nhân tạo Trung Quốc DeepSeek đã phát hành bản nâng cấp cho mô hình ngôn ngữ lớn V3, tăng cường cạnh tranh với công ty công nghệ của Mỹ như OpenAI và Anthropic.
-
Công nghệ
Nam Định: Hình thành cộng đồng thích ứng với chuyển đổi số
14:40' - 25/03/2025
Ngày 21/3, Tỉnh đoàn Nam Định tổ chức chương trình triển khai phong trào "Bình dân học vụ số" giúp hình thành cộng đồng thích ứng với chuyển đổi số.
-
Công nghệ
Tuổi trẻ Quảng Trị tạo đột phá từ ứng dụng khoa học công nghệ
08:19' - 25/03/2025
Với sự hiểu biết, tinh thần dấn thân tìm tòi và áp dụng khoa học công nghệ, tuổi trẻ Quảng Trị đã làm chủ công nghệ, tạo đột phá trong nâng cao năng suất, chất lượng công việc.