Giới khoa học đau đầu khi “cạn dữ liệu” huấn luyện AI
Các chuyên gia dự báo đến năm 2028, lượng dữ liệu cần thiết để huấn luyện các mô hình ngôn ngữ lớn (LLM) sẽ ngang bằng với toàn bộ kho dữ liệu văn bản công khai trên Internet.
Theo nghiên cứu của Viện Epoch AI, quy mô tập dữ liệu huấn luyện AI đang tăng gấp đôi mỗi năm, trong khi lượng nội dung Internet chỉ tăng chưa đến 10% hàng năm. Shayne Longpre, nhà nghiên cứu AI tại Viện Công nghệ Massachusetts (MIT), cho rằng tình trạng thiếu hụt dữ liệu đã bắt đầu xuất hiện.
Thêm vào đó, các nhà xuất bản và chủ sở hữu nội dung đang siết chặt quyền kiểm soát việc sử dụng dữ liệu của họ. Nhiều vụ kiện đã được đệ trình, trong đó có vụ The New York Times kiện OpenAI và Microsoft về vi phạm bản quyền vào tháng 12/2023.
Tuy nhiên, các công ty AI lớn như OpenAI và Anthropic đang tìm nhiều giải pháp thay thế. Họ đang khai thác các nguồn dữ liệu phi truyền thống và thậm chí tự tạo ra dữ liệu mới. OpenAI cho biết họ đang tạo ra 100 tỷ từ mỗi ngày, tương đương với khoảng 36 nghìn tỷ từ một năm.
Một hướng đi khác là phát triển các mô hình AI nhỏ hơn, chuyên biệt cho từng nhiệm vụ cụ thể. Các mô hình này cần ít dữ liệu hơn nhưng đòi hỏi kỹ thuật huấn luyện tinh vi hơn. Theo một nghiên cứu năm 2024, nhờ cải tiến thuật toán, sức mạnh tính toán cần thiết để đạt cùng hiệu suất đã giảm một nửa sau mỗi 8 tháng.
Yann LeCun, Giám đốc khoa học AI tại Meta, đề xuất hướng tiếp cận mới: học từ dữ liệu đa dạng hơn như video và hình ảnh. Ông chỉ ra rằng một đứa trẻ 4 tuổi đã tiếp nhận lượng thông tin gấp 50 lần so với dữ liệu huấn luyện của một mô hình LLM hiện đại, chỉ thông qua việc quan sát thế giới xung quanh.
Andy Zou, nghiên cứu sinh tại Đại học Carnegie Mellon, lạc quan cho rằng các mô hình AI, sau khi đã đọc phần lớn Internet, có thể không cần thêm dữ liệu để trở nên thông minh hơn. Thay vào đó, khả năng tự học và tự suy ngẫm của AI có thể là chìa khóa cho những tiến bộ trong tương lai.
- Từ khóa :
- trí tuệ nhân tạo
- công nghệ ai
- chatgpt
Tin liên quan
-
Ý kiến và Bình luận
"Cha đẻ của AI" cũng lo ngại về những rủi ro từ trí tuệ nhân tạo
13:45' - 08/12/2024
Ngày 7/12, chủ nhân giải Nobel Vật lý Geoffrey Hinton và Nobel Hóa học Demis Hassabis đã kêu gọi quản lý chặt chẽ trí tuệ nhân tạo (AI), công nghệ đóng vai trò quan trọng trong các giải thưởng của họ.
-
Chứng khoán
Nghiên cứu đưa ứng dụng trí tuệ nhân tạo và dữ liệu lớn vào thị trường chứng khoán
20:20' - 06/12/2024
Ngày 6/12, Bộ Tài chính cho biết cơ quan này đang nghiên cứu đưa ứng dụng trí tuệ nhân tạo (AI) và dữ liệu lớn (Big Data) vào giám sát giao dịch thị trường chứng khoán.
-
Công nghệ
Ứng dụng trí tuệ nhân tạo trong giảng dạy và quản lý giáo dục
15:13' - 30/11/2024
Cuộc cách mạng công nghiệp lần thứ tư và trí tuệ nhân tạo (AI) đang tác động sâu rộng đến mọi lĩnh vực, trong đó có giáo dục.
Tin cùng chuyên mục
-
Công nghệ
Google tham gia lĩnh vực điện nhiệt hạch
13:30'
Google đã công bố kế hoạch mua 200 megawatt điện nhiệt hạch sạch từ nhà máy điện nhiệt hạch quy mô lưới điện đầu tiên trên thế giới, được gọi là ARC, có trụ sở tại Chesterfield, Virginia (Mỹ).
-
Công nghệ
Cuộc đua không đích đến của Netflix
07:30'
Công ty truyền phát trực tuyến Netflix đang phát triển công nghệ có thể giúp cá nhân hóa không chỉ các đề xuất người dùng thấy trên dịch vụ mà còn cả những video.
-
Công nghệ
Trợ lý ảo cán bộ công chức- Giải pháp tra cứu thẩm quyền tức thì cho chính quyền 2 cấp
19:35' - 30/06/2025
Trợ lý ảo cán bộ công chức hỗ trợ giải đáp thắc mắc về phân quyền, phân cấp và phân định thẩm quyền giữa Chính phủ và chính quyền 2 cấp.
-
Công nghệ
Chiết xuất vàng bền vững từ rác thải điện tử
18:02' - 30/06/2025
Một nhóm nhà khoa học tại Đại học Flinders (Australia) vừa công bố phương pháp mới chiết xuất vàng từ quặng và rác thải điện tử mà không cần đến những hóa chất độc hại như xyanua hay thủy ngân.
-
Công nghệ
Phụ nữ dân tộc thiểu số thích ứng với công nghệ số
13:30' - 30/06/2025
Việc người dân tộc thiểu số tiếp cận với điện thoại thông minh, Internet và mạng xã hội không chỉ là một thay đổi công nghệ đơn thuần, mà là sự khởi đầu cho nhiều chuyển biến xã hội sâu sắc.
-
Công nghệ
Vĩnh Long nâng cao kỹ năng về ứng dụng AI và công vụ số cho cán bộ, công chức
08:00' - 30/06/2025
Ngày 28/6, Sở Khoa học và Công nghệ tỉnh Vĩnh Long tổ chức hội nghị tập huấn Bình dân học vụ số với chủ đề “Ứng dụng AI dành cho cán bộ, công chức và viên chức tỉnh Vĩnh Long” năm 2025.
-
Công nghệ
CT Group ra mắt bản thiết kế chip IoT của kỹ sư Việt
20:41' - 29/06/2025
Chiều 29/6 tại TP. Hồ Chí Minh, Tập đoàn CT Group tổ chức ra mắt thiết kế chip IoT của người Việt, do các kỹ sư của Tập đoàn thiết kế toàn diện với công nghệ thiết kế chip bán dẫn CMOS và III/V Semi.
-
Công nghệ
Ngành hàng không rơi vào tầm ngắm của nhóm tin tặc nguy hiểm
16:23' - 29/06/2025
Hai “gã khổng lồ” công nghệ Google và Palo Alto Networks đang gióng lên hồi chuông cảnh báo về việc nhóm tin tặc có tên Scattered Spider đang chuyển hướng quan tâm sang ngành hàng không.
-
Công nghệ
Long An phấn đấu cơ bản hoàn thành chuyển đối số toàn diện vào năm 2030
14:00' - 29/06/2025
Giám đốc Sở Khoa học và Công nghệ tỉnh Long An Nguyễn Minh Hải cho biết, hiện nay tỉnh là một địa phương thực hiện tốt công tác xây dựng chính quyền số.