Dữ liệu là tài sản: DataFi đang mở ra một đại dương xanh mới

Tác giả: Cộng tác viên cốt lõi của Biteye @anci_hu49074

"Chúng ta đang ở trong một kỷ nguyên cạnh tranh toàn cầu để xây dựng những mô hình cơ bản tốt nhất. Năng lực tính toán và kiến trúc mô hình là quan trọng, nhưng vật chắn thực sự là dữ liệu đào tạo"

—Sandeep Chinchali, Giám đốc AI, Story

Hãy nói về tiềm năng của AI Data track từ góc độ Scale AI

Tin đồn lớn nhất trong giới AI tháng này là Meta thể hiện khả năng tài chính của mình. Zuckerberg đã tuyển dụng nhân tài từ mọi nơi và thành lập một đội ngũ Meta AI sang trọng chủ yếu bao gồm các tài năng nghiên cứu khoa học Trung Quốc. Người đứng đầu đội ngũ là Alexander Wang, mới chỉ 28 tuổi và đã thành lập Scale AI. Anh ấy thành lập Scale AI và hiện tại có giá trị 29 tỷ đô la Mỹ. Các đối tượng phục vụ bao gồm quân đội Mỹ, cũng như OpenAI, Anthropic, Meta và các ông lớn AI cạnh tranh khác, tất cả đều dựa vào các dịch vụ dữ liệu được cung cấp bởi Scale AI. Lĩnh vực kinh doanh cốt lõi của Scale AI là cung cấp một lượng lớn dữ liệu được gán nhãn chính xác.

Tại sao Scale AI có thể nổi bật giữa một nhóm kỳ lân?

Lý do là nó đã nhận ra tầm quan trọng của dữ liệu trong ngành AI từ sớm.

Năng lực tính toán, mô hình và dữ liệu là ba trụ cột của các mô hình AI. Nếu mô hình lớn được so sánh với một con người, thì mô hình là cơ thể, năng lực tính toán là thực phẩm, và dữ liệu là tri thức/thông tin.

Trong những năm kể từ khi LLM ra đời, trọng tâm phát triển của ngành công nghiệp cũng đã chuyển từ các mô hình sang sức mạnh tính toán. Ngày nay, hầu hết các mô hình đã thiết lập transformer làm khung mô hình, với một số đổi mới thỉnh thoảng như MoE hoặc MoRe. Các ông lớn chủ yếu đã xây dựng các Siêu Cụm riêng của họ để hoàn thiện Vạn Lý Trường Thành sức mạnh tính toán, hoặc ký kết các thỏa thuận dài hạn với các dịch vụ đám mây mạnh mẽ như AWS. Khi sức mạnh tính toán cơ bản được đáp ứng, tầm quan trọng của dữ liệu đã dần trở nên nổi bật.

Dữ liệu là tài sản: DataFi đang mở ra một đại dương xanh mới

Khác với các công ty big data truyền thống B2B có danh tiếng nổi bật trên thị trường thứ cấp như Palantir, Scale AI, như tên gọi của nó, cam kết xây dựng một nền tảng dữ liệu vững chắc cho các mô hình AI. Doanh nghiệp của họ không chỉ giới hạn ở việc khai thác dữ liệu hiện có, mà còn tập trung vào việc tạo ra dữ liệu lâu dài. Họ cũng cố gắng hình thành một đội ngũ huấn luyện viên AI thông qua các chuyên gia nhân tạo trong các lĩnh vực khác nhau để cung cấp dữ liệu huấn luyện chất lượng tốt hơn cho việc huấn luyện mô hình AI.

Nếu bạn không đồng ý với doanh nghiệp này, hãy cùng xem cách mô hình được đào tạo.

Việc đào tạo mô hình được chia thành hai phần - tiền đào tạo và tinh chỉnh.

Phần tiền huấn luyện giống như quá trình trẻ sơ sinh học nói dần dần. Những gì chúng ta thường cần là cung cấp cho mô hình AI một lượng lớn văn bản, mã và thông tin khác thu được từ các trình thu thập trực tuyến. Mô hình tự học các nội dung này, học cách nói ngôn ngữ con người ( được gọi một cách học thuật là ngôn ngữ tự nhiên ), và có kỹ năng giao tiếp cơ bản.

Phần tinh chỉnh tương tự như đi học, nơi thường có những câu trả lời và hướng đi rõ ràng. Trường học sẽ đào tạo sinh viên thành các tài năng khác nhau dựa trên vị trí tương ứng của họ. Chúng tôi cũng sẽ sử dụng một số bộ dữ liệu đã qua xử lý và nhắm mục tiêu để đào tạo mô hình có các khả năng mà chúng tôi mong đợi.

Dữ liệu là tài sản: DataFi đang mở ra một đại dương xanh mới

Tại thời điểm này, bạn có thể đã nhận ra rằng dữ liệu mà chúng ta cần cũng được chia thành hai phần.

  • Một số dữ liệu không cần phải xử lý quá nhiều, chỉ cần đủ là đủ, thường từ dữ liệu thu thập của các nền tảng UGC lớn như Reddit, Twitter, Github, cơ sở dữ liệu văn học công, cơ sở dữ liệu riêng tư của doanh nghiệp, v.v.
  • Phần còn lại, như sách giáo khoa chuyên nghiệp, yêu cầu thiết kế và sàng lọc cẩn thận để đảm bảo rằng các phẩm chất xuất sắc cụ thể của mô hình có thể được nuôi dưỡng. Điều này yêu cầu chúng ta thực hiện một số công việc cần thiết như làm sạch dữ liệu, sàng lọc, gán nhãn và phản hồi thủ công.

Hai tập dữ liệu này cấu thành nên phần chính của đường dẫn Dữ liệu AI. Đừng xem nhẹ những tập dữ liệu có vẻ công nghệ thấp này. Quan điểm chủ đạo hiện nay là khi lợi thế về sức mạnh tính toán theo Quy luật Tăng trưởng dần trở nên không hiệu quả, dữ liệu sẽ trở thành trụ cột quan trọng nhất để các nhà sản xuất mô hình lớn duy trì lợi thế cạnh tranh của họ.

Khi khả năng của mô hình tiếp tục cải thiện, dữ liệu huấn luyện tinh vi và chuyên nghiệp hơn sẽ trở thành các biến số ảnh hưởng chính đến khả năng của mô hình. Nếu chúng ta so sánh việc huấn luyện mô hình với việc nuôi dưỡng các bậc thầy võ thuật, thì các bộ dữ liệu chất lượng cao chính là bí quyết võ thuật tốt nhất ( để hoàn thiện phép ẩn dụ này, chúng ta cũng có thể nói rằng sức mạnh tính toán là thuốc tiên và mô hình chính là bằng cấp tự thân ).

Từ góc độ dọc, AI Data cũng là một lĩnh vực dài hạn có khả năng phát triển theo cấp số nhân. Với việc tích lũy công việc trước đây, tài sản dữ liệu cũng sẽ có khả năng tăng trưởng, và sẽ trở nên phổ biến hơn khi chúng được lưu giữ lâu.

Web3 DataFi: Mảnh đất màu mỡ được chọn cho dữ liệu AI

So với đội ngũ gán nhãn thủ công từ xa hàng trăm nghìn người của Scale AI tại Philippines, Venezuela và những nơi khác, Web3 có lợi thế tự nhiên trong lĩnh vực dữ liệu AI, và thuật ngữ mới DataFi đã ra đời.

Lý tưởng, những lợi ích của Web3 DataFi như sau:

  1. Quyền sở hữu dữ liệu, an ninh và quyền riêng tư được đảm bảo bởi hợp đồng thông minh

Tại một giai đoạn khi dữ liệu công khai hiện có sắp được phát triển và cạn kiệt, cách thức khai thác thêm dữ liệu không công bố, thậm chí là dữ liệu riêng tư, là một hướng quan trọng để thu thập và mở rộng nguồn dữ liệu. Điều này đối mặt với một vấn đề lựa chọn lòng tin quan trọng - bạn sẽ chọn hệ thống mua lại hợp đồng của một công ty lớn tập trung và bán dữ liệu của mình; hay bạn sẽ chọn phương pháp blockchain, tiếp tục giữ quyền sở hữu dữ liệu trong tay, và hiểu rõ thông qua các hợp đồng thông minh: ai sử dụng dữ liệu của bạn, khi nào và với mục đích gì.

Trong cùng một thời điểm, đối với thông tin nhạy cảm, bạn có thể sử dụng zk, TEE và các phương pháp khác để đảm bảo rằng dữ liệu riêng tư của bạn chỉ được xử lý bởi các máy móc giữ im lặng và sẽ không bị rò rỉ.

  1. Lợi thế chênh lệch địa lý tự nhiên: kiến trúc phân tán tự do để thu hút lực lượng lao động phù hợp nhất

Có lẽ đã đến lúc thách thức mối quan hệ sản xuất lao động truyền thống. Thay vì tìm kiếm lao động giá rẻ khắp nơi trên thế giới như Scale AI, tốt hơn hết là tận dụng đặc điểm phân tán của blockchain và cho phép lực lượng lao động rải rác trên toàn cầu tham gia đóng góp dữ liệu thông qua các động lực mở và minh bạch được đảm bảo bởi hợp đồng thông minh.

Đối với các nhiệm vụ tốn nhiều lao động như gán nhãn dữ liệu và đánh giá mô hình, việc sử dụng Web3 DataFi thuận lợi hơn cho sự đa dạng của người tham gia so với cách tiếp cận tập trung trong việc thiết lập các nhà máy dữ liệu, điều này cũng có ý nghĩa lâu dài trong việc tránh thiên lệch dữ liệu.

  1. Những lợi thế rõ ràng về động lực và giải quyết của Blockchain

Làm thế nào để tránh thảm kịch của "Nhà máy da Giang Nam"? Tự nhiên, chúng ta nên sử dụng hệ thống khuyến khích với các nhãn giá rõ ràng trong hợp đồng thông minh để thay thế cho bóng tối của bản chất con người.

Trong bối cảnh toàn cầu hóa không thể tránh khỏi, chúng ta có thể tiếp tục đạt được chênh lệch địa lý với chi phí thấp như thế nào? Rõ ràng là việc mở công ty trên toàn thế giới ngày càng khó khăn hơn, vậy tại sao không vượt qua các rào cản của thế giới cũ và chấp nhận phương pháp thanh toán trên chuỗi?

  1. Nó có lợi cho việc xây dựng một thị trường dữ liệu "một cửa" hiệu quả và mở hơn.

"Các trung gian kiếm lợi từ chênh lệch giá" là một nỗi đau vĩnh viễn cho cả hai bên cung và cầu. Thay vì để một công ty dữ liệu tập trung hoạt động như một trung gian, tốt hơn là tạo ra một nền tảng trên chuỗi, thông qua một thị trường mở như Taobao, để các bên cung và cầu dữ liệu có thể kết nối một cách minh bạch và hiệu quả hơn.

Với sự phát triển của hệ sinh thái AI trên chuỗi, nhu cầu về dữ liệu trên chuỗi sẽ trở nên mạnh mẽ, phân khúc và đa dạng hơn. Chỉ có một thị trường phi tập trung mới có thể tiêu hóa hiệu quả nhu cầu này và biến nó thành sự thịnh vượng sinh thái.

Đối với các nhà đầu tư bán lẻ, DataFi cũng là dự án AI phi tập trung nhất, tạo điều kiện cho sự tham gia của các nhà đầu tư bán lẻ thông thường.

Mặc dù sự xuất hiện của các công cụ AI đã giảm ngưỡng học tập đến một mức độ nhất định, và mục đích ban đầu của AI phi tập trung là để phá vỡ sự độc quyền hiện tại của các doanh nghiệp AI do các ông lớn nắm giữ; tuy nhiên, cần phải thừa nhận rằng nhiều dự án hiện tại không dễ tiếp cận với các nhà đầu tư bán lẻ không có nền tảng kỹ thuật - việc tham gia vào khai thác mạng máy tính phi tập trung thường đi kèm với khoản đầu tư phần cứng ban đầu đắt đỏ, và ngưỡng kỹ thuật của thị trường mô hình luôn dễ dàng làm nản lòng những người tham gia bình thường.

Ngược lại, đây là một trong số ít cơ hội mà người dùng bình thường có thể nắm bắt trong cuộc cách mạng AI. Web3 cho phép bạn tham gia vào nó bằng cách hoàn thành các nhiệm vụ đơn giản khác nhau, bao gồm cung cấp dữ liệu, gán nhãn và đánh giá các mô hình dựa trên trực giác và bản năng của bộ não con người, hoặc sử dụng thêm các công cụ AI để thực hiện một số sáng tạo đơn giản, tham gia vào các giao dịch dữ liệu, v.v. Đối với những người lái xe cũ của Đảng Mao, giá trị độ khó gần như là bằng không.

Tiềm năng của các dự án DataFi Web3

Nơi dòng tiền chảy, đó là hướng đi. Ngoài việc Scale AI nhận được khoản đầu tư 14,3 tỷ USD từ Meta và giá cổ phiếu của Palantir tăng vọt hơn 5 lần trong một năm trong thế giới Web2, DataFi cũng hoạt động rất tốt trong việc huy động vốn Web3. Ở đây, chúng tôi sẽ giới thiệu ngắn gọn về những dự án này.

Dữ liệu là tài sản: DataFi đang mở ra một đại dương xanh mới

Sahara AI, @SaharaLabsAI, đã huy động 49 triệu USD

Mục tiêu cuối cùng của Sahara AI là xây dựng một cơ sở hạ tầng siêu AI phi tập trung và thị trường giao dịch. Ngành đầu tiên được thử nghiệm là Dữ liệu AI. Phiên bản beta công khai của Nền tảng Dịch vụ DSP (Data Services Platform) sẽ được ra mắt vào ngày 22 tháng 7. Người dùng có thể nhận phần thưởng token bằng cách đóng góp dữ liệu, tham gia gán nhãn dữ liệu và các nhiệm vụ khác.

Liên kết: app.saharaai.com

Yupp, @yupp_ai, đã huy động được 33 triệu đô la

Yupp là một nền tảng phản hồi mô hình AI thu thập ý kiến phản hồi của người dùng về đầu ra của mô hình. Nhiệm vụ chính hiện tại là người dùng có thể so sánh đầu ra của các mô hình khác nhau cho cùng một gợi ý, và sau đó chọn cái mà họ cho là tốt hơn. Hoàn thành nhiệm vụ có thể kiếm được điểm Yupp, có thể được đổi lấy các stablecoin fiat như USDC.

Liên kết:

Vana, @vana, đã huy động 23 triệu đô la

Vana tập trung vào việc chuyển đổi dữ liệu cá nhân của người dùng ( như hoạt động trên mạng xã hội, lịch sử duyệt web, v.v.) thành tài sản kỹ thuật số có thể kiếm tiền. Người dùng có thể ủy quyền để tải lên dữ liệu cá nhân của họ vào quỹ thanh khoản dữ liệu tương ứng (DLP) trong DataDAOs. Những dữ liệu này sẽ được tập hợp lại và sử dụng để tham gia vào các nhiệm vụ như đào tạo mô hình AI, và người dùng cũng sẽ nhận được phần thưởng token tương ứng.

Liên kết:

Chainbase, @ChainbaseHQ, huy động được 16,5 triệu đô la

Kinh doanh của Chainbase tập trung vào dữ liệu trên chuỗi, hiện nay bao gồm hơn 200 blockchain, chuyển đổi các hoạt động trên chuỗi thành tài sản dữ liệu có cấu trúc, có thể xác minh và có thể kiếm tiền cho việc phát triển dApp. Kinh doanh của Chainbase chủ yếu được thu thập thông qua lập chỉ mục đa chuỗi và các phương pháp khác, và dữ liệu được xử lý thông qua hệ thống Manuscript và mô hình AI Theia. Người dùng thông thường hiện không tham gia nhiều.

Sapien, @JoinSapien, đã huy động được 15,5 triệu đô la

Sapien nhằm chuyển đổi tri thức của con người thành dữ liệu đào tạo AI chất lượng cao trên quy mô lớn. Bất kỳ ai cũng có thể thực hiện chú thích dữ liệu trên nền tảng và đảm bảo chất lượng của dữ liệu thông qua xác minh đồng nghiệp. Đồng thời, người dùng được khuyến khích xây dựng uy tín lâu dài hoặc thực hiện cam kết thông qua việc stake để kiếm thêm phần thưởng.

Liên kết:

Prisma X, @PrismaXai , huy động 11 triệu đô la

Prisma X muốn trở thành một lớp phối hợp mở cho các robot, trong đó việc thu thập dữ liệu vật lý là điều then chốt. Dự án này hiện đang ở giai đoạn đầu. Theo tài liệu trắng vừa được phát hành, việc tham gia có thể bao gồm việc đầu tư vào các robot để thu thập dữ liệu, vận hành từ xa dữ liệu robot, v.v. Hiện tại, một bài kiểm tra dựa trên tài liệu trắng đang được mở, và bạn có thể tham gia để kiếm điểm.

Liên kết:

Masa, @getmasafi, đã huy động được 8,9 triệu đô la

Masa là một trong những dự án subnet hàng đầu trong hệ sinh thái Bittensor, và hiện đang vận hành Data Subnet số 42 và Agent Subnet số 59. Data subnet cam kết cung cấp quyền truy cập dữ liệu theo thời gian thực. Hiện tại, các thợ mỏ chủ yếu thu thập dữ liệu theo thời gian thực trên X/Twitter thông qua phần cứng TEE. Đối với người dùng thông thường, độ khó và chi phí tham gia tương đối cao.

Irys, @irys_xyz, đã huy động được 8,7 triệu đô la

Irys tập trung vào lưu trữ dữ liệu và tính toán có thể lập trình, nhằm cung cấp các giải pháp hiệu quả và chi phí thấp cho AI, ứng dụng phi tập trung (dApps) và các ứng dụng yêu cầu dữ liệu khác. Về đóng góp dữ liệu, người dùng thông thường hiện tại không thể tham gia nhiều, nhưng có nhiều hoạt động để tham gia ở giai đoạn testnet hiện tại.

Liên kết:

ORO, @getoro_xyz, đã huy động được 6 triệu đô la

Điều ORO muốn làm là trao quyền cho những người bình thường tham gia vào việc đóng góp cho AI. Các phương pháp hỗ trợ bao gồm: 1. Liên kết tài khoản cá nhân của bạn để đóng góp dữ liệu cá nhân, bao gồm tài khoản mạng xã hội, dữ liệu sức khỏe, tài khoản thương mại điện tử và tài khoản tài chính; 2. Hoàn thành các nhiệm vụ dữ liệu. Mạng thử nghiệm hiện đã trực tuyến và bạn có thể tham gia.

Link: app.getoro.xyz

Gata, @Gata_xyz, đã huy động 4 triệu đô la

Được định vị như một lớp dữ liệu phi tập trung, Gata hiện có ba sản phẩm chính để tham gia: 1. Đại lý Dữ liệu: một loạt các Đại lý AI có thể tự động chạy và xử lý dữ liệu miễn là người dùng mở trang web; 2. AII-in-one Chat: một cơ chế tương tự như đánh giá mô hình của Yupp để kiếm phần thưởng; 3. GPT-to-Earn: một tiện ích mở rộng trình duyệt thu thập dữ liệu cuộc trò chuyện của người dùng trên ChatGPT.

Liên kết:

Bạn cảm thấy thế nào về những dự án hiện tại này?

Hiện tại, rào cản gia nhập cho những dự án này thường không cao, nhưng cần thừa nhận rằng một khi người dùng và sự gắn bó với hệ sinh thái được tích lũy, những lợi thế của nền tảng sẽ tích lũy nhanh chóng. Do đó, trong giai đoạn đầu, nỗ lực nên tập trung vào các ưu đãi và trải nghiệm người dùng. Chỉ bằng cách thu hút đủ người dùng, doanh nghiệp dữ liệu lớn mới có thể phát triển.

Tuy nhiên, với tư cách là các dự án cần nhiều lao động, những nền tảng dữ liệu này cũng nên xem xét cách quản lý lao động và đảm bảo chất lượng đầu ra dữ liệu trong khi thu hút lao động. Rốt cuộc, một vấn đề chung của nhiều dự án Web3 là hầu hết người dùng trên nền tảng chỉ là những kẻ trục lợi tàn nhẫn. Họ thường hy sinh chất lượng để đổi lấy lợi ích ngắn hạn. Nếu họ được phép trở thành những người dùng chính của nền tảng, tiền xấu chắc chắn sẽ đẩy tiền tốt ra ngoài, và cuối cùng chất lượng dữ liệu không thể được đảm bảo và người mua không thể được thu hút. Hiện tại, chúng ta đã thấy rằng các dự án như Sahara và Sapien đã nhấn mạnh chất lượng dữ liệu và nỗ lực thiết lập một mối quan hệ hợp tác lâu dài và lành mạnh với lao động trên nền tảng.

Ngoài ra, thiếu minh bạch là một vấn đề khác của các dự án trên chuỗi hiện tại. Thực tế, tam giác không thể giải quyết của blockchain đã buộc nhiều dự án phải đi theo con đường "tập trung hóa thúc đẩy phi tập trung hóa" trong giai đoạn khởi nghiệp. Nhưng hiện nay, ngày càng nhiều dự án trên chuỗi đem lại cho người ta ấn tượng về "các dự án Web2 cũ trong lớp vỏ Web3" - rất ít dữ liệu công khai có thể theo dõi trên chuỗi, và ngay cả lộ trình cũng khó để thấy được quyết tâm lâu dài về tính mở và minh bạch. Điều này chắc chắn là độc hại cho sự phát triển lành mạnh lâu dài của Web3 DataFi, và chúng tôi cũng hy vọng rằng nhiều dự án sẽ luôn giữ nguyên ý định ban đầu và tăng tốc độ mở và minh bạch.

Cuối cùng, con đường áp dụng đại trà của DataFi cũng nên được chia thành hai phần: một là thu hút đủ người tham gia toC tham gia vào mạng lưới, hình thành một lực lượng mới cho việc thu thập/generation dữ liệu và người tiêu dùng trong nền kinh tế AI, tạo thành một vòng khép kín sinh thái; phần còn lại là nhận được sự công nhận từ các công ty to B hiện tại. Sau cùng, trong ngắn hạn, họ là nguồn chính cho các đơn hàng dữ liệu lớn với túi tiền sâu rộng của mình. Trong vấn đề này, chúng tôi cũng đã thấy rằng Sahara AI, Vana, v.v. đã có những tiến bộ tốt.

Kết luận

Để bi quan hơn, DataFi là về việc sử dụng trí thông minh của con người để nuôi dưỡng trí thông minh của máy trong dài hạn, trong khi sử dụng hợp đồng thông minh như một hợp đồng để đảm bảo rằng lao động trí thông minh của con người có lợi nhuận và cuối cùng được hưởng lợi từ trí thông minh của máy.

Nếu bạn lo lắng về sự không chắc chắn của thời đại AI, và nếu bạn vẫn giữ những lý tưởng blockchain giữa những thăng trầm của thế giới tiền điện tử, thì việc đi theo bước chân của một nhóm các ông lớn vốn và tham gia vào DataFi là một lựa chọn tốt để theo kịp xu hướng.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Chia sẻ
Bình luận
0/400
Không có bình luận
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)