Sự tiến hóa của chỉ mục dữ liệu Blockchain: từ Nút đến dịch vụ dữ liệu toàn chuỗi được hỗ trợ bởi AI
1 Giới thiệu
Từ khi những dApp đầu tiên ra đời vào năm 2017, đến nay các loại ứng dụng blockchain đang phát triển mạnh mẽ, chúng ta có bao giờ suy nghĩ về nguồn gốc dữ liệu mà những dApp này sử dụng?
Năm 2024, AI và Web3 trở thành điểm nóng. Trong lĩnh vực AI, dữ liệu giống như nguồn sống. Cũng giống như thực vật cần ánh sáng mặt trời và độ ẩm, hệ thống AI cũng phụ thuộc vào khối lượng dữ liệu khổng lồ để liên tục học hỏi và tiến hóa. Không có dữ liệu, ngay cả những thuật toán AI tinh vi nhất cũng khó có thể phát huy được trí thông minh vốn có của chúng.
Bài viết này sẽ phân tích sâu về sự phát triển của ngành từ góc độ khả năng truy cập dữ liệu blockchain, và so sánh giao thức chỉ mục lâu đời The Graph với các giao thức mới nổi Chainbase và Space and Time, khám phá sự khác biệt và tương đồng của hai giao thức mới kết hợp công nghệ AI trong dịch vụ dữ liệu và kiến trúc sản phẩm.
2 Sự phức tạp và đơn giản của chỉ mục dữ liệu: từ Nút Blockchain đến cơ sở dữ liệu toàn chuỗi
2.1 Nguồn dữ liệu: Nút Blockchain
Blockchain được coi là một sổ cái phi tập trung. Nút là nền tảng của mạng blockchain, chịu trách nhiệm ghi chép, lưu trữ và truyền bá tất cả dữ liệu giao dịch trên chuỗi. Mỗi nút đều có một bản sao đầy đủ của dữ liệu blockchain, duy trì tính phi tập trung của mạng. Tuy nhiên, đối với người dùng thông thường, việc tự xây dựng và duy trì nút không phải là điều dễ dàng. Điều này không chỉ đòi hỏi kỹ năng chuyên môn mà còn có chi phí phần cứng và băng thông cao. Khả năng truy vấn của nút thông thường cũng hạn chế, không thể lấy dữ liệu theo định dạng mà các nhà phát triển cần. Do đó, mặc dù về lý thuyết ai cũng có thể vận hành nút, nhưng thực tế người dùng thường phụ thuộc vào dịch vụ bên thứ ba.
Để giải quyết vấn đề này, các nhà cung cấp nút RPC đã ra đời. Họ chịu trách nhiệm về chi phí và quản lý nút, cung cấp dữ liệu thông qua các điểm cuối RPC. Người dùng không cần tự xây dựng nút vẫn có thể truy cập dữ liệu Blockchain. Các điểm cuối RPC công cộng miễn phí nhưng có giới hạn tốc độ, có thể ảnh hưởng đến trải nghiệm dApp. Các điểm cuối RPC riêng tư có hiệu suất tốt hơn, nhưng việc truy xuất dữ liệu đơn giản cũng cần nhiều giao tiếp, kém hiệu quả và khó mở rộng. Tuy nhiên, giao diện API tiêu chuẩn hóa của các nhà cung cấp nút đã giảm bớt rào cản truy cập dữ liệu, tạo nền tảng cho việc phân tích và ứng dụng dữ liệu sau này.
2.2 Phân tích dữ liệu: Từ dữ liệu nguyên mẫu đến dữ liệu khả dụng
Dữ liệu gốc được cung cấp bởi các nút Blockchain thường được mã hóa và mã hóa, đảm bảo tính toàn vẹn và an toàn, nhưng cũng làm tăng độ khó trong việc phân tích. Đối với người dùng thông thường hoặc các nhà phát triển, việc xử lý trực tiếp những dữ liệu này cần rất nhiều kiến thức kỹ thuật và tài nguyên tính toán.
Quá trình phân tích dữ liệu do đó trở nên rất quan trọng. Bằng cách chuyển đổi dữ liệu nguyên mẫu phức tạp thành định dạng dễ hiểu và thao tác, người dùng có thể tận dụng dữ liệu này một cách trực quan hơn. Sự thành công hay thất bại của việc phân tích trực tiếp ảnh hưởng đến hiệu quả của ứng dụng dữ liệu Blockchain, là bước quan trọng trong toàn bộ quy trình lập chỉ mục.
2.3 Sự tiến hóa của bộ chỉ mục dữ liệu
Khi lượng dữ liệu Blockchain tăng lên, nhu cầu về bộ chỉ mục ngày càng tăng. Các bộ chỉ mục tổ chức dữ liệu trên chuỗi và gửi nó đến cơ sở dữ liệu để truy vấn. Chúng lập chỉ mục dữ liệu Blockchain và làm cho dữ liệu luôn sẵn có thông qua ngôn ngữ truy vấn tương tự SQL ( như GraphQL API ). Các bộ chỉ mục cung cấp giao diện truy vấn thống nhất, giúp các nhà phát triển có thể nhanh chóng và chính xác truy xuất thông tin bằng ngôn ngữ tiêu chuẩn, từ đó đơn giản hóa quy trình rất nhiều.
Các loại bộ chỉ mục khác nhau tối ưu hóa cách truy xuất dữ liệu.
Bộ chỉ mục nút hoàn chỉnh: Chạy nút blockchain hoàn chỉnh để trích xuất dữ liệu trực tiếp, đảm bảo đầy đủ và chính xác, nhưng cần nhiều dung lượng lưu trữ và khả năng xử lý.
Trình chỉ mục nhẹ: phụ thuộc vào Nút đầy đủ để lấy dữ liệu cụ thể theo yêu cầu, giảm nhu cầu lưu trữ nhưng có thể tăng thời gian truy vấn.
Bộ chỉ mục chuyên dụng: Tối ưu hóa việc truy xuất cho các loại dữ liệu hoặc blockchain cụ thể, chẳng hạn như dữ liệu NFT hoặc giao dịch DeFi.
Bộ chỉ mục tổng hợp: Trích xuất dữ liệu từ nhiều blockchain và nguồn khác nhau, bao gồm thông tin ngoài chuỗi, cung cấp giao diện truy vấn thống nhất, phù hợp cho dApp đa chuỗi.
Hiện tại, nút lưu trữ Ethereum trong khách hàng Geth chiếm khoảng 13.5TB dung lượng lưu trữ, trong khi khách hàng Erigon khoảng 3TB. Khi khối Blockchain tăng trưởng, nhu cầu lưu trữ tiếp tục tăng. Đối mặt với lượng dữ liệu khổng lồ, các giao thức lập chỉ mục chính hỗ trợ lập chỉ mục đa chuỗi và tùy chỉnh khung phân tích dữ liệu theo các nhu cầu ứng dụng khác nhau, như khung "subgraph" của The Graph.
Bộ chỉ mục đã cải thiện đáng kể hiệu suất chỉ mục và truy vấn dữ liệu. So với các điểm cuối RPC truyền thống, bộ chỉ mục có thể chỉ mục hiệu quả một lượng lớn dữ liệu và hỗ trợ truy vấn tốc độ cao. Người dùng có thể thực hiện các truy vấn phức tạp, dễ dàng lọc và phân tích dữ liệu. Một số bộ chỉ mục còn hỗ trợ tổng hợp nhiều nguồn dữ liệu từ nhiều chuỗi, tránh việc triển khai nhiều API cho dApp đa chuỗi. Việc vận hành phân phối cung cấp độ an toàn và hiệu suất mạnh mẽ hơn, giảm thiểu rủi ro gián đoạn có thể xảy ra từ các nhà cung cấp RPC tập trung.
Bộ chỉ mục cho phép người dùng truy cập thông tin cần thiết trực tiếp mà không cần phải xử lý dữ liệu nền phức tạp thông qua ngôn ngữ truy vấn định nghĩa trước. Điều này đã cải thiện đáng kể hiệu quả và độ tin cậy của việc truy xuất dữ liệu, là một đổi mới quan trọng trong việc truy cập dữ liệu Blockchain.
2.4 Cơ sở dữ liệu toàn chuỗi: Căn chỉnh ưu tiên theo dòng
Việc sử dụng Nút chỉ mục để truy vấn dữ liệu thường có nghĩa là API trở thành phương tiện duy nhất để xử lý dữ liệu trên chuỗi. Tuy nhiên, khi dự án bước vào giai đoạn mở rộng, thường cần các nguồn dữ liệu linh hoạt hơn, API chuẩn hóa khó có thể đáp ứng. Khi nhu cầu ứng dụng trở nên phức tạp, các bộ chỉ mục sơ cấp và định dạng chỉ mục chuẩn hóa dần khó lòng đáp ứng nhu cầu truy vấn đa dạng, như tìm kiếm, truy cập chuỗi chéo hoặc ánh xạ dữ liệu ngoài chuỗi.
Trong kiến trúc của các kênh dữ liệu hiện đại, phương pháp "ưu tiên luồng" đã trở thành giải pháp để khắc phục những hạn chế của xử lý theo lô truyền thống, đạt được việc thu thập, xử lý và phân tích dữ liệu theo thời gian thực. Sự chuyển đổi này cho phép các tổ chức phản ứng ngay lập tức với dữ liệu đến, rút ra những hiểu biết và quyết định gần như ngay lập tức. Tương tự, các nhà cung cấp dịch vụ dữ liệu blockchain cũng đang phát triển theo hướng xây dựng dòng dữ liệu, các nhà cung cấp dịch vụ chỉ mục truyền thống đang lần lượt phát hành các sản phẩm dòng dữ liệu blockchain theo thời gian thực, chẳng hạn như Substreams của The Graph, Mirror của Goldsky, cũng như Chainbase và SubSquid với các hồ dữ liệu theo thời gian thực được tạo ra từ blockchain.
Các dịch vụ này nhằm giải quyết nhu cầu phân tích giao dịch Blockchain theo thời gian thực và cung cấp khả năng truy vấn toàn diện. Giống như kiến trúc "ưu tiên luồng" đã đổi mới cách xử lý dữ liệu truyền thống bằng cách giảm độ trễ và tăng cường khả năng phản hồi, các nhà cung cấp dịch vụ dữ liệu luồng Blockchain này cũng mong muốn hỗ trợ nhiều ứng dụng phát triển hơn và hỗ trợ phân tích dữ liệu trên chuỗi thông qua các nguồn dữ liệu tiên tiến và trưởng thành hơn.
Xem xét lại thách thức dữ liệu trên chuỗi từ góc độ của các kênh dữ liệu hiện đại, chúng ta có thể nhìn nhận lại tiềm năng của quản lý, lưu trữ và cung cấp dữ liệu từ một góc độ hoàn toàn mới. Khi chúng ta xem các bộ chỉ mục như Subgraph và ETL Ethereum như là dòng dữ liệu thay vì là đầu ra cuối cùng, chúng ta có thể tưởng tượng ra một thế giới có thể tùy chỉnh các bộ dữ liệu hiệu suất cao cho bất kỳ trường hợp sử dụng nào.
3 AI + Cơ sở dữ liệu? So sánh sâu sắc The Graph, Chainbase, Space and Time
3.1 The Graph
Mạng The Graph sử dụng mạng nút phi tập trung để thực hiện dịch vụ chỉ mục và truy vấn dữ liệu đa chuỗi, giúp các nhà phát triển chỉ mục dữ liệu blockchain và xây dựng ứng dụng. Mô hình sản phẩm chính của nó là thị trường thực hiện truy vấn dữ liệu và thị trường bộ nhớ đệm chỉ mục, đều phục vụ cho nhu cầu truy vấn của người dùng. Thị trường thực hiện truy vấn đề cập đến việc người tiêu dùng trả phí cho nút chỉ mục phù hợp để có được dữ liệu cần thiết, trong khi thị trường bộ nhớ đệm chỉ mục là nơi các nút chỉ mục phân phối tài nguyên dựa trên độ nóng lịch sử của phụ đồ thị, phí truy vấn và nhu cầu tổ chức.
Subgraph là cấu trúc dữ liệu cơ bản của mạng The Graph, định nghĩa cách lấy và chuyển đổi dữ liệu từ Blockchain thành định dạng có thể truy vấn. Bất kỳ ai cũng có thể tạo ra subgraph, nhiều ứng dụng có thể tái sử dụng, nâng cao khả năng tái sử dụng dữ liệu và hiệu quả sử dụng.
Mạng The Graph được cấu thành bởi bốn vai trò: người lập chỉ mục, người quản lý, người ủy thác và nhà phát triển, cùng hỗ trợ nhu cầu dữ liệu của ứng dụng web3. Trách nhiệm của từng vai trò như sau:
Bộ chỉ mục: Nhà điều hành nút mạng, tham gia vào mạng bằng cách stake GRT, cung cấp dịch vụ lập chỉ mục và xử lý truy vấn.
Người ủy thác: Đặt GRT vào ngân hàng để hỗ trợ hoạt động của các nút chỉ mục, kiếm được một phần thưởng từ các nút đã ủy thác.
Người tổ chức: Chịu trách nhiệm chỉ định các nút con nào của tín hiệu nên được mạng ưu tiên lập chỉ mục, đảm bảo rằng các nút con có giá trị được xử lý.
Nhà phát triển: Người dùng chính của The Graph, tạo và gửi các subgraph tới mạng, chờ đợi nhu cầu dữ liệu được đáp ứng.
Hiện tại The Graph đã chuyển sang dịch vụ lưu trữ subgraph hoàn toàn phi tập trung, các bên tham gia có động lực kinh tế đảm bảo hệ thống hoạt động:
Nút chỉ mục kiếm lợi nhuận bằng cách truy vấn phí và phần thưởng GRT khối.
Người ủy thác nhận được một phần thưởng từ các nút chỉ mục được hỗ trợ.
Nếu người quản lý cho rằng tín hiệu có giá trị trong biểu đồ con, họ có thể nhận được một phần thưởng từ phí truy vấn.
Sản phẩm The Graph phát triển nhanh chóng trong cơn sóng AI. Semiotic Labs, là một trong những đội phát triển cốt lõi, cam kết sử dụng công nghệ AI để tối ưu hóa định giá chỉ mục và trải nghiệm truy vấn của người dùng. Hiện tại, các công cụ AutoAgora, Allocation Optimizer và AgentC đang nâng cao hiệu suất của hệ sinh thái ở nhiều phương diện:
AutoAgora giới thiệu cơ chế định giá động, điều chỉnh giá theo khối lượng truy vấn và mức sử dụng tài nguyên theo thời gian thực, tối ưu hóa chiến lược định giá, đảm bảo khả năng cạnh tranh của trình chỉ mục và tối đa hóa doanh thu.
Allocation Optimizer giải quyết vấn đề phân bổ tài nguyên đồ thị con, giúp bộ chỉ mục đạt được cấu hình tối ưu, nâng cao doanh thu và hiệu suất.
AgentC cho phép người dùng truy cập dữ liệu Blockchain thông qua ngôn ngữ tự nhiên, nâng cao trải nghiệm người dùng.
Việc áp dụng các công cụ này đã giúp The Graph kết hợp AI nâng cao hơn nữa tính thông minh của hệ thống và tính thân thiện với người dùng.
3.2 Chainbase
Chainbase là một mạng dữ liệu toàn chuỗi, tích hợp tất cả dữ liệu khối trên một nền tảng, giúp các nhà phát triển xây dựng và duy trì ứng dụng. Các tính năng độc đáo của nó bao gồm:
Hồ dữ liệu thời gian thực: cung cấp hồ dữ liệu thời gian thực chuyên dụng cho luồng dữ liệu blockchain, cho phép dữ liệu được truy cập ngay khi nó được tạo ra.
Kiến trúc chuỗi kép: Dựa trên Eigenlayer AVS để xây dựng lớp thực thi, kết hợp với thuật toán đồng thuận CometBFT tạo thành kiến trúc chuỗi kép song song. Thiết kế này tăng cường khả năng lập trình và kết hợp dữ liệu giữa các chuỗi, hỗ trợ thông lượng cao, độ trễ thấp và tính cuối cùng, đồng thời nâng cao độ bảo mật của mạng thông qua việc đặt cọc kép.
Tiêu chuẩn định dạng dữ liệu đổi mới: giới thiệu tiêu chuẩn định dạng dữ liệu mới "manuscripts", tối ưu hóa cấu trúc và cách sử dụng dữ liệu trong ngành công nghiệp tiền mã hóa.
Mô hình thế giới mã hóa: Kết hợp công nghệ mô hình AI, sử dụng nguồn dữ liệu blockchain khổng lồ, tạo ra mô hình AI có khả năng hiểu, dự đoán giao dịch blockchain và tương tác với nó. Hiện tại đã ra mắt phiên bản cơ bản Theia cho công chúng sử dụng.
Các tính năng này giúp Chainbase nổi bật trong giao thức chỉ mục, đặc biệt chú trọng đến khả năng truy cập dữ liệu theo thời gian thực, định dạng dữ liệu đổi mới, cũng như việc kết hợp dữ liệu trên chuỗi và ngoài chuỗi để tạo ra các mô hình thông minh hơn nhằm nâng cao khả năng phân tích.
Mô hình AI Theia của Chainbase là điểm khác biệt của nó so với các giao thức dịch vụ dữ liệu khác. Theia dựa trên mô hình DORA do NVIDIA phát triển, kết hợp dữ liệu trên chuỗi và ngoài chuỗi cùng với các hoạt động không gian và thời gian, học hỏi phân tích các mẫu mã hóa, và thông qua suy diễn nguyên nhân để đưa ra phản ứng, khai thác sâu giá trị và quy luật tiềm ẩn của dữ liệu trên chuỗi, cung cấp dịch vụ dữ liệu thông minh hơn cho người dùng.
Dịch vụ dữ liệu được hỗ trợ bởi AI không chỉ biến Chainbase thành nền tảng dịch vụ dữ liệu Blockchain, mà còn trở thành nhà cung cấp dịch vụ dữ liệu thông minh có tính cạnh tranh. Thông qua nguồn dữ liệu mạnh mẽ và phân tích chủ động của AI, Chainbase có thể cung cấp cái nhìn dữ liệu rộng rãi hơn và tối ưu hóa quá trình xử lý dữ liệu của người dùng.
3.3 Không gian và Thời gian
Space and Time (SxT) cam kết xây dựng một lớp tính toán có thể xác minh, mở rộng chứng minh không kiến thức trên kho dữ liệu phi tập trung, cung cấp xử lý dữ liệu đáng tin cậy cho hợp đồng thông minh, mô hình ngôn ngữ lớn và doanh nghiệp. Hiện tại đã nhận được 20 triệu USD trong vòng đầu tư A, do Framework Ventures, Lightspeed Faction, Arrington Capital và Hivemind Capital dẫn đầu.
Trong lĩnh vực chỉ mục dữ liệu và xác minh, Space and Time đã giới thiệu một con đường công nghệ đổi mới - Proof of SQL. Đây là công nghệ chứng minh không biết (zero-knowledge proof) được phát triển bởi SxT, đảm bảo rằng các truy vấn SQL thực hiện trên kho dữ liệu phi tập trung không bị giả mạo và có thể xác minh. Khi thực hiện truy vấn, Proof of SQL sẽ tạo ra chứng minh mã hóa, xác minh tính toàn vẹn và độ chính xác của kết quả truy vấn. Chứng minh được đính kèm vào kết quả, bất kỳ người xác minh nào ( như hợp đồng thông minh ) đều có thể xác nhận độc lập rằng quá trình xử lý dữ liệu không bị giả mạo. Các mạng blockchain truyền thống thường dựa vào cơ chế đồng thuận để xác minh tính xác thực của dữ liệu, trong khi Proof of SQL thực hiện một phương thức xác minh dữ liệu hiệu quả hơn. Trong hệ thống SxT, một nút chịu trách nhiệm thu thập dữ liệu, các nút khác thông qua công nghệ zk xác minh tính xác thực của dữ liệu. Điều này đã thay đổi sự hao tổn tài nguyên khi nhiều nút chỉ mục dữ liệu lặp lại dưới cơ chế đồng thuận để đạt được sự đồng thuận, nâng cao hiệu suất tổng thể của hệ thống. Khi công nghệ phát triển, nó mang lại sự chú trọng đến độ tin cậy của dữ liệu.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
AI trao quyền cho Blockchain dữ liệu chỉ mục: Sự tiến hóa từ The Graph đến Chainbase
Sự tiến hóa của chỉ mục dữ liệu Blockchain: từ Nút đến dịch vụ dữ liệu toàn chuỗi được hỗ trợ bởi AI
1 Giới thiệu
Từ khi những dApp đầu tiên ra đời vào năm 2017, đến nay các loại ứng dụng blockchain đang phát triển mạnh mẽ, chúng ta có bao giờ suy nghĩ về nguồn gốc dữ liệu mà những dApp này sử dụng?
Năm 2024, AI và Web3 trở thành điểm nóng. Trong lĩnh vực AI, dữ liệu giống như nguồn sống. Cũng giống như thực vật cần ánh sáng mặt trời và độ ẩm, hệ thống AI cũng phụ thuộc vào khối lượng dữ liệu khổng lồ để liên tục học hỏi và tiến hóa. Không có dữ liệu, ngay cả những thuật toán AI tinh vi nhất cũng khó có thể phát huy được trí thông minh vốn có của chúng.
Bài viết này sẽ phân tích sâu về sự phát triển của ngành từ góc độ khả năng truy cập dữ liệu blockchain, và so sánh giao thức chỉ mục lâu đời The Graph với các giao thức mới nổi Chainbase và Space and Time, khám phá sự khác biệt và tương đồng của hai giao thức mới kết hợp công nghệ AI trong dịch vụ dữ liệu và kiến trúc sản phẩm.
2 Sự phức tạp và đơn giản của chỉ mục dữ liệu: từ Nút Blockchain đến cơ sở dữ liệu toàn chuỗi
2.1 Nguồn dữ liệu: Nút Blockchain
Blockchain được coi là một sổ cái phi tập trung. Nút là nền tảng của mạng blockchain, chịu trách nhiệm ghi chép, lưu trữ và truyền bá tất cả dữ liệu giao dịch trên chuỗi. Mỗi nút đều có một bản sao đầy đủ của dữ liệu blockchain, duy trì tính phi tập trung của mạng. Tuy nhiên, đối với người dùng thông thường, việc tự xây dựng và duy trì nút không phải là điều dễ dàng. Điều này không chỉ đòi hỏi kỹ năng chuyên môn mà còn có chi phí phần cứng và băng thông cao. Khả năng truy vấn của nút thông thường cũng hạn chế, không thể lấy dữ liệu theo định dạng mà các nhà phát triển cần. Do đó, mặc dù về lý thuyết ai cũng có thể vận hành nút, nhưng thực tế người dùng thường phụ thuộc vào dịch vụ bên thứ ba.
Để giải quyết vấn đề này, các nhà cung cấp nút RPC đã ra đời. Họ chịu trách nhiệm về chi phí và quản lý nút, cung cấp dữ liệu thông qua các điểm cuối RPC. Người dùng không cần tự xây dựng nút vẫn có thể truy cập dữ liệu Blockchain. Các điểm cuối RPC công cộng miễn phí nhưng có giới hạn tốc độ, có thể ảnh hưởng đến trải nghiệm dApp. Các điểm cuối RPC riêng tư có hiệu suất tốt hơn, nhưng việc truy xuất dữ liệu đơn giản cũng cần nhiều giao tiếp, kém hiệu quả và khó mở rộng. Tuy nhiên, giao diện API tiêu chuẩn hóa của các nhà cung cấp nút đã giảm bớt rào cản truy cập dữ liệu, tạo nền tảng cho việc phân tích và ứng dụng dữ liệu sau này.
2.2 Phân tích dữ liệu: Từ dữ liệu nguyên mẫu đến dữ liệu khả dụng
Dữ liệu gốc được cung cấp bởi các nút Blockchain thường được mã hóa và mã hóa, đảm bảo tính toàn vẹn và an toàn, nhưng cũng làm tăng độ khó trong việc phân tích. Đối với người dùng thông thường hoặc các nhà phát triển, việc xử lý trực tiếp những dữ liệu này cần rất nhiều kiến thức kỹ thuật và tài nguyên tính toán.
Quá trình phân tích dữ liệu do đó trở nên rất quan trọng. Bằng cách chuyển đổi dữ liệu nguyên mẫu phức tạp thành định dạng dễ hiểu và thao tác, người dùng có thể tận dụng dữ liệu này một cách trực quan hơn. Sự thành công hay thất bại của việc phân tích trực tiếp ảnh hưởng đến hiệu quả của ứng dụng dữ liệu Blockchain, là bước quan trọng trong toàn bộ quy trình lập chỉ mục.
2.3 Sự tiến hóa của bộ chỉ mục dữ liệu
Khi lượng dữ liệu Blockchain tăng lên, nhu cầu về bộ chỉ mục ngày càng tăng. Các bộ chỉ mục tổ chức dữ liệu trên chuỗi và gửi nó đến cơ sở dữ liệu để truy vấn. Chúng lập chỉ mục dữ liệu Blockchain và làm cho dữ liệu luôn sẵn có thông qua ngôn ngữ truy vấn tương tự SQL ( như GraphQL API ). Các bộ chỉ mục cung cấp giao diện truy vấn thống nhất, giúp các nhà phát triển có thể nhanh chóng và chính xác truy xuất thông tin bằng ngôn ngữ tiêu chuẩn, từ đó đơn giản hóa quy trình rất nhiều.
Các loại bộ chỉ mục khác nhau tối ưu hóa cách truy xuất dữ liệu.
Hiện tại, nút lưu trữ Ethereum trong khách hàng Geth chiếm khoảng 13.5TB dung lượng lưu trữ, trong khi khách hàng Erigon khoảng 3TB. Khi khối Blockchain tăng trưởng, nhu cầu lưu trữ tiếp tục tăng. Đối mặt với lượng dữ liệu khổng lồ, các giao thức lập chỉ mục chính hỗ trợ lập chỉ mục đa chuỗi và tùy chỉnh khung phân tích dữ liệu theo các nhu cầu ứng dụng khác nhau, như khung "subgraph" của The Graph.
Bộ chỉ mục đã cải thiện đáng kể hiệu suất chỉ mục và truy vấn dữ liệu. So với các điểm cuối RPC truyền thống, bộ chỉ mục có thể chỉ mục hiệu quả một lượng lớn dữ liệu và hỗ trợ truy vấn tốc độ cao. Người dùng có thể thực hiện các truy vấn phức tạp, dễ dàng lọc và phân tích dữ liệu. Một số bộ chỉ mục còn hỗ trợ tổng hợp nhiều nguồn dữ liệu từ nhiều chuỗi, tránh việc triển khai nhiều API cho dApp đa chuỗi. Việc vận hành phân phối cung cấp độ an toàn và hiệu suất mạnh mẽ hơn, giảm thiểu rủi ro gián đoạn có thể xảy ra từ các nhà cung cấp RPC tập trung.
Bộ chỉ mục cho phép người dùng truy cập thông tin cần thiết trực tiếp mà không cần phải xử lý dữ liệu nền phức tạp thông qua ngôn ngữ truy vấn định nghĩa trước. Điều này đã cải thiện đáng kể hiệu quả và độ tin cậy của việc truy xuất dữ liệu, là một đổi mới quan trọng trong việc truy cập dữ liệu Blockchain.
2.4 Cơ sở dữ liệu toàn chuỗi: Căn chỉnh ưu tiên theo dòng
Việc sử dụng Nút chỉ mục để truy vấn dữ liệu thường có nghĩa là API trở thành phương tiện duy nhất để xử lý dữ liệu trên chuỗi. Tuy nhiên, khi dự án bước vào giai đoạn mở rộng, thường cần các nguồn dữ liệu linh hoạt hơn, API chuẩn hóa khó có thể đáp ứng. Khi nhu cầu ứng dụng trở nên phức tạp, các bộ chỉ mục sơ cấp và định dạng chỉ mục chuẩn hóa dần khó lòng đáp ứng nhu cầu truy vấn đa dạng, như tìm kiếm, truy cập chuỗi chéo hoặc ánh xạ dữ liệu ngoài chuỗi.
Trong kiến trúc của các kênh dữ liệu hiện đại, phương pháp "ưu tiên luồng" đã trở thành giải pháp để khắc phục những hạn chế của xử lý theo lô truyền thống, đạt được việc thu thập, xử lý và phân tích dữ liệu theo thời gian thực. Sự chuyển đổi này cho phép các tổ chức phản ứng ngay lập tức với dữ liệu đến, rút ra những hiểu biết và quyết định gần như ngay lập tức. Tương tự, các nhà cung cấp dịch vụ dữ liệu blockchain cũng đang phát triển theo hướng xây dựng dòng dữ liệu, các nhà cung cấp dịch vụ chỉ mục truyền thống đang lần lượt phát hành các sản phẩm dòng dữ liệu blockchain theo thời gian thực, chẳng hạn như Substreams của The Graph, Mirror của Goldsky, cũng như Chainbase và SubSquid với các hồ dữ liệu theo thời gian thực được tạo ra từ blockchain.
Các dịch vụ này nhằm giải quyết nhu cầu phân tích giao dịch Blockchain theo thời gian thực và cung cấp khả năng truy vấn toàn diện. Giống như kiến trúc "ưu tiên luồng" đã đổi mới cách xử lý dữ liệu truyền thống bằng cách giảm độ trễ và tăng cường khả năng phản hồi, các nhà cung cấp dịch vụ dữ liệu luồng Blockchain này cũng mong muốn hỗ trợ nhiều ứng dụng phát triển hơn và hỗ trợ phân tích dữ liệu trên chuỗi thông qua các nguồn dữ liệu tiên tiến và trưởng thành hơn.
Xem xét lại thách thức dữ liệu trên chuỗi từ góc độ của các kênh dữ liệu hiện đại, chúng ta có thể nhìn nhận lại tiềm năng của quản lý, lưu trữ và cung cấp dữ liệu từ một góc độ hoàn toàn mới. Khi chúng ta xem các bộ chỉ mục như Subgraph và ETL Ethereum như là dòng dữ liệu thay vì là đầu ra cuối cùng, chúng ta có thể tưởng tượng ra một thế giới có thể tùy chỉnh các bộ dữ liệu hiệu suất cao cho bất kỳ trường hợp sử dụng nào.
3 AI + Cơ sở dữ liệu? So sánh sâu sắc The Graph, Chainbase, Space and Time
3.1 The Graph
Mạng The Graph sử dụng mạng nút phi tập trung để thực hiện dịch vụ chỉ mục và truy vấn dữ liệu đa chuỗi, giúp các nhà phát triển chỉ mục dữ liệu blockchain và xây dựng ứng dụng. Mô hình sản phẩm chính của nó là thị trường thực hiện truy vấn dữ liệu và thị trường bộ nhớ đệm chỉ mục, đều phục vụ cho nhu cầu truy vấn của người dùng. Thị trường thực hiện truy vấn đề cập đến việc người tiêu dùng trả phí cho nút chỉ mục phù hợp để có được dữ liệu cần thiết, trong khi thị trường bộ nhớ đệm chỉ mục là nơi các nút chỉ mục phân phối tài nguyên dựa trên độ nóng lịch sử của phụ đồ thị, phí truy vấn và nhu cầu tổ chức.
Subgraph là cấu trúc dữ liệu cơ bản của mạng The Graph, định nghĩa cách lấy và chuyển đổi dữ liệu từ Blockchain thành định dạng có thể truy vấn. Bất kỳ ai cũng có thể tạo ra subgraph, nhiều ứng dụng có thể tái sử dụng, nâng cao khả năng tái sử dụng dữ liệu và hiệu quả sử dụng.
Mạng The Graph được cấu thành bởi bốn vai trò: người lập chỉ mục, người quản lý, người ủy thác và nhà phát triển, cùng hỗ trợ nhu cầu dữ liệu của ứng dụng web3. Trách nhiệm của từng vai trò như sau:
Hiện tại The Graph đã chuyển sang dịch vụ lưu trữ subgraph hoàn toàn phi tập trung, các bên tham gia có động lực kinh tế đảm bảo hệ thống hoạt động:
Sản phẩm The Graph phát triển nhanh chóng trong cơn sóng AI. Semiotic Labs, là một trong những đội phát triển cốt lõi, cam kết sử dụng công nghệ AI để tối ưu hóa định giá chỉ mục và trải nghiệm truy vấn của người dùng. Hiện tại, các công cụ AutoAgora, Allocation Optimizer và AgentC đang nâng cao hiệu suất của hệ sinh thái ở nhiều phương diện:
Việc áp dụng các công cụ này đã giúp The Graph kết hợp AI nâng cao hơn nữa tính thông minh của hệ thống và tính thân thiện với người dùng.
3.2 Chainbase
Chainbase là một mạng dữ liệu toàn chuỗi, tích hợp tất cả dữ liệu khối trên một nền tảng, giúp các nhà phát triển xây dựng và duy trì ứng dụng. Các tính năng độc đáo của nó bao gồm:
Các tính năng này giúp Chainbase nổi bật trong giao thức chỉ mục, đặc biệt chú trọng đến khả năng truy cập dữ liệu theo thời gian thực, định dạng dữ liệu đổi mới, cũng như việc kết hợp dữ liệu trên chuỗi và ngoài chuỗi để tạo ra các mô hình thông minh hơn nhằm nâng cao khả năng phân tích.
Mô hình AI Theia của Chainbase là điểm khác biệt của nó so với các giao thức dịch vụ dữ liệu khác. Theia dựa trên mô hình DORA do NVIDIA phát triển, kết hợp dữ liệu trên chuỗi và ngoài chuỗi cùng với các hoạt động không gian và thời gian, học hỏi phân tích các mẫu mã hóa, và thông qua suy diễn nguyên nhân để đưa ra phản ứng, khai thác sâu giá trị và quy luật tiềm ẩn của dữ liệu trên chuỗi, cung cấp dịch vụ dữ liệu thông minh hơn cho người dùng.
Dịch vụ dữ liệu được hỗ trợ bởi AI không chỉ biến Chainbase thành nền tảng dịch vụ dữ liệu Blockchain, mà còn trở thành nhà cung cấp dịch vụ dữ liệu thông minh có tính cạnh tranh. Thông qua nguồn dữ liệu mạnh mẽ và phân tích chủ động của AI, Chainbase có thể cung cấp cái nhìn dữ liệu rộng rãi hơn và tối ưu hóa quá trình xử lý dữ liệu của người dùng.
3.3 Không gian và Thời gian
Space and Time (SxT) cam kết xây dựng một lớp tính toán có thể xác minh, mở rộng chứng minh không kiến thức trên kho dữ liệu phi tập trung, cung cấp xử lý dữ liệu đáng tin cậy cho hợp đồng thông minh, mô hình ngôn ngữ lớn và doanh nghiệp. Hiện tại đã nhận được 20 triệu USD trong vòng đầu tư A, do Framework Ventures, Lightspeed Faction, Arrington Capital và Hivemind Capital dẫn đầu.
Trong lĩnh vực chỉ mục dữ liệu và xác minh, Space and Time đã giới thiệu một con đường công nghệ đổi mới - Proof of SQL. Đây là công nghệ chứng minh không biết (zero-knowledge proof) được phát triển bởi SxT, đảm bảo rằng các truy vấn SQL thực hiện trên kho dữ liệu phi tập trung không bị giả mạo và có thể xác minh. Khi thực hiện truy vấn, Proof of SQL sẽ tạo ra chứng minh mã hóa, xác minh tính toàn vẹn và độ chính xác của kết quả truy vấn. Chứng minh được đính kèm vào kết quả, bất kỳ người xác minh nào ( như hợp đồng thông minh ) đều có thể xác nhận độc lập rằng quá trình xử lý dữ liệu không bị giả mạo. Các mạng blockchain truyền thống thường dựa vào cơ chế đồng thuận để xác minh tính xác thực của dữ liệu, trong khi Proof of SQL thực hiện một phương thức xác minh dữ liệu hiệu quả hơn. Trong hệ thống SxT, một nút chịu trách nhiệm thu thập dữ liệu, các nút khác thông qua công nghệ zk xác minh tính xác thực của dữ liệu. Điều này đã thay đổi sự hao tổn tài nguyên khi nhiều nút chỉ mục dữ liệu lặp lại dưới cơ chế đồng thuận để đạt được sự đồng thuận, nâng cao hiệu suất tổng thể của hệ thống. Khi công nghệ phát triển, nó mang lại sự chú trọng đến độ tin cậy của dữ liệu.