Indexación de datos de cadena de bloques habilitada por IA: de The Graph a la evolución de Chainbase

2025-07-10 11:14:00

Evolución del índice de datos de la cadena de bloques: de nodo a servicio de datos de cadena completo potenciado por IA

1 Introducción

Desde que la primera generación de dApps apareció en 2017, hasta ahora que diversas aplicaciones de Cadena de bloques florecen, ¿hemos reflexionado sobre de dónde provienen los datos utilizados por estas dApps?

En 2024, la IA y Web3 se convierten en tendencias. En el campo de la IA, los datos son como la fuente de la vida. Así como las plantas necesitan luz solar y agua, los sistemas de IA también dependen de una gran cantidad de datos para seguir aprendiendo y evolucionando. Sin datos, incluso el algoritmo de IA más sofisticado tendrá dificultades para mostrar su inteligencia adecuada.

Este artículo analizará en profundidad la evolución del índice de datos en el proceso de desarrollo de la industria desde la perspectiva de la accesibilidad de los datos de la cadena de bloques, y comparará el antiguo protocolo de índice The Graph con los emergentes Chainbase y Space and Time, explorando las similitudes y diferencias de estos dos nuevos protocolos que combinan la tecnología de IA en términos de servicios de datos y arquitectura de productos.

2 La complejidad y simplicidad de la indexación de datos: de los nodos de la cadena de bloques a la base de datos de toda la cadena

2.1 Fuente de datos: Nodo de cadena de bloques

La cadena de bloques se considera un libro mayor descentralizado. Los nodos son la base de la red de cadena de bloques, responsables de registrar, almacenar y difundir todos los datos de transacciones en la cadena. Cada nodo tiene una copia completa de los datos de la cadena de bloques, manteniendo la característica de descentralización de la red. Sin embargo, para los usuarios comunes, construir y mantener un nodo no es tarea fácil. Esto no solo requiere habilidades especializadas, sino también altos costos de hardware y ancho de banda. La capacidad de consulta de los nodos comunes también es limitada, y no pueden obtener datos en el formato que los desarrolladores necesitan. Por lo tanto, aunque teóricamente cualquiera puede ejecutar un nodo, en la práctica los usuarios dependen en gran medida de servicios de terceros.

Para resolver este problema, surgieron los proveedores de nodos RPC. Son responsables del costo y la gestión de los nodos, proporcionando datos a través de puntos finales RPC. Los usuarios pueden acceder a los datos de la cadena de bloques sin necesidad de construir un nodo propio. Los puntos finales RPC públicos son gratuitos pero tienen limitaciones de tasa, lo que puede afectar la experiencia de las dApp. Los puntos finales RPC privados tienen un mejor rendimiento, pero la recuperación de datos simples también requiere una gran cantidad de comunicación, lo que es ineficiente y difícil de escalar. Sin embargo, la interfaz API estandarizada de los proveedores de nodos reduce la barrera de acceso a los datos y sienta las bases para la posterior interpretación y aplicación de datos.

2.2 Análisis de datos: de datos prototipo a datos utilizables

Los datos originales proporcionados por los nodos de la cadena de bloques suelen estar cifrados y codificados, garantizando la integridad y seguridad, pero también aumentan la dificultad de análisis. Para los usuarios comunes o desarrolladores, manejar estos datos directamente requiere una gran cantidad de conocimientos técnicos y recursos computacionales.

El proceso de análisis de datos se vuelve, por lo tanto, crucial. Al convertir datos prototipo complejos en un formato fácil de entender y manipular, los usuarios pueden aprovechar estos datos de manera más intuitiva. El éxito o fracaso del análisis afecta directamente la eficiencia de la aplicación de datos de la cadena de bloques, siendo un paso clave en todo el proceso de indexación.

2.3 La evolución del indexador de datos

A medida que aumenta la cantidad de datos de la cadena de bloques, la demanda de indexadores crece constantemente. Los indexadores organizan los datos en la cadena y los envían a una base de datos para su consulta. Indexan los datos de la cadena de bloques y los hacen disponibles en cualquier momento mediante un lenguaje de consulta tipo SQL ( como GraphQL API ). Los indexadores proporcionan una interfaz de consulta unificada, lo que permite a los desarrolladores recuperar información de manera rápida y precisa utilizando un lenguaje estandarizado, simplificando enormemente el proceso.

Diferentes tipos de indexadores optimizan la forma de recuperación de datos de manera diferente:

Indexador de nodo completo: ejecuta un nodo completo de la cadena de bloques para extraer datos directamente, asegurando que sean completos y precisos, pero requiere una gran capacidad de almacenamiento y procesamiento.
Indexador ligero: depende de nodos completos para obtener datos específicos bajo demanda, reduciendo la necesidad de almacenamiento pero puede aumentar el tiempo de consulta.
Indexador especializado: optimiza la recuperación para tipos de datos específicos o cadenas de bloques, como datos de NFT o transacciones de DeFi.
Agregador de índices: extrae datos de múltiples cadenas de bloques y fuentes, incluida información fuera de la cadena, proporcionando una interfaz de consulta unificada, adecuada para dApps de múltiples cadenas.

Actualmente, los nodos de archivo de Ethereum ocupan alrededor de 13.5TB de almacenamiento en el cliente Geth y aproximadamente 3TB en el cliente Erigon. A medida que la cadena de bloques crece, la demanda de almacenamiento sigue aumentando. Frente a grandes volúmenes de datos, los protocolos de índice principales admiten el índice de múltiples cadenas y personalizan los marcos de análisis de datos según diferentes necesidades de las aplicaciones, como el marco de "subgráficos" de The Graph.

El indexador mejora significativamente la eficiencia de indexación y consulta de datos. En comparación con los puntos finales RPC tradicionales, el indexador puede indexar grandes cantidades de datos de manera eficiente y soportar consultas rápidas. Los usuarios pueden ejecutar consultas complejas, filtrando y analizando datos fácilmente. Algunos indexadores también soportan la agregación de múltiples fuentes de datos de cadenas, evitando que las aplicaciones descentralizadas de múltiples cadenas desplieguen múltiples API. La ejecución distribuida ofrece una mayor seguridad y rendimiento, reduciendo el riesgo de interrupciones que pueden ocasionar los proveedores de RPC centralizados.

El indexador permite a los usuarios obtener directamente la información requerida sin tener que manejar datos subyacentes complejos, a través de un lenguaje de consulta predefinido. Esto mejora significativamente la eficiencia y la fiabilidad de la recuperación de datos, siendo una innovación importante en el acceso a los datos de la Cadena de bloques.

2.4 Base de datos de cadena completa: alineación prioritaria de flujo

Usar un nodo de índice para consultar datos generalmente significa que la API se convierte en la única forma de procesar datos en la cadena de bloques. Sin embargo, cuando los proyectos entran en la fase de expansión, a menudo se necesitan fuentes de datos más flexibles, ya que las API estandarizadas suelen ser insuficientes. A medida que las necesidades de las aplicaciones se vuelven más complejas, los indexadores primarios y sus formatos de índice estandarizados se enfrentan cada vez más a dificultades para satisfacer las diversas necesidades de consulta, como búsqueda, acceso entre cadenas o mapeo de datos fuera de la cadena.

En la arquitectura moderna de tuberías de datos, el enfoque "prioridad de flujo" se ha convertido en una solución para las limitaciones del procesamiento por lotes tradicionales, permitiendo la ingesta, procesamiento y análisis de datos en tiempo real. Este cambio de paradigma permite a las organizaciones responder de inmediato a los datos entrantes, obteniendo casi en tiempo real percepciones y tomando decisiones. De manera similar, los proveedores de servicios de datos de cadena de bloques también están avanzando hacia la construcción de flujos de datos, y los proveedores de servicios de indexación tradicionales han lanzado productos de flujo de datos de cadena de bloques en tiempo real, como Substreams de The Graph, Mirror de Goldsky, así como lagos de datos en tiempo real generados a partir de cadena de bloques como Chainbase y SubSquid.

Estos servicios están destinados a satisfacer la necesidad de analizar en tiempo real las transacciones de la cadena de bloques y proporcionar capacidades de consulta completas. Así como la arquitectura "prioridad de flujo" ha revolucionado el procesamiento de datos tradicional al reducir la latencia y mejorar la capacidad de respuesta, estos proveedores de servicios de flujo de datos de cadena de bloques también esperan apoyar más desarrollos de aplicaciones y ayudar en el análisis de datos en la cadena mediante fuentes de datos más avanzadas y maduras.

A través de la perspectiva de los modernos canales de datos, reconsideramos los desafíos de los datos en la cadena, lo que nos permite ver el potencial de la gestión, almacenamiento y provisión de datos desde un nuevo ángulo. Cuando consideramos índices como subgráficos y ETL de Ethereum como flujo de datos en lugar de resultados finales, podemos imaginar un mundo capaz de crear conjuntos de datos de alto rendimiento adaptados a cualquier caso de uso empresarial.

3 AI + Base de datos? Comparación profunda de The Graph, Chainbase, Space and Time

3.1 The Graph

La red The Graph logra la indexación y consulta de datos multi-cadena a través de una red de nodos descentralizados, facilitando a los desarrolladores la indexación de datos de la cadena de bloques y la construcción de aplicaciones. Su principal modelo de producto es el mercado de ejecución de consultas de datos y el mercado de caché de indexación de datos, ambos destinados a satisfacer las necesidades de consulta de los usuarios. El mercado de ejecución de consultas se refiere a que los consumidores pagan por seleccionar el nodo de indexación adecuado para los datos requeridos, mientras que el mercado de caché de indexación es donde los nodos de indexación ajustan recursos según la popularidad histórica de subgráficos, tarifas de consulta y demandas de curaduría.

El subgráfico es la estructura de datos básica de la red The Graph, que define cómo extraer y transformar datos de la cadena de bloques a un formato consultable. Cualquiera puede crear un subgráfico, y múltiples aplicaciones pueden reutilizarlo, mejorando la reutilización de datos y la eficiencia de uso.

La red The Graph está compuesta por cuatro roles: indexadores, curadores, delegadores y desarrolladores, que apoyan conjuntamente las necesidades de datos de las aplicaciones web3. Las responsabilidades de cada rol son las siguientes:

Indexador: operador de nodos de red, que participa en la red mediante la apuesta de GRT, proporcionando servicios de indexación y procesamiento de consultas.
Comisionado: Pone en garantía GRT a los nodos de índice para apoyar la operación, ganando una parte de las recompensas del nodo comisionado.
Curador: responsable de qué subgráficos de señal deben ser indexados prioritariamente por la red, asegurando que los subgráficos valiosos sean procesados.
Desarrollador: El principal usuario de The Graph, crea y envía subgráficas a la red, esperando que se satisfagan las necesidades de datos.

Actualmente, The Graph ha cambiado a un servicio de alojamiento de subgráficos completamente descentralizado, donde las partes participantes tienen incentivos económicos para asegurar el funcionamiento del sistema:

Los nodos de índice obtienen ingresos al consultar tarifas y parte de las recompensas de bloques GRT.
El comitente recibe parte de las recompensas de los nodos de índice soportados.
Si el curador considera que la señal tiene un valor, puede recibir una parte de la recompensa de las tarifas de consulta.

El producto The Graph se ha desarrollado rápidamente en la ola de IA. Semiotic Labs, como uno de los equipos de desarrollo clave, se dedica a utilizar la tecnología de IA para optimizar la indexación de precios y la experiencia de consulta del usuario. Las herramientas AutoAgora, Allocation Optimizer y AgentC actualmente desarrolladas han mejorado el rendimiento del ecosistema en múltiples aspectos:

AutoAgora introduce un mecanismo de precios dinámicos, ajustando los precios en tiempo real según la cantidad de consultas y el uso de recursos, optimizando la estrategia de precios para garantizar la competitividad del indexador y maximizar los ingresos.
Allocation Optimizer resuelve el problema de asignación de recursos de subgráficos, ayudando a los indexadores a lograr la mejor configuración, mejorando los ingresos y el rendimiento.
AgentC permite a los usuarios acceder a datos de la cadena de bloques a través del lenguaje natural, mejorando la experiencia del usuario.

La aplicación de estas herramientas ha permitido que The Graph, en combinación con la IA, mejore aún más la inteligencia del sistema y la facilidad de uso para los usuarios.

3.2 Chainbase

Chainbase es una red de datos de cadena completa que integra todos los datos de la cadena de bloques en una plataforma, facilitando a los desarrolladores la construcción y el mantenimiento de aplicaciones. Sus características únicas incluyen:

Lago de datos en tiempo real: proporciona un lago de datos en tiempo real dedicado al flujo de datos de cadena de bloques, lo que permite acceder a los datos en el momento de su generación.
Arquitectura de doble cadena: construida sobre Eigenlayer AVS para la capa de ejecución, formando una arquitectura de doble cadena paralela con el algoritmo de consenso CometBFT. Este diseño mejora la programabilidad y la composibilidad de los datos entre cadenas, soporta un alto rendimiento, baja latencia y finalización, y mejora la seguridad de la red a través del doble staking.
Estándar de formato de datos innovador: se introduce el nuevo estándar de formato de datos "manuscripts" para optimizar la estructuración y el uso de datos en la industria de la criptografía.
Modelo del mundo cripto: combinando tecnología de modelos de IA, utilizando grandes recursos de datos de la cadena de bloques, se crea un modelo de IA que puede comprender, predecir e interactuar eficazmente con las transacciones de la cadena de bloques. Actualmente se ha lanzado la versión básica del modelo Theia para uso público.

Estas funciones hacen que Chainbase se destaque en el protocolo de indexación, prestando especial atención a la accesibilidad de datos en tiempo real, formatos de datos innovadores, y la creación de modelos más inteligentes mediante la combinación de datos en cadena y fuera de cadena para mejorar la percepción.

El modelo de IA Theia de Chainbase es clave para diferenciarlo de otros protocolos de servicios de datos. Theia se basa en el modelo DORA desarrollado por NVIDIA, combinando datos en cadena y fuera de cadena con actividades temporales y espaciales, aprendiendo a analizar patrones criptográficos y respondiendo a través de la inferencia causal, profundizando en el valor y las leyes potenciales de los datos en cadena, y proporcionando a los usuarios servicios de datos más inteligentes.

Los servicios de datos potenciados por AI hacen que Chainbase no solo sea una plataforma de servicios de datos de cadena de bloques, sino que también se convierta en un proveedor de servicios de datos inteligentes competitivo. A través de potentes recursos de datos y análisis proactivo de AI, Chainbase puede ofrecer una visión de datos más amplia y optimizar el proceso de procesamiento de datos del usuario.

3.3 Espacio y Tiempo

Space and Time (SxT) se dedica a crear una capa de computación verificable, expandiendo pruebas de conocimiento cero en un almacén de datos descentralizado, proporcionando procesamiento de datos confiables para contratos inteligentes, modelos de lenguaje grandes y empresas. Actualmente ha recaudado 20 millones de dólares en la ronda A, liderada por Framework Ventures, Lightspeed Faction, Arrington Capital y Hivemind Capital.

En el ámbito de la indexación y verificación de datos, Space and Time introduce un camino tecnológico innovador: Proof of SQL. Esta es una tecnología de prueba de conocimiento cero desarrollada por SxT, que asegura que las consultas SQL ejecutadas en un almacén de datos descentralizado sean a prueba de manipulaciones y verificables. Al ejecutar una consulta, Proof of SQL genera una prueba criptográfica que verifica la integridad y precisión de los resultados de la consulta. La prueba se adjunta a los resultados, y cualquier validador (, como un contrato inteligente ), puede confirmar de manera independiente que el proceso de tratamiento de datos no ha sido alterado. Las redes tradicionales de cadena de bloques suelen depender de mecanismos de consenso para verificar la autenticidad de los datos, mientras que Proof of SQL implementa una forma de verificación de datos más eficiente. En el sistema SxT, un nodo es responsable de la obtención de datos, mientras que otros nodos verifican la autenticidad de los datos mediante tecnología zk. Esto cambia el desperdicio de recursos en la indexación de datos repetidos en múltiples nodos bajo un mecanismo de consenso para alcanzar el consenso, mejorando el rendimiento general del sistema. Con la madurez de la tecnología, proporciona fiabilidad en los datos.

GRT0.4%

Ver originales

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

21 me gusta