البيانات هي الأصول: DataFi تفتح بحرًا جديدًا

المؤلف: المساهم الأساسي في Biteye @anci_hu49074

"نحن في عصر المنافسة العالمية لبناء أفضل النماذج الأساسية. تعتبر قوة الحوسبة وهندسة النموذج مهمة، لكن الخندق الحقيقي هو بيانات التدريب"

—سانديب تشينشالي، رئيس قسم الذكاء الاصطناعي، ستوري

دعونا نتحدث عن إمكانيات تتبع بيانات الذكاء الاصطناعي من منظور Scale AI

أكبر شائعة في دائرة الذكاء الاصطناعي هذا الشهر هي قدرة ميتا المالية. قام زوكربيرغ بتجنيد المواهب في كل مكان وشكل فريق ميتا للذكاء الاصطناعي الفاخر المكون أساسًا من مواهب البحث العلمي الصينية. قائد الفريق هو ألكسندر وانغ ، الذي يبلغ من العمر 28 عامًا فقط وأسس Scale AI. أسس Scale AI وتبلغ قيمتها الحالية 29 مليار دولار أمريكي. تشمل خدماتها كلاً من الجيش الأمريكي ، بالإضافة إلى OpenAI و Anthropic و Meta وغيرها من عمالقة الذكاء الاصطناعي المنافسين ، الذين يعتمدون جميعًا على خدمات البيانات المقدمة من Scale AI. العمل الأساسي لشركة Scale AI هو تقديم كميات كبيرة من البيانات الدقيقة المعلَّمة.

لماذا يمكن أن تبرز Scale AI من مجموعة اليونيكورن؟

السبب هو أنه اكتشف أهمية البيانات في صناعة الذكاء الاصطناعي في وقت مبكر.

تعتبر قوة الحوسبة والنماذج والبيانات الأركان الثلاثة لنماذج الذكاء الاصطناعي. إذا تمت مقارنة النموذج الكبير بشخص ما، فإن النموذج هو الجسم، وقوة الحوسبة هي الطعام، والبيانات هي المعرفة/المعلومات.

في السنوات التي تلت ظهور LLM، تحول تركيز تطوير الصناعة أيضًا من النماذج إلى قوة الحوسبة. اليوم، قد أسست معظم النماذج المحولات كإطار عمل للنموذج، مع ابتكارات عرضية مثل MoE أو MoRe. لقد قامت الشركات الكبرى إما ببناء مجموعاتها الفائقة الخاصة لإكمال جدار القوة الحاسوبية العظيم، أو توقيع اتفاقيات طويلة الأمد مع خدمات السحابة القوية مثل AWS. بمجرد تلبية احتياجات القوة الحاسوبية الأساسية، أصبح أهمية البيانات بارزة تدريجياً.

البيانات هي أصل: DataFi تفتح محيطًا أزرق جديدًا

على عكس شركات البيانات الكبيرة التقليدية التي تتمتع بسمعة بارزة في السوق الثانوية مثل Palantir، تلتزم Scale AI، كما يوحي اسمها، ببناء أساس بيانات قوي لنماذج الذكاء الاصطناعي. لا تقتصر أعمالها على استخراج البيانات الموجودة فقط، بل تركز أيضًا على أعمال توليد البيانات على المدى الطويل. كما تحاول تشكيل فريق مدربي ذكاء اصطناعي من خلال خبراء صناعيين في مجالات مختلفة لتوفير بيانات تدريب ذات جودة أفضل لتدريب نماذج الذكاء الاصطناعي.

إذا كنت لا توافق على هذا العمل، دعنا نلقي نظرة على كيفية تدريب النموذج.

يتم تقسيم تدريب النموذج إلى جزئين - التدريب المسبق والتعديل الدقيق.

الجزء المتعلق بالتدريب المسبق يشبه قليلاً عملية تعلم الأطفال البشر التحدث بشكل تدريجي. ما نحتاجه عادة هو تغذية نموذج الذكاء الاصطناعي بكمية كبيرة من النصوص، والشفرات، ومعلومات أخرى تم الحصول عليها من زاحفي الإنترنت. يتعلم النموذج هذه المحتويات بنفسه، ويتعلم التحدث بلغة البشر ( المسماة أكاديميًا اللغة الطبيعية )، ويمتلك مهارات اتصال أساسية.

جزء الضبط الدقيق مشابه للذهاب إلى المدرسة، حيث توجد عادةً إجابات واتجاهات صحيحة وخاطئة واضحة. ستقوم المدارس بتدريب الطلاب ليصبحوا مواهب مختلفة بناءً على مواقعهم الخاصة. سنستخدم أيضًا بعض مجموعات البيانات المعالجة مسبقًا والمستهدفة لتدريب النموذج ليكون لديه القدرات التي نتوقعها.

البيانات هي أصل: DataFi تفتح محيطًا أزرق جديدًا

في هذه المرحلة، قد تكون قد اكتشفت أن البيانات التي نحتاجها مقسمة أيضًا إلى جزئين.

  • بعض البيانات لا تحتاج إلى معالجة كثيرة، يكفي أن تكون كافية، وعادة ما تأتي من بيانات الزاحف من منصات UGC الكبيرة مثل Reddit و Twitter و Github وقواعد البيانات الأدبية العامة وقواعد البيانات الخاصة بالشركات، إلخ.
  • الجزء الآخر، مثل الكتب الدراسية المهنية، يتطلب تصميمًا دقيقًا وفحصًا لضمان أن الصفات الممتازة المحددة للنموذج يمكن أن تُزرع. يتطلب ذلك منا القيام ببعض الأعمال الضرورية مثل تنظيف البيانات، والفحص، والتسمية، والتعليقات اليدوية.

تشكل مجموعتا البيانات هاتان الجزء الرئيسي من مسار بيانات الذكاء الاصطناعي. لا تستهين بهذه المجموعات من البيانات التي تبدو منخفضة التقنية. الرأي السائد حالياً هو أنه مع تراجع ميزة قوة الحوسبة في قوانين التوسع تدريجياً، ستصبح البيانات الركيزة الأكثر أهمية لمصنعي النماذج الكبيرة المختلفين للحفاظ على ميزتهم التنافسية.

مع استمرار تحسين قدرات النموذج ، ستصبح بيانات التدريب الأكثر تطورا واحترافية متغيرات مؤثرة رئيسية في قدرات النموذج. إذا قارنا التدريب النموذجي بزراعة أساتذة فنون الدفاع عن النفس ، فإن مجموعات البيانات عالية الجودة هي أفضل أسرار فنون الدفاع عن النفس (to إكمال هذه الاستعارة ، فنحن يمكن أن نقول أيضا أن قوة الحوسبة هي الدواء الشافي والنموذج هو itself) التأهيل.

من منظور رأسي، تعتبر بيانات الذكاء الاصطناعي أيضًا مسارًا طويل الأجل مع القدرة على التراكم. مع تراكم العمل السابق، ستصبح الأصول البيانية أيضًا قادرة على التراكم، وستصبح أكثر شعبية كلما تقدمت في العمر.

Web3 DataFi: الأرض الخصبة المختارة لبيانات الذكاء الاصطناعي

مقارنةً بفريق التوصيف اليدوي عن بُعد الخاص بـ Scale AI المكون من مئات الآلاف من الأشخاص في الفلبين وفنزويلا وأماكن أخرى، تتمتع Web3 بميزة طبيعية في مجال بيانات الذكاء الاصطناعي، وُلد المصطلح الجديد DataFi.

من الناحية المثالية، فإن مزايا Web3 DataFi هي كما يلي:

  1. سيادة البيانات، والأمان، والخصوصية مضمونة من خلال العقود الذكية

في مرحلة عندما تكون البيانات العامة الحالية على وشك أن تُطور وتستنفد، فإن كيفية التنقيب عن البيانات غير المعلنة، حتى البيانات الخاصة، هي اتجاه مهم للحصول على وتوسيع مصادر البيانات. وهذا يواجه قضية مهمة تتعلق بالثقة - هل تختار نظام شراء العقود لشركة كبيرة مركزية وتبيع بياناتك؛ أم تختار الطريقة القائمة على البلوك تشين، وتستمر في الاحتفاظ بحقوق ملكية البيانات في يديك، وتفهم بوضوح من خلال العقود الذكية: من يستخدم بياناتك، ومتى، ولأي غرض.

في نفس الوقت، يمكنك استخدام zk و TEE وطرق أخرى لضمان أن بياناتك الخاصة يتم التعامل معها فقط بواسطة الآلات التي تحافظ على سرها ولن يتم تسريبها.

  1. ميزة التحكيم الجغرافي الطبيعي: بنية موزعة مجانية لجذب أنسب قوة عاملة

ربما حان الوقت لتحدي العلاقة التقليدية في الإنتاج العملي. بدلاً من البحث عن العمالة الرخيصة في جميع أنحاء العالم مثل Scale AI، من الأفضل الاستفادة من الخصائص الموزعة للبلوك تشين وتمكين القوة العاملة المنتشرة حول العالم من المشاركة في مساهمات البيانات من خلال حوافز مفتوحة وشفافة تضمنها العقود الذكية.

بالنسبة للمهام التي تتطلب كثافة العمالة مثل تصنيف البيانات وتقييم النماذج، فإن استخدام Web3 DataFi يكون أكثر ملاءمة لتنوع المشاركين مقارنة بالنهج المركزي لإنشاء مصانع البيانات، مما له أيضًا أهمية طويلة الأجل في تجنب تحيز البيانات.

  1. المزايا الواضحة للتحفيز والتسوية في البلوكتشين

كيف نتجنب مأساة "مصنع جلد جيانغنان"؟ بالطبع، يجب علينا استخدام نظام الحوافز مع تسعيرات واضحة في العقود الذكية لاستبدال ظلام الطبيعة البشرية.

في سياق العولمة الحتمية، كيف يمكننا الاستمرار في تحقيق التحكيم الجغرافي منخفض التكلفة؟ من الواضح أنه أصبح من الأصعب فتح شركات في جميع أنحاء العالم، فلماذا لا نتجاوز حواجز العالم القديم ونتبنى طريقة التسوية على السلسلة؟

  1. إنه يساعد في بناء سوق بيانات "شامل" أكثر كفاءة وانفتاحًا

"تحقيق الربح من فرق الأسعار بواسطة الوسطاء" هو ألم دائم لكلا الجانبين العرض والطلب. بدلاً من السماح لشركة بيانات مركزية بالعمل كوسيط، من الأفضل إنشاء منصة على السلسلة، من خلال سوق مفتوح مثل تاوباو، بحيث يمكن أن يتصل جانبي العرض والطلب للبيانات بشكل أكثر شفافية وكفاءة.

مع تطور نظام الذكاء الاصطناعي على السلسلة، ستصبح الحاجة إلى البيانات على السلسلة أكثر حيوية وتجزئة وتنوعًا. فقط السوق اللامركزي يمكنه استيعاب هذه الحاجة بكفاءة وتحويلها إلى ازدهار بيئي.

بالنسبة للمستثمرين الأفراد، فإن DataFi هو أيضًا أكثر مشاريع الذكاء الاصطناعي لامركزية والتي تسهم بشكل أكبر في مشاركة المستثمرين الأفراد العاديين.

على الرغم من أن ظهور أدوات الذكاء الاصطناعي قد خفض إلى حد ما عتبة التعلم، فإن النية الأصلية للذكاء الاصطناعي اللامركزي هي كسر الاحتكار الحالي لأعمال الذكاء الاصطناعي من قبل العمالقة؛ ومع ذلك، يجب الاعتراف بأن العديد من المشاريع الحالية ليست سهلة الوصول لمستثمري التجزئة الذين ليس لديهم خلفية تقنية - غالبًا ما تكون المشاركة في تعدين الشبكات الحاسوبية اللامركزية مصحوبة باستثمار أولي باهظ في الأجهزة، ويمكن أن تثني عتبة التقنية في سوق النماذج بسهولة المشاركين العاديين.

بالمقابل، إنها واحدة من الفرص القليلة التي يمكن للمستخدمين العاديين انتهازها في ثورة الذكاء الاصطناعي. يتيح لك Web3 المشاركة فيها من خلال إكمال مجموعة متنوعة من المهام البسيطة، بما في ذلك تقديم البيانات، ووضع علامات وتقييم النماذج بناءً على حدس وغريزة الدماغ البشري، أو استخدام أدوات الذكاء الاصطناعي لأداء بعض الإبداعات البسيطة، والمشاركة في معاملات البيانات، إلخ. بالنسبة للسائقين القدامى في حزب ماو، فإن قيمة الصعوبة هي أساسًا صفر.

مشاريع Web3 DataFi المحتملة

حيث تتدفق الأموال، هناك الاتجاه. بالإضافة إلى تلقي Scale AI استثمارًا قدره 14.3 مليار دولار من Meta وارتفاع سعر سهم Palantir بأكثر من 5 مرات في عام واحد في عالم Web2، حققت DataFi أيضًا أداءً جيدًا جدًا في التمويل في Web3. هنا نقدم مقدمة موجزة عن هذه المشاريع.

البيانات هي أصل: DataFi تفتح محيطًا أزرق جديدًا

سahara AI، @SaharaLabsAI، جمعت 49 مليون دولار

الهدف النهائي من Sahara AI هو بناء بنية تحتية فائقة للذكاء الاصطناعي غير مركزية وسوق للتجارة. سيكون القطاع الأول الذي سيتم اختباره هو بيانات الذكاء الاصطناعي. سيتم إطلاق النسخة التجريبية العامة من منصة خدمات البيانات DSP ( في 22 يوليو. يمكن للمستخدمين الحصول على مكافآت رمزية من خلال المساهمة في البيانات، والمشاركة في تصنيف البيانات ومهام أخرى.

الرابط: app.saharaai.com

)# نعم، @yupp_ai، جمع 33 مليون دولار

Yupp هو منصة تغذية راجعة لنموذج الذكاء الاصطناعي تجمع تعليقات المستخدمين على مخرجات النموذج. المهمة الرئيسية الحالية هي أن يتمكن المستخدمون من مقارنة مخرجات نماذج مختلفة لنفس الطلب، ثم اختيار النموذج الذي يعتقدون أنه أفضل. يمكن أن ي earned نقاط Yupp عند إكمال المهمة، والتي يمكن استبدالها لاحقًا بعملات مستقرة مرتبطة بالفيات مثل USDC.

رابط:

فانا، @فانا، جمعت 23 مليون دولار

تركز Vana على تحويل البيانات الشخصية للمستخدمين ### مثل أنشطة وسائل التواصل الاجتماعي، وسجل التصفح، وما إلى ذلك. ( إلى أصول رقمية قابلة للت monetization. يمكن للمستخدمين تفويض تحميل بياناتهم الشخصية إلى مجموعة السيولة البيانات المقابلة )DLP( في DataDAOs. سيتم تجميع هذه البيانات واستخدامها للمشاركة في مهام مثل تدريب نماذج الذكاء الاصطناعي، وسيحصل المستخدمون أيضًا على مكافآت رمزية مقابلة.

رابط:

)# Chainbase، @ChainbaseHQ، تجمع 16.5 مليون دولار

تركز أعمال Chainbase على البيانات على السلسلة، وتغطي حاليًا أكثر من 200 سلسلة بلوكشين، وتحول الأنشطة على السلسلة إلى أصول بيانات منظمة وقابلة للتحقق وقابلة للت Monetization لتطوير التطبيقات اللامركزية. يتم الحصول على أعمال Chainbase بشكل أساسي من خلال الفهرسة متعددة السلاسل وطرق أخرى، وتتم معالجة البيانات من خلال نظام Manuscript ونموذج Theia AI. لا يشارك المستخدمون العاديون حاليًا بشكل كبير.

سابيين، @JoinSapien، جمع 15.5 مليون دولار

تهدف سابين إلى تحويل المعرفة البشرية إلى بيانات تدريب عالية الجودة للذكاء الاصطناعي على نطاق واسع. يمكن لأي شخص إجراء تعليم البيانات على المنصة وضمان جودة البيانات من خلال التحقق من الأقران. في نفس الوقت، يتم تشجيع المستخدمين على بناء سمعة طويلة الأمد أو تقديم التزامات من خلال الرهن لكسب المزيد من المكافآت.

رابط:

Prisma X، @PrismaXai ، تجمع 11 مليون دولار

تريد Prisma X أن تكون طبقة تنسيق مفتوحة للروبوتات، حيث تعتبر جمع البيانات الفيزيائية أساسيًا. هذا المشروع في مراحله الأولى حاليًا. وفقًا للورقة البيضاء التي تم إصدارها مؤخرًا، قد تشمل المشاركة الاستثمار في الروبوتات لجمع البيانات، وتشغيل بيانات الروبوت عن بُعد، وما إلى ذلك. حاليًا، هناك اختبار مستند إلى الورقة البيضاء مفتوح، ويمكنك المشاركة لكسب النقاط.

رابط:

Masa, @getmasafi, جمع 8.9 مليون دولار

ماسا هي واحدة من المشاريع الرائدة في شبكة بتيتنسر، وتعمل حاليًا على الشبكة الفرعية للبيانات رقم 42 والشبكة الفرعية للوكيل رقم 59. تلتزم شبكة البيانات بتوفير الوصول الفوري إلى البيانات. حاليًا، يقوم المنقبون بشكل أساسي بجمع البيانات الفورية من X/Twitter من خلال أجهزة TEE. بالنسبة للمستخدمين العاديين، فإن صعوبة وتكلفة المشاركة مرتفعة نسبيًا.

إيريس، @irys_xyz، جمعت 8.7 مليون دولار

تركز Irys على تخزين البيانات القابل للبرمجة والحوسبة، وتهدف إلى توفير حلول فعالة ومنخفضة التكلفة للذكاء الاصطناعي، والتطبيقات اللامركزية ###dApps( وغيرها من التطبيقات التي تتطلب كميات كبيرة من البيانات. من حيث مساهمة البيانات، لا يمكن للمستخدمين العاديين المشاركة بشكل كبير في الوقت الحالي، ولكن هناك أنشطة متعددة للمشاركة في مرحلة الاختبار الحالية.

رابط:

)# ORO, @getoro_xyz, جمعت 6 مليون دولار

ما ترغب ORO في القيام به هو تمكين الأشخاص العاديين من المشاركة في مساهمة الذكاء الاصطناعي. تشمل طرق الدعم: 1. ربط حسابك الشخصي للمساهمة في البيانات الشخصية، بما في ذلك الحسابات الاجتماعية، بيانات الصحة، وحسابات التجارة الإلكترونية والمالية؛ 2. إكمال مهام البيانات. الشبكة التجريبية الآن على الإنترنت ويمكنك المشاركة.

الرابط: app.getoro.xyz

غاتا، @Gata_xyz، جمعت 4 ملايين دولار

تتموضع غاتا كطبقة بيانات لامركزية، ولديها حاليًا ثلاثة منتجات رئيسية للمشاركة فيها: 1. وكيل البيانات: سلسلة من الوكلاء الذكاء الاصطناعي الذين يمكنهم تشغيل ومعالجة البيانات تلقائيًا طالما أن المستخدم فتح صفحة الويب؛ 2. دردشة AII-in-one: آلية مشابهة لتقييم نموذج يوب لكسب المكافآت؛ 3. GPT-to-Earn: ملحق متصفح يجمع بيانات محادثات المستخدمين على ChatGPT.

رابط:

كيف ترى هذه المشاريع الحالية؟

في الوقت الحاضر، فإن الحواجز أمام الدخول لهذه المشاريع عمومًا ليست عالية، ولكن يجب الاعتراف بأنه بمجرد تراكم المستخدمين والالتصاق البيئي، ستتراكم مزايا المنصة بسرعة. لذلك، في المراحل المبكرة، يجب أن تركز الجهود على الحوافز وتجربة المستخدم. فقط من خلال جذب عدد كافٍ من المستخدمين يمكن جعل أعمال البيانات الضخمة ممكنة.

ومع ذلك، باعتبارها مشاريع كثيفة العمالة، ينبغي على هذه المنصات البيانية أيضًا أن تأخذ في الاعتبار كيفية إدارة العمال وضمان جودة مخرجات البيانات أثناء جذب العمال. بعد كل شيء، فإن مشكلة شائعة للعديد من مشاريع Web3 هي أن معظم المستخدمين على المنصة مجرد مستفيدين بلا رحمة. وغالبًا ما يضحون بالجودة من أجل المنافع قصيرة الأجل. إذا تم السماح لهم بأن يصبحوا المستخدمين الرئيسيين للمنصة، فإن المال السيئ سيؤدي حتمًا إلى طرد المال الجيد، وفي النهاية لا يمكن ضمان جودة البيانات ولا يمكن جذب المشترين. حاليًا، رأينا أن مشاريع مثل Sahara وSapien قد أكدت على جودة البيانات وسعت إلى إقامة علاقة تعاونية طويلة الأمد وصحية مع العمال على المنصة.

بالإضافة إلى ذلك، فإن عدم الشفافية هو مشكلة أخرى للمشاريع الحالية على السلسلة. في الواقع، إن مثلث blockchain المستحيل قد أجبر العديد من المشاريع على اتخاذ مسار "اللامركزية تدفع المركزية" في مرحلة بدء التشغيل. ولكن الآن، فإن المزيد والمزيد من المشاريع على السلسلة تعطي الناس انطباعًا بكونها "مشاريع ويب 2 القديمة في غلاف ويب 3" - هناك القليل جدًا من البيانات العامة التي يمكن تتبعها على السلسلة، وحتى خارطة الطريق من الصعب رؤية العزم الطويل الأمد على الانفتاح والشفافية. وهذا بلا شك سام للتطور الصحي الطويل الأمد لويب 3 DataFi، ونأمل أيضًا أن تحتفظ المزيد من المشاريع دائمًا بنواياها الأصلية وتسرع من وتيرة الانفتاح والشفافية.

أخيرًا، يجب أن ينقسم مسار اعتماد DataFi الجماعي أيضًا إلى جزئين: الأول هو جذب عدد كافٍ من المشاركين في toC للانضمام إلى الشبكة، مما يشكل قوة جديدة لهندسة جمع/توليد البيانات ومستهلكي اقتصاد الذكاء الاصطناعي، مما يشكل حلقة مغلقة بيئية؛ والثاني هو الحصول على اعتراف من الشركات الحالية الرائجة في toB. بعد كل شيء، على المدى القصير، هم المصدر الرئيسي لطلبات البيانات الكبيرة بفضل أموالهم العميقة. في هذا الصدد، شهدنا أيضًا أن Sahara AI و Vana، إلخ، قد أحرزوا تقدمًا جيدًا.

الاستنتاج

لتكون أكثر تشاؤماً، فإن DataFi تتعلق باستخدام الذكاء البشري لتغذية الذكاء الآلي على المدى الطويل، بينما يتم استخدام العقود الذكية كعقد لضمان أن تكون عمالة الذكاء البشري مربحة وفي النهاية تستمتع بالتغذية الراجعة من الذكاء الآلي.

إذا كنت قلقًا بشأن عدم اليقين في عصر الذكاء الاصطناعي، وإذا كنت لا تزال تتمتع بمثالية blockchain وسط تقلبات عالم العملات المشفرة، فإن اتباع خطوات مجموعة من عمالقة رأس المال والانضمام إلى DataFi هو خيار جيد لمواكبة الاتجاه.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • تثبيت