البيانات الضخمة - ما هي أنظمة البيانات الضخمة؟ تطوير تقنيات البيانات الضخمة. ما هي البيانات الضخمة: الخصائص ، التصنيف ، أمثلة صناعة البيانات الضخمة

يعد التسارع المستمر في نمو البيانات جزءًا لا يتجزأ من حقائق اليوم. الشبكات الاجتماعية والأجهزة المحمولة والبيانات من أجهزة القياس ومعلومات الأعمال ليست سوى عدد قليل من أنواع المصادر التي يمكن أن تولد كميات هائلة من البيانات.

في الوقت الحالي ، أصبح مصطلح البيانات الضخمة (البيانات الضخمة) شائعًا جدًا. لا يزال الجميع على دراية بمدى سرعة وعمق تقنيات معالجة كميات كبيرة من البيانات في تغيير الجوانب الأكثر تنوعًا في المجتمع. التغييرات التي تحدث في مختلف المجالات ، مما يؤدي إلى ظهور مشاكل وتحديات جديدة ، بما في ذلك في مجال أمن المعلومات، حيث يجب أن تكون الجوانب المهمة مثل السرية والنزاهة والتوافر وما إلى ذلك في المقدمة.

لسوء الحظ ، تلجأ العديد من الشركات الحديثة إلى تقنية البيانات الضخمة دون إنشاء البنية التحتية المناسبة لذلك ، والتي يمكن أن توفرها تخزين آمنكميات هائلة من البيانات التي يقومون بجمعها وتخزينها. من ناحية أخرى ، تتطور تقنية blockchain حاليًا بسرعة ، وهي مصممة لحل هذه المشكلة والعديد من المشكلات الأخرى.

ما هي البيانات الضخمة؟

في الواقع ، يكمن تعريف المصطلح على السطح: "البيانات الضخمة" تعني إدارة كميات كبيرة جدًا من البيانات ، بالإضافة إلى تحليلها. إذا نظرت على نطاق أوسع ، فهذه معلومات لا يمكن معالجتها بالطرق الكلاسيكية نظرًا لأحجامها الكبيرة.

ظهر مصطلح البيانات الضخمة نفسه (البيانات الضخمة) مؤخرًا نسبيًا. وفقًا لخدمة Google Trends ، فإن النمو النشط في شعبية المصطلح يقع في نهاية عام 2011:

في عام 2010 ، بدأت تظهر أولى المنتجات والحلول المرتبطة مباشرة بمعالجة البيانات الضخمة. بحلول عام 2011 ، فإن معظم أكبر شركات تكنولوجيا المعلومات ، بما في ذلك IBM و Oracle و Microsoft و Hewlett-Packard ، تستخدم بنشاط مصطلح البيانات الكبيرة في استراتيجيات أعمالها. تدريجيا ، يبدأ محللو سوق تكنولوجيا المعلومات البحث النشط حول هذا المفهوم.

حاليًا ، اكتسب هذا المصطلح شعبية كبيرة ويستخدم بنشاط في مجموعة متنوعة من المجالات. ومع ذلك ، لا يمكن القول على وجه اليقين أن البيانات الضخمة هي نوع من الظاهرة الجديدة بشكل أساسي - على العكس من ذلك ، كانت مصادر البيانات الضخمة موجودة منذ سنوات عديدة. في التسويق ، يمكن أن تكون قواعد بيانات لمشتريات العملاء ، وتاريخ الائتمان ، وأنماط الحياة ، وأكثر من ذلك. على مر السنين ، استخدم المحللون هذه البيانات لمساعدة الشركات على التنبؤ باحتياجات العملاء المستقبلية ، وتقييم المخاطر ، وتشكيل تفضيلات المستهلك ، وأكثر من ذلك.

حاليًا ، تغير الوضع من جانبين:

- ظهرت أدوات وطرق أكثر تطوراً لتحليل ومقارنة مجموعات البيانات المختلفة ؛
- تم استكمال أدوات التحليل بالعديد من مصادر البيانات الجديدة ، مدفوعة بالرقمنة على نطاق واسع ، فضلاً عن الأساليب الجديدة لجمع البيانات وقياسها.

يتوقع الباحثون أن تكون تقنيات البيانات الضخمة أكثر استخدامًا في التصنيع والرعاية الصحية والتجارة والإدارة العامة وفي مجالات وصناعات أخرى شديدة التنوع.

البيانات الضخمة ليست مجموعة محددة من البيانات ، ولكنها مجموعة من الأساليب لمعالجتها. السمة المميزة للبيانات الضخمة ليست فقط حجمها ، ولكن أيضًا الفئات الأخرى التي تميز العمليات كثيفة العمالة لمعالجة البيانات وتحليلها.

يمكن أن تكون البيانات الأولية للمعالجة ، على سبيل المثال:

- سجلات سلوك مستخدم الإنترنت ؛
- انترنت الأشياء؛
- وسائل التواصل الاجتماعي.
- بيانات الأرصاد الجوية؛
- كتب رقمية لأكبر المكتبات ؛
- إشارات GPS من المركبات.
- معلومات حول معاملات عملاء البنوك.
- بيانات موقع المشترك شبكات المحمول;
- معلومات حول عمليات الشراء في سلاسل البيع بالتجزئة الكبيرة ، وما إلى ذلك.

بمرور الوقت ، تتزايد كمية البيانات وعدد مصادرها باستمرار ، وفي مقابل هذه الخلفية ، تظهر طرق جديدة لمعالجة المعلومات ويتم تحسين الأساليب الحالية لمعالجة المعلومات.

المبادئ الأساسية للبيانات الضخمة:

- قابلية التوسع الأفقي - يمكن أن تكون مصفوفات البيانات ضخمة وهذا يعني أن نظام معالجة البيانات الضخمة يجب أن يتوسع ديناميكيًا مع زيادة أحجامها.
- تحمل الأعطال - حتى في حالة تعطل بعض أجزاء المعدات ، يجب أن يظل النظام بأكمله جاهزًا للعمل.
- موقع البيانات. في الأنظمة الموزعة الكبيرة ، يتم عادةً توزيع البيانات على عدد كبير من الأجهزة. ومع ذلك ، كلما كان ذلك ممكنًا ومن أجل توفير الموارد ، تتم معالجة البيانات غالبًا على نفس الخادم حيث يتم تخزينها.

من أجل التشغيل المستقر لجميع المبادئ الثلاثة ، وبالتالي الكفاءة العالية لتخزين ومعالجة البيانات الضخمة ، هناك حاجة إلى تقنيات اختراق جديدة ، مثل ، على سبيل المثال ، blockchain.

ما هي البيانات الضخمة؟

يتوسع نطاق البيانات الضخمة باستمرار:

- يمكن استخدام البيانات الضخمة في الطب. لذلك ، من الممكن إنشاء تشخيص للمريض ليس فقط بناءً على بيانات تحليل التاريخ الطبي ، ولكن أيضًا مع مراعاة خبرة الأطباء الآخرين ، ومعلومات حول الوضع البيئي لمنطقة إقامة المريض ، والعديد من العوامل الأخرى.
- يمكن استخدام تقنيات البيانات الضخمة لتنظيم حركة المركبات غير المأهولة.
- من خلال معالجة كميات كبيرة من البيانات ، يمكن التعرف على الوجوه في مواد التصوير الفوتوغرافي والفيديو.
- يمكن لتجار التجزئة استخدام تقنيات البيانات الضخمة - يمكن للشركات التجارية استخدام مصفوفات البيانات بنشاط من الشبكات الاجتماعيةلتخصيص حملاتهم الإعلانية بشكل فعال ، والتي يمكن استهدافها إلى أقصى حد لشريحة معينة من المستهلكين.
هذه التكنولوجيايستخدم بنشاط في تنظيم الحملات الانتخابية ، بما في ذلك لتحليل التفضيلات السياسية في المجتمع.
- يعد استخدام تقنيات البيانات الضخمة مناسبًا لحلول فئة ضمان الدخل (RA) ، والتي تتضمن أدوات للكشف عن التناقضات وتحليل البيانات المتعمق الذي يسمح بتحديد الخسائر المحتملة أو تشوهات المعلومات في الوقت المناسب والتي يمكن أن تؤدي إلى انخفاض في النتائج المالية .
- يمكن لمقدمي خدمات الاتصالات تجميع البيانات الضخمة ، بما في ذلك بيانات تحديد الموقع الجغرافي ؛ بدورها ، قد تكون هذه المعلومات ذات أهمية تجارية لوكالات الإعلان ، والتي قد تستخدمها لعرض الإعلانات المستهدفة والمحلية ، وكذلك لتجار التجزئة والبنوك.
"يمكن أن تلعب البيانات الضخمة دورًا مهمًا في تحديد ما إذا كان سيتم فتح منفذ بيع بالتجزئة في موقع معين بناءً على البيانات المتعلقة بوجود تدفق قوي مستهدف من الأشخاص.

وبالتالي ، فإن التطبيق العملي الأكثر وضوحًا لتقنية البيانات الضخمة يكمن في مجال التسويق. بفضل تطور الإنترنت وانتشار جميع أنواع أجهزة الاتصال ، أصبحت البيانات السلوكية (مثل عدد المكالمات وعادات التسوق والمشتريات) متاحة في الوقت الفعلي.

يمكن أيضًا استخدام تقنيات البيانات الضخمة بشكل فعال في التمويل والبحث الاجتماعي والعديد من المجالات الأخرى. يجادل الخبراء بأن كل هذه الاحتمالات لاستخدام البيانات الضخمة ليست سوى الجزء المرئي من جبل الجليد ، حيث يتم استخدام هذه التقنيات بأحجام أكبر بكثير في الاستخبارات والاستخبارات المضادة ، في الشؤون العسكرية ، وكذلك في كل ما يسمى عادة حروب المعلومات.

بشكل عام ، يتألف تسلسل العمل مع البيانات الضخمة من جمع البيانات ، وتنظيم المعلومات الواردة باستخدام التقارير ولوحات المعلومات ، ثم صياغة توصيات للعمل.

دعونا نفكر بإيجاز في إمكانيات استخدام تقنيات البيانات الضخمة في التسويق. كما تعلم ، بالنسبة للمسوق ، فإن المعلومات هي الأداة الرئيسية للتنبؤ ووضع الإستراتيجيات. لطالما تم استخدام تحليل البيانات الضخمة بنجاح لتحديد الجمهور المستهدف واهتمامات المستهلكين وطلبهم ونشاطهم. يتيح تحليل البيانات الضخمة ، على وجه الخصوص ، إمكانية عرض الإعلانات (استنادًا إلى نموذج مزاد RTB - عروض الأسعار في الوقت الفعلي) فقط للمستهلكين المهتمين بمنتج أو خدمة.

يسمح استخدام البيانات الضخمة في التسويق لرجال الأعمال بما يلي:

- التعرف على عملائك بشكل أفضل ، وجذب جمهور مماثل على الإنترنت ؛
- تقييم درجة رضا العملاء.
- لفهم ما إذا كانت الخدمة المقترحة تلبي التوقعات والاحتياجات ؛
- إيجاد وتنفيذ طرق جديدة لزيادة ثقة العملاء ؛
- إنشاء مشاريع مطلوبة ، إلخ.

على سبيل المثال ، يمكن لخدمة Google.trends إخبار المسوق بتنبؤات نشاط الطلب الموسمي لمنتج معين ، والتقلبات ، والموقع الجغرافي للنقرات. إذا قارنت هذه المعلومات بالإحصائيات التي تم جمعها بواسطة المكون الإضافي المقابل على موقعك ، يمكنك وضع خطة لتوزيع ميزانية الإعلان ، مع الإشارة إلى الشهر والمنطقة والمعلمات الأخرى.

وفقًا للعديد من الباحثين ، يكمن نجاح حملة ترامب في تقسيم البيانات الضخمة واستخدامها. تمكن فريق الرئيس الأمريكي المستقبلي من تقسيم الجمهور بشكل صحيح وفهم رغباته وإظهار الرسالة التي يريد الناخبون رؤيتها وسماعها بالضبط. لذلك ، وفقًا لإرينا بيليشيفا من Data-Centric Alliance ، فإن فوز ترامب يرجع إلى حد كبير إلى نهج غير قياسي للتسويق عبر الإنترنت ، والذي كان قائمًا على البيانات الضخمة والتحليل النفسي السلوكي والإعلانات المخصصة.

استخدم التقنيون والمسوقون السياسيون في ترامب نموذجًا رياضيًا تم تطويره خصيصًا ، مما سمح لهم بتحليل بيانات جميع الناخبين الأمريكيين بعمق وتنظيمهم ، مما يجعل الاستهداف شديد الدقة ليس فقط من خلال السمات الجغرافية ، ولكن أيضًا من خلال نوايا الناخبين ومصالحهم. النمط النفسي ، والخصائص السلوكية ، وما إلى ذلك. ولتحقيق هذه الغاية ، نظم المسوقون اتصالًا شخصيًا مع كل مجموعة من مجموعات المواطنين بناءً على احتياجاتهم وحالاتهم المزاجية ووجهات نظرهم السياسية وخصائصهم النفسية وحتى لون بشرتهم ، مستخدمين رسالتهم الخاصة لكل فرد تقريبًا ناخب.

أما بالنسبة لهيلاري كلينتون ، فقد استخدمت أساليب "تم اختبارها بمرور الوقت" استنادًا إلى البيانات الاجتماعية والتسويق القياسي في حملتها ، حيث قسمت جمهور الناخبين فقط إلى مجموعات متجانسة رسميًا (رجال ، نساء ، أمريكيون من أصل أفريقي ، لاتينيون ، فقراء ، أغنياء ، إلخ).

ونتيجة لذلك ، كان الفائز هو الذي قدر إمكانات التقنيات وأساليب التحليل الجديدة. والجدير بالذكر أن إنفاق هيلاري كلينتون في الحملة الانتخابية كان ضعف ما ينفقه خصمها:

البيانات: بيو للأبحاث

المشاكل الرئيسية لاستخدام البيانات الضخمة

بالإضافة إلى التكلفة المرتفعة ، فإن أحد العوامل الرئيسية التي تعيق إدخال البيانات الضخمة في مجالات مختلفة هي مشكلة اختيار البيانات المراد معالجتها: أي تحديد البيانات التي يجب استخراجها وتخزينها وتحليلها وأيها لا ينبغي أن تؤخذ في الاعتبار.

مشكلة أخرى تتعلق بالبيانات الضخمة هي مشكلة أخلاقية. بمعنى آخر ، هناك سؤال طبيعي يطرح نفسه: هل يمكن اعتبار جمع هذه البيانات (خاصة بدون علم المستخدم) انتهاكًا لحدود الخصوصية؟

ليس سرا أن المعلومات المخزنة فيها محركات البحثتتيح Google و Yandex لعمالقة تكنولوجيا المعلومات تحسين خدماتهم باستمرار وجعلها سهلة الاستخدام وإنشاء تطبيقات تفاعلية جديدة. للقيام بذلك ، تجمع محركات البحث بيانات المستخدم حول نشاط المستخدم على الإنترنت ، وعناوين IP ، وبيانات تحديد الموقع الجغرافي ، والاهتمامات ، وعمليات الشراء عبر الإنترنت ، والبيانات الشخصية ، ورسائل البريد الإلكتروني ، وما إلى ذلك. كل هذا يسمح بعرض الإعلانات السياقية وفقًا لسلوك المستخدم على الإنترنت. في الوقت نفسه ، لا يُطلب عادةً موافقة المستخدمين على ذلك ، ولا يتم تحديد اختيار المعلومات التي يجب تقديمها عن أنفسهم. أي بشكل افتراضي ، يتم جمع كل شيء في البيانات الضخمة ، والتي سيتم تخزينها بعد ذلك على خوادم بيانات المواقع.

من هذا يتبع المشكلة المهمة التالية المتعلقة بأمان تخزين البيانات واستخدامها. على سبيل المثال ، هل منصة التحليلات التي يشارك المستهلكون بياناتهم بها آمنة؟ بالإضافة إلى ذلك ، يلاحظ العديد من ممثلي الأعمال نقصًا في المحللين والمسوقين المؤهلين تأهيلا عاليا القادرين على تشغيل كميات كبيرة من البيانات بشكل فعال وحل مشاكل تجارية محددة بمساعدتهم.

على الرغم من كل الصعوبات في تنفيذ البيانات الضخمة ، تعتزم الشركة زيادة الاستثمارات في هذا المجال. وفقًا لدراسة أجرتها مؤسسة Gartner ، فإن قادة الصناعات التي تستثمر في البيانات الضخمة هم شركات الإعلام والتجزئة والاتصالات والبنوك والخدمات.

آفاق التفاعل بين تقنيات blockchain والبيانات الضخمة

للتكامل مع البيانات الضخمة تأثير تآزري ويفتح مجموعة واسعة من الفرص الجديدة للشركات ، بما في ذلك السماح بما يلي:

- الوصول إلى المعلومات التفصيلية حول تفضيلات المستهلك ، والتي على أساسها يمكنك إنشاء ملفات تعريف تحليلية مفصلة لموردين ومنتجات ومكونات منتجات محددة ؛
- دمج البيانات التفصيلية عن المعاملات والإحصاءات المتعلقة باستهلاك مجموعات معينة من السلع من قبل فئات مختلفة من المستخدمين ؛
- الحصول على بيانات تحليلية مفصلة عن سلاسل التوريد والاستهلاك ، والتحكم في خسائر المنتجات أثناء النقل (على سبيل المثال ، فقدان الوزن بسبب الانكماش والتبخر لأنواع معينة من السلع) ؛
- المنتجات المقلدة المزيفة ، تزيد من فعالية مكافحة غسيل الأموال والاحتيال ، إلخ.

سيؤدي الوصول إلى البيانات التفصيلية حول استخدام السلع واستهلاكها إلى إطلاق العنان لإمكانات تقنية البيانات الضخمة إلى حد كبير لتحسين العمليات التجارية الرئيسية ، وتقليل المخاطر التنظيمية ، وفتح فرص جديدة لتحقيق الدخل وإنشاء المنتجات التي تلبي تفضيلات المستهلك الحالية على أفضل وجه.

كما تعلم ، يُظهر ممثلو أكبر المؤسسات المالية بالفعل اهتمامًا كبيرًا بتكنولوجيا blockchain ، بما في ذلك ، وما إلى ذلك. وفقًا لأوليفر بوسمان ، مدير تكنولوجيا المعلومات في شركة UBS المالية السويسرية القابضة ، يمكن لتقنية blockchain "تقليل وقت معالجة المعاملات من عدة أيام إلى عدة أيام. دقائق ".

تعد إمكانية التحليل من blockchain باستخدام تقنية البيانات الضخمة ضخمة. تضمن تقنية التسجيل الموزعة سلامة المعلومات ، فضلاً عن التخزين الموثوق به والشفاف لسجل المعاملات بالكامل. توفر البيانات الضخمة ، بدورها ، أدوات جديدة للتحليل الفعال والتنبؤ والنمذجة الاقتصادية ، وبالتالي تفتح فرصًا جديدة لاتخاذ قرارات إدارية أكثر استنارة.

يمكن استخدام ترادف blockchain والبيانات الضخمة بنجاح في الرعاية الصحية. كما تعلم ، فإن البيانات غير الكاملة وغير الكاملة عن صحة المريض في بعض الأحيان تزيد من خطر إجراء تشخيص غير صحيح وعلاج موصوف بشكل غير صحيح. يجب أن تكون البيانات الهامة حول صحة عملاء المؤسسات الطبية آمنة قدر الإمكان ، ولها خصائص الثبات ، ويمكن التحقق منها ولا تخضع لأي تلاعب.

تلبي المعلومات الموجودة في blockchain جميع المتطلبات المذكورة أعلاه ويمكن أن تكون بمثابة بيانات مصدر عالية الجودة وموثوقة للتحليل المتعمق باستخدام تقنيات البيانات الضخمة الجديدة. بالإضافة إلى ذلك ، بمساعدة blockchain ، يمكن للمؤسسات الطبية تبادل البيانات الموثوقة مع شركات التأمين وسلطات العدالة وأرباب العمل والمؤسسات العلمية والمنظمات الأخرى التي تحتاج إلى معلومات طبية.

البيانات الضخمة وأمن المعلومات

في بالمعنى الواسع، أمن المعلومات هو حماية المعلومات والبنية التحتية الداعمة من التأثيرات السلبية العرضية أو المتعمدة ذات الطبيعة الطبيعية أو الاصطناعية.

في مجال أمن المعلومات ، تواجه البيانات الضخمة التحديات التالية:

- مشاكل حماية البيانات وضمان سلامتها.
- مخاطر التدخل الخارجي وتسريب المعلومات السرية ؛
- التخزين غير السليم للمعلومات السرية ؛
- خطر فقدان المعلومات ، على سبيل المثال ، بسبب الأفعال الكيدية لشخص ما ؛
- مخاطر إساءة استخدام البيانات الشخصية من قبل أطراف ثالثة ، إلخ.

تكمن إحدى المشكلات الرئيسية للبيانات الضخمة التي تم تصميم blockchain لحلها في مجال أمن المعلومات. ضمان الامتثال لجميع مبادئها الأساسية ، يمكن أن تضمن تقنية دفتر الأستاذ الموزع سلامة وموثوقية البيانات ، وبسبب عدم وجود نقطة فشل واحدة ، فإن blockchain يجعل العمل مستقرًا. نظم المعلومات. يمكن أن تساعد تقنية دفتر الأستاذ الموزع في حل مشكلة الثقة في البيانات ، فضلاً عن توفير إمكانية التبادل الشامل للبيانات.

المعلومات هي أحد الأصول القيمة ، مما يعني أن الجوانب الرئيسية لأمن المعلومات يجب أن تكون في المقدمة. من أجل البقاء في المنافسة ، يجب على الشركات مواكبة العصر ، مما يعني أنها لا تستطيع تجاهل الفرص والمزايا المحتملة التي تحتوي عليها تقنية blockchain وأدوات البيانات الكبيرة.

ذات مرة ، سمعت مصطلح "البيانات الضخمة" من German Gref (رئيس Sberbank). مثل ، يعملون الآن بنشاط على التنفيذ ، لأن هذا سيساعدهم في تقليل الوقت الذي يعملون فيه مع كل عميل.

المرة الثانية التي صادفت فيها هذا المفهوم كانت في متجر العميل عبر الإنترنت ، حيث عملنا وزدنا التشكيلة من بضعة آلاف إلى بضع عشرات الآلاف من العناصر السلعية.

في المرة الثالثة التي رأيت فيها أن Yandex بحاجة إلى محلل بيانات ضخم. ثم قررت أن أتعمق أكثر في هذا الموضوع وفي نفس الوقت أكتب مقالًا يخبرك بنوع المصطلح الذي يثير عقول كبار المديرين ومساحة الإنترنت.

ما هذا

عادةً ما أبدأ أيًا من مقالاتي بشرح لنوع المصطلح. هذه المادة لن تكون استثناء.

ومع ذلك ، لا يرجع هذا في المقام الأول إلى الرغبة في إظهار مدى ذكائي ، ولكن لأن الموضوع معقد حقًا ويتطلب شرحًا دقيقًا.

على سبيل المثال ، يمكنك قراءة البيانات الضخمة الموجودة على ويكيبيديا ، ولا تفهم شيئًا ، ثم العودة إلى هذه المقالة لتظل تفهم التعريف وقابلية التطبيق للأعمال. لذلك ، لنبدأ بوصف ، ثم إلى أمثلة الأعمال.

البيانات الضخمة هي بيانات ضخمة. مدهش ، أليس كذلك؟ في الواقع ، يتم ترجمتها من اللغة الإنجليزية على أنها "بيانات ضخمة". لكن هذا التعريف ، كما يمكن للمرء ، هو للدمى.

تكنولوجيا البيانات الضخمةهو نهج / طريقة لمعالجة المزيد من البيانات للحصول عليها معلومات جديدةالتي يصعب معالجتها بالوسائل التقليدية.

يمكن معالجة البيانات (منظمة) ومجزأة (أي غير منظمة).

ظهر المصطلح نفسه مؤخرًا نسبيًا. في عام 2008 ، توقعت إحدى المجلات العلمية أن هذا النهج هو أمر ضروري للتعامل مع كمية كبيرة من المعلومات التي تنمو باطراد.

على سبيل المثال ، تزداد المعلومات على الإنترنت التي يجب تخزينها ، وبالطبع معالجتها ، بنسبة 40٪ كل عام. مرة أخرى: + 40٪ كل عام تظهر معلومات جديدة على الإنترنت.

إذا كانت المستندات المطبوعة مفهومة وكانت طرق معالجتها مفهومة أيضًا (النقل إلى نموذج إلكتروني ، والتجميع في مجلد واحد ، ومرقّم) ، فماذا تفعل بالمعلومات التي يتم تقديمها في "شركات نقل" مختلفة تمامًا ومجلدات أخرى:

  • وثائق الإنترنت
  • المدونات والشبكات الاجتماعية ؛
  • مصادر الصوت / الفيديو ؛
  • اجهزة القياس.

هناك خصائص تجعل من الممكن تصنيف المعلومات والبيانات على أنها بيانات ضخمة. بمعنى ، قد لا تكون جميع البيانات مناسبة للتحليلات. تحتوي هذه الخصائص على المفهوم الرئيسي للبيانات الضخمة. كلهم يتناسبون مع ثلاثة V.

  1. مقدار(من حجم اللغة الإنجليزية). تُقاس البيانات من حيث الحجم المادي "للوثيقة" المراد تحليلها ؛
  2. سرعة(من سرعة الإنجليزية). لا تقف البيانات قيد التطوير ، ولكنها تنمو باستمرار ، ولهذا السبب يجب معالجتها بسرعة للحصول على النتائج ؛
  3. المنوع(من متنوعة الإنجليزية). قد لا تكون البيانات موحدة. أي أنها يمكن أن تكون مجزأة أو منظمة أو منظمة جزئيًا.

ومع ذلك ، من وقت لآخر ، يتم إضافة V رابع (صحة - موثوقية / مصداقية البيانات) وحتى الخامس الخامس إلى VVV (في بعض الحالات يكون قابلاً للتطبيق - الجدوى ، وفي حالات أخرى يكون القيمة - القيمة).

حتى أنني رأيت في مكان ما 7 فولت ، والتي تميز البيانات المتعلقة بالبيانات الضخمة. لكن في رأيي ، هذا من سلسلة (حيث يتم إضافة Ps بشكل دوري ، على الرغم من أن 4 الأولية كافية للفهم).

نحن بالفعل أكثر من 29000 شخص.
شغله

من يحتاجها

يطرح سؤال منطقي ، كيف يمكن استخدام المعلومات (إن وجدت ، البيانات الضخمة هي مئات وآلاف تيرابايت)؟

ولا حتى من هذا القبيل. هنا المعلومات. فلماذا توصلوا إلى البيانات الضخمة إذن؟ ما فائدة البيانات الضخمة في التسويق والأعمال؟

  1. لا يمكن لقواعد البيانات التقليدية تخزين ومعالجة (لا أتحدث حتى عن التحليلات الآن ، ولكن ببساطة تخزين ومعالجة) كمية هائلة من المعلومات.
    البيانات الضخمة تحل هذه المشكلة الرئيسية. تخزين وإدارة المعلومات بكميات كبيرة بنجاح ؛
  2. معلومات هيكلية تأتي من مصادر مختلفة (فيديو ، صور ، صوت ، إلخ). مستندات نصية) ، في شكل واحد ومفهوم وسهل الفهم ؛
  3. تشكيل التحليلات وإنشاء تنبؤات دقيقة بناءً على المعلومات المنظمة والمعالجة.

انه لامر معقد. ببساطة ، أي مسوق يفهم أنه إذا درست قدرًا كبيرًا من المعلومات (عنك ، وشركتك ، ومنافسيك ، وصناعتك) ، يمكنك الحصول على نتائج جيدة جدًا:

  • الفهم الكامل لشركتك وعملك من ناحية الأرقام ؛
  • ادرس منافسيك. وهذا بدوره سيجعل من الممكن المضي قدمًا من خلال السيطرة عليهم ؛
  • تعلم معلومات جديدة عن عملائك.

ولأن تقنية البيانات الضخمة تعطي النتائج التالية تحديدًا ، يسارع الجميع إليها. إنهم يحاولون إدخال هذا العمل في شركتهم من أجل الحصول على زيادة في المبيعات وخفض التكاليف. وللتحديد ، إذن:

  1. زيادة عمليات البيع التبادلي والبيع الإضافي من خلال معرفة أفضل بتفضيلات العملاء ؛
  2. ابحث عن المنتجات الشائعة وأسباب شرائها (والعكس صحيح) ؛
  3. تحسين المنتج أو الخدمة ؛
  4. تحسين مستوى الخدمة ؛
  5. زيادة الولاء والتركيز على العملاء ؛
  6. منع الاحتيال (أكثر صلة بالقطاع المصرفي) ؛
  7. تقليل التكاليف الزائدة.

المثال الأكثر شيوعًا الذي يتم تقديمه في جميع المصادر هو ، بالطبع ، Apple ، التي تجمع البيانات حول مستخدميها (الهاتف ، الساعة ، الكمبيوتر).

بسبب وجود النظام البيئي ، تعرف الشركة الكثير عن مستخدميها وتستخدم هذا في المستقبل لتحقيق الربح.

يمكنك قراءة هذه وغيرها من أمثلة الاستخدام في أي مقال آخر باستثناء هذا المقال.

مثال حديث

سأخبرك عن مشروع آخر. أو بالأحرى ، عن شخص يبني المستقبل باستخدام حلول البيانات الضخمة.

هذا هو إيلون ماسك وشركته تيسلا. حلمه الرئيسي هو جعل السيارات ذاتية القيادة ، أي أن تجلس خلف عجلة القيادة ، وتشغل الطيار الآلي من موسكو إلى فلاديفوستوك و ... تنام ، لأنك لست بحاجة إلى قيادة سيارة على الإطلاق ، لأنه سيفعل ذلك. كل شيء بنفسه.

يبدو رائعا؟ لكن لا! الأمر مجرد أن إيلون تصرف بشكل أكثر حكمة من جوجل ، الذي يتحكم في السيارات باستخدام عشرات الأقمار الصناعية. وذهب في الاتجاه الآخر:

  1. كل سيارة يتم بيعها مزودة بجهاز كمبيوتر يقوم بجمع كل المعلومات.
    كل شيء يعني كل شيء. عن السائق وأسلوب قيادته والطرق المحيطة وحركة السيارات الأخرى. يصل حجم هذه البيانات إلى 20-30 جيجابايت في الساعة ؛
  2. علاوة على ذلك ، يتم نقل هذه المعلومات عبر الأقمار الصناعية إلى الكمبيوتر المركزي الذي يعالج هذه البيانات ؛
  3. بناءً على البيانات الضخمة التي يعالجها هذا الكمبيوتر ، تم بناء نموذج لمركبة غير مأهولة.

بالمناسبة ، إذا كان أداء Google سيئًا للغاية وتعرضت سياراتهم لحوادث طوال الوقت ، فإن ماسك ، نظرًا لحقيقة أنه يعمل مع البيانات الضخمة ، يعمل بشكل أفضل ، لأن نماذج الاختبار تظهر نتائج جيدة جدًا.

لكن ... الأمر كله يتعلق بالاقتصاد. ما كل ما يتعلق بالربح ، نعم عن الربح؟ الكثير من البيانات الضخمة التي يمكن حلها لا علاقة له تمامًا بالأرباح والمال.

تُظهر إحصائيات Google ، التي تستند فقط إلى البيانات الضخمة ، شيئًا مثيرًا للاهتمام.

قبل أن يعلن الأطباء بداية وباء مرض ما في منطقة ما ، فإن عدد استعلامات البحثعن علاج هذا المرض.

وبالتالي ، فإن الدراسة الصحيحة للبيانات وتحليلها يمكن أن تشكل تنبؤات وتتنبأ ببدء الوباء (وبالتالي الوقاية منه) بشكل أسرع بكثير من رأي السلطات وإجراءاتها.

التطبيق في روسيا

ومع ذلك ، فإن روسيا ، كما هو الحال دائمًا ، تتباطأ قليلاً. لذلك ، لم يظهر تعريف البيانات الضخمة في روسيا منذ أكثر من 5 سنوات (أنا أتحدث عن الشركات العادية الآن).

وهذا على الرغم من حقيقة أن هذا هو أحد الأسواق الأسرع نموًا في العالم (المخدرات والأسلحة تدخن بعصبية على الهامش) ، لأن سوق البرمجيات الخاصة بجمع وتحليل البيانات الضخمة تنمو كل عام بنسبة 32٪.

لوصف سوق البيانات الضخمة في روسيا ، أتذكر نكتة قديمة. موعد كبير مثل الجنس قبل 18. الجميع يتحدث عن ذلك ، هناك الكثير من الضجيج حوله وقليل من الإجراءات الحقيقية ، ويخجل الجميع من الاعتراف بأنهم هم أنفسهم لا يفعلون ذلك. في الواقع ، هناك الكثير من الضجيج حول هذا ، لكن القليل من العمل الحقيقي.

على الرغم من أن شركة الأبحاث المعروفة Gartner أعلنت بالفعل في عام 2015 أن البيانات الضخمة لم تعد اتجاهًا متزايدًا (مثل الذكاء الاصطناعي بالمناسبة) ، ولكنها أدوات مستقلة تمامًا لتحليل وتطوير التقنيات المتقدمة.

المجالات الأكثر نشاطًا حيث يتم استخدام البيانات الضخمة في روسيا هي البنوك / التأمين (ليس بدون سبب لقد بدأت المقال مع رئيس Sberbank) والاتصالات والبيع بالتجزئة والعقارات و ... القطاع العام.

على سبيل المثال ، سوف أخبركم بمزيد من التفاصيل حول اثنين من قطاعات الاقتصاد التي تستخدم خوارزميات البيانات الضخمة.

1. البنوك

لنبدأ بالبنوك والمعلومات التي يجمعونها عنا وعن أنشطتنا. على سبيل المثال ، أخذت أفضل 5 بنوك روسية تستثمر بنشاط في البيانات الضخمة:

  1. سبيربنك.
  2. غازبرومبانك
  3. VTB 24 ؛
  4. بنك الفا؛
  5. بنك تينكوف.

إنه لمن دواعي سرورنا أن نرى Alfa Bank بين القادة الروس. على أقل تقدير ، من الجيد أن تعرف أن البنك ، الذي أنت شريك رسمي له ، يدرك الحاجة إلى إدخال أدوات تسويقية جديدة في شركتك.

لكني أريد أن أعرض أمثلة على الاستخدام والتنفيذ الناجح للبيانات الضخمة في البنك ، والتي أحبها بسبب المظهر غير القياسي والإجراءات التي اتخذها مؤسسها.

أنا أتحدث عن بنك تينكوف. كانت مهمتهم الرئيسية هي تطوير نظام لتحليل البيانات الضخمة في الوقت الفعلي بسبب قاعدة العملاء المتضخمة.

النتائج: تم تقليل وقت العمليات الداخلية 10 مرات على الأقل ، وبالنسبة للبعض - أكثر من 100 مرة.

حسنًا ، القليل من الإلهاء. هل تعرف لماذا بدأت الحديث عن تصرفات أوليج تينكوف الغريبة غير القياسية؟ هذا فقط ، في رأيي ، هم الذين ساعدوه على التحول من رجل أعمال من الطبقة المتوسطة ، يوجد الآلاف منهم في روسيا ، إلى واحد من أشهر رواد الأعمال وأكثرهم شهرة. لإثبات ذلك ، شاهد هذا الفيديو غير العادي والمثير للاهتمام:

2. العقارات

في العقارات ، الأمور أكثر تعقيدًا. وهذا هو بالضبط المثال الذي أريد أن أعطيكم إياه لفهم التاريخ الكبير في العمل العادي. البيانات الأولية:

  1. كمية كبيرة من الوثائق النصية ؛
  2. المصادر المفتوحة (الأقمار الصناعية الخاصة التي تنقل بيانات تغير الأرض) ؛
  3. الكم الهائل من المعلومات غير الخاضعة للرقابة على الإنترنت ؛
  4. التغييرات المستمرة في المصادر والبيانات.

وبناءً على ذلك ، من الضروري إعداد وتقييم تكلفة قطعة أرض ، على سبيل المثال ، تحت قرية الأورال. سيستغرق الأمر أسبوعًا للمحترف.

لن تستغرق الجمعية الروسية للمثمنين و ROSEKO ، التي نفذت بالفعل تحليل البيانات الضخمة بمساعدة البرمجيات ، أكثر من 30 دقيقة من العمل المريح. قارن ، أسبوع و 30 دقيقة. فرق هائل.

أدوات الخلق

بالطبع ، لا يمكن تخزين كميات هائلة من المعلومات ومعالجتها على محركات أقراص ثابتة بسيطة.

أ برمجة، الذي يبني البيانات ويحللها - هذه ملكية فكرية بشكل عام وفي كل مرة تطور المؤلف. ومع ذلك ، هناك أدوات يتم على أساسها إنشاء كل هذا السحر:

  • Hadoop و MapReduce ؛
  • قواعد بيانات NoSQL ؛
  • أدوات فئة اكتشاف البيانات.

لأكون صريحًا ، لا يمكنني أن أشرح لك بوضوح كيف يختلف كل منهما عن الآخر ، لأن التعرف على هذه الأشياء والعمل معها يتم تدريسها في المعاهد الفيزيائية والرياضية.

لماذا إذن بدأت الحديث عنها إذا لم أتمكن من شرحها؟ تذكر ، في جميع الأفلام ، يذهب اللصوص إلى أي بنك ويرون عددًا كبيرًا من جميع أنواع قطع الحديد المتصلة بالأسلاك؟ وينطبق الشيء نفسه على البيانات الضخمة. على سبيل المثال ، هذا نموذج يعد حاليًا أحد النماذج الرائدة في السوق.

أداة التاريخ الكبير

التكلفة في الحد الأقصى للتكوين تصل إلى 27 مليون روبل لكل رف. هذا بالطبع هو الإصدار الفاخر. أعني أنك تحاول إنشاء البيانات الضخمة في عملك مقدمًا.

باختصار عن الرئيسي

قد تسأل ، لماذا تعمل الشركات الصغيرة والمتوسطة الحجم مع البيانات الضخمة؟

سأجيب على هذا باقتباس من شخص واحد: "في المستقبل القريب ، سيكون العملاء مطلوبين للشركات التي تفهم سلوكهم وعاداتهم بشكل أفضل وتتوافق معهم قدر الإمكان".

لكن دعونا نواجه الأمر. لتنفيذ البيانات الضخمة في الأعمال التجارية الصغيرة ، من الضروري ليس فقط وجود ميزانيات كبيرة لتطوير البرامج وتنفيذها ، ولكن أيضًا لصيانة المتخصصين ، على الأقل مثل محلل البيانات الضخمة ومسؤول النظام.

والآن أنا صامت بشأن حقيقة أنه يجب أن يكون لديك مثل هذه البيانات للمعالجة.

نعم. بالنسبة للشركات الصغيرة ، الموضوع غير قابل للتطبيق تقريبًا. لكن هذا لا يعني أنك بحاجة إلى نسيان كل ما قرأته أعلاه. فقط ادرس ليس بياناتك الخاصة ، ولكن نتائج تحليلات البيانات من الشركات الأجنبية والروسية المعروفة.

على سبيل المثال ، اكتشفت سلسلة البيع بالتجزئة Target ، باستخدام تحليلات البيانات الضخمة ، أن النساء الحوامل قبل الثلث الثاني من الحمل (من الأسبوع الأول إلى الأسبوع الثاني عشر من الحمل) يشترون بنشاط المنتجات غير المنكهة.

باستخدام هذه البيانات ، يرسلون لهم كوبونات خصم للمنتجات غير المعطرة ذات تاريخ انتهاء الصلاحية المحدود.

وإذا كنت مجرد مقهى صغير جدًا ، على سبيل المثال؟ نعم ، بسيط جدا. استخدم تطبيق الولاء. وبعد مرور بعض الوقت وبفضل المعلومات المتراكمة ، ستتمكن ليس فقط من تقديم أطباق للعملاء ذات صلة باحتياجاتهم ، ولكن أيضًا لرؤية أكثر الأطباق غير المباعة والأكثر هامشية ببضع نقرات بالماوس.

ومن هنا الاستنتاج. لا يستحق تطبيق البيانات الضخمة للشركات الصغيرة ، ولكن استخدام نتائج وتطورات الشركات الأخرى أمر لا بد منه.

مقدمة

"البيانات الضخمة" هو مصطلح شائع يظهر في جميع المؤتمرات المهنية تقريبًا المخصصة لتحليل البيانات والتحليلات التنبؤية واستخراج البيانات وإدارة علاقات العملاء. يستخدم المصطلح في المجالات التي يكون من المناسب فيها العمل مع كميات كبيرة من البيانات النوعية ، حيث توجد زيادة ثابتة في سرعة تدفق البيانات في العملية التنظيمية: الاقتصاد ، والبنوك ، والتصنيع ، والتسويق ، والاتصالات ، وتحليلات الويب ، والطب ، إلخ.

إلى جانب التراكم السريع للمعلومات ، تتطور تقنيات تحليل البيانات بسرعة. إذا كان من الممكن قبل بضع سنوات فقط ، على سبيل المثال ، تقسيم العملاء إلى مجموعات ذات تفضيلات مماثلة ، فمن الممكن الآن بناء نماذج لكل عميل في الوقت الفعلي ، وتحليل ، على سبيل المثال ، حركته على الإنترنت للبحث عن منتج. يمكن تحليل اهتمامات المستهلك ، ووفقًا للنموذج المركب ، يتم عرض إعلانات مناسبة أو عروض محددة. يمكن أيضًا تهيئة النموذج وإعادة بنائه في الوقت الفعلي ، وهو ما لم يكن من الممكن تصوره قبل بضع سنوات فقط.

في مجال الاتصالات ، على سبيل المثال ، تم تطوير تقنيات لتحديد الموقع الفعلي للهواتف المحمولة وأصحابها ، ويبدو أن الفكرة الموصوفة في تقرير الأقلية لعام 2002 من فيلم الخيال العلمي ، حيث يتم عرض المعلومات الإعلانية في مراكز التسوق ، ستصبح حقيقة واقعة قريبًا.أخذت في الاعتبار مصالح أشخاص معينين يمرون.

في الوقت نفسه ، هناك حالات يمكن أن يؤدي فيها الحماس للتكنولوجيات الجديدة إلى خيبة الأمل. على سبيل المثال ، بيانات متفرقة في بعض الأحيان ( بيانات متفرقة) التي توفر نظرة ثاقبة مهمة في الواقع تكون أكثر قيمة من البيانات الكبيرة(البيانات الضخمة) تصف الجبال ، غالبًا بدون معلومات أساسية.

الغرض من هذه المقالة هو توضيح الإمكانيات الجديدة للبيانات الضخمة والتفكير فيها وتوضيح كيفية إنشاء منصة تحليلات إحصائياتيمكن أن تساعدك StatSoft على استخدام البيانات الضخمة بشكل فعال لتحسين العمليات وحل المشكلات.

ما هو حجم البيانات الضخمة؟

بالطبع ، يجب أن تكون الإجابة الصحيحة على هذا السؤال "حسب الأمر ..."

في المناقشات الحديثة ، يوصف مفهوم البيانات الضخمة على أنه بيانات الحجم بترتيب تيرابايت.

من الناحية العملية (إذا كنا نتحدث عن جيجابايت أو تيرابايت) ، فمن السهل تخزين هذه البيانات وإدارتها باستخدام قواعد البيانات "التقليدية" والمعدات القياسية (خادم قاعدة البيانات).

برمجة إحصائياتيستخدم تقنية متعددة الخيوط للخوارزميات للوصول إلى البيانات (القراءة) ، وتحويل وبناء النماذج التنبؤية (والتسجيل) ، بحيث يمكن تحليل عينات البيانات هذه بسهولة ولا تتطلب أدوات متخصصة.

في بعض مشاريع StatSoft الحالية ، تتم معالجة عينات من 9-12 مليون صف. دعونا نضربهم في 1000 معلمة (متغيرات) تم جمعها وتنظيمها في مستودع البيانات لبناء نماذج المخاطر أو التنبؤية. سيكون هذا النوع من الملفات "فقط" حوالي 100 غيغابايت في الحجم. هذا بالتأكيد ليس مستودع بيانات صغير ، لكن حجمه لا يتجاوز قدرات تقنية قواعد البيانات القياسية.

خط الانتاج إحصائياتلتحليل الدُفعات وبناء نماذج التسجيل ( مؤسسة STATISTICA) ، حلول في الوقت الفعلي ( إحصائيات مباشرة النتيجة) والأدوات التحليلية لإنشاء النماذج وإدارتها ( عامل منجم البيانات STATISTICA) التوسع بسهولة عبر خوادم متعددة باستخدام معالجات متعددة النواة.

من الناحية العملية ، هذا يعني أن السرعة الكافية للنماذج التحليلية (على سبيل المثال ، التنبؤات المتعلقة بمخاطر الائتمان ، واحتمال الاحتيال ، وموثوقية عقد المعدات ، وما إلى ذلك) لاتخاذ قرارات تشغيلية يمكن تحقيقها دائمًا باستخدام الأدوات القياسية. إحصائيات.

من البيانات الضخمة إلى البيانات الضخمة

كقاعدة عامة ، تتمحور مناقشة البيانات الضخمة حول مخازن البيانات (والتحليل على أساس هذه المخازن) التي تكون أكبر بكثير من مجرد بضعة تيرابايت.

على وجه الخصوص ، يمكن أن تنمو بعض مخازن البيانات إلى آلاف تيرابايت ، أي ما يصل إلى بيتابايت (1000 تيرابايت = 1 بيتابايت).

خارج البيتابايت ، يمكن قياس تراكم البيانات بالإكسابايت ، على سبيل المثال ، يُقدر أن قطاع التصنيع في جميع أنحاء العالم في عام 2010 قد جمع ما مجموعه 2 إكسابايت من المعلومات الجديدة (Manyika et al. ، 2011).

هناك صناعات يتم فيها جمع البيانات وتجميعها بشكل مكثف للغاية.

على سبيل المثال ، في بيئة التصنيع مثل محطات الطاقة ، يتم أحيانًا إنشاء دفق مستمر من البيانات لعشرات الآلاف من المعلمات كل دقيقة أو حتى كل ثانية.

بالإضافة إلى ذلك ، على مدى السنوات القليلة الماضية ، تم إدخال ما يسمى بتقنيات "الشبكة الذكية" ، مما يسمح للمرافق بقياس استهلاك الكهرباء للأسر الفردية كل دقيقة أو كل ثانية.

بالنسبة لهذا النوع من التطبيقات ، حيث يجب تخزين البيانات لسنوات ، يتم تصنيف البيانات المتراكمة على أنها بيانات كبيرة للغاية.

هناك أيضًا عدد متزايد من تطبيقات البيانات الضخمة بين القطاعات التجارية والحكومية ، حيث يمكن أن يصل حجم البيانات المخزنة إلى مئات تيرابايت أو بيتابايت.

تتيح لك التكنولوجيا الحديثة "تتبع" الأشخاص وسلوكهم بطرق مختلفة. على سبيل المثال ، عندما نتصفح الإنترنت أو نتسوق عبر الإنترنت أو في متاجر سلسلة كبيرة مثل Walmart (وفقًا لـ Wikipedia ، تقدر قيمة تخزين بيانات Walmart بأكثر من 2 بيتابايت) ، أو التنقل باستخدام الهواتف المحمولة- نترك أثرًا لأفعالنا ، مما يؤدي إلى تراكم معلومات جديدة.

وسائل اتصال مختلفة ، من المكالمات الهاتفية البسيطة إلى تحميل المعلومات عبر مواقع التواصل الاجتماعي مثل Facebook (وفقًا لـ Wikipedia ، يبلغ تبادل المعلومات 30 مليار وحدة كل شهر) ، أو مشاركة الفيديو على مواقع مثل YouTube (يزعم Youtube أنه يتم تنزيله على مدار 24 ساعة من الفيديو كل دقيقة ؛ راجع ويكيبيديا) لتوليد كمية هائلة من البيانات الجديدة كل يوم.

وبالمثل ، تولد التقنيات الطبية الحديثة كميات كبيرة من البيانات المتعلقة بتوفير الرعاية الطبية (الصور ومقاطع الفيديو والمراقبة في الوقت الفعلي).

لذلك ، يمكن تمثيل تصنيف أحجام البيانات على النحو التالي:

مجموعات البيانات الكبيرة: من 1000 ميغا (1 جيجابايت) إلى مئات الجيجابايت

مجموعات بيانات ضخمة: من 1000 جيجا بايت (1 تيرابايت) إلى عدة تيرابايت

البيانات الضخمة: من عدة تيرابايت إلى مئات التيرابايت

البيانات الضخمة للغاية: 1،000 إلى 10،000 تيرابايت = 1 إلى 10 بيتابايت

المهام المتعلقة بالبيانات الضخمة

هناك ثلاثة أنواع من المهام المرتبطة بالبيانات الضخمة:

1. التخزين والإدارة

ليس من السهل تخزين مئات تيرابايت أو بيتابايت من البيانات وإدارتها باستخدام قواعد البيانات الارتباطية التقليدية.

2. المعلومات غير المنظمة

معظم البيانات الضخمة غير منظمة. أولئك. كيف يمكن تنظيم النصوص والفيديو والصور وما إلى ذلك؟

3. تحليل البيانات الضخمة

كيف تحلل المعلومات غير المهيكلة؟ كيفية إنشاء تقارير بسيطة بناءً على البيانات الضخمة ، وبناء نماذج تنبؤية متعمقة وتنفيذها؟

تخزين وإدارة البيانات الضخمة

عادةً ما يتم تخزين البيانات الضخمة وتنظيمها في أنظمة ملفات موزعة.

بشكل عام ، يتم تخزين المعلومات على عدة (أحيانًا الآلاف) من محركات الأقراص الثابتة على أجهزة الكمبيوتر القياسية.

ما يسمى بـ "الخريطة" (الخريطة) يتتبع مكان (على أي جهاز كمبيوتر و / أو قرص) يتم تخزين جزء معين من المعلومات.

لضمان تحمل الخطأ والموثوقية ، يتم عادةً تخزين كل معلومة عدة مرات ، على سبيل المثال ثلاث مرات.

لذلك ، على سبيل المثال ، افترض أنك جمعت معاملات فردية من سلسلة متاجر بيع بالتجزئة كبيرة. سيتم تخزين المعلومات التفصيلية حول كل معاملة على خوادم ومحركات أقراص صلبة مختلفة ، وفهارس "الخريطة" (الخريطة) حيث يتم تخزين المعلومات المتعلقة بالمعاملة المقابلة بالضبط.

استخدام الأجهزة القياسية وأدوات البرامج مفتوحة المصدر لإدارة نظام الملفات الموزع هذا (على سبيل المثال ، هادوب) ، فمن السهل نسبيًا تنفيذ مخازن بيانات موثوقة على مقياس بيتابايت.

معلومات غير منظمة

تتكون معظم المعلومات التي تم جمعها في نظام الملفات الموزعة من بيانات غير منظمة مثل النص أو الصور أو الصور أو مقاطع الفيديو.

هذا له مزاياه وعيوبه.

الميزة هي أن القدرة على تخزين البيانات الضخمة تسمح لك بتخزين "جميع البيانات" دون القلق بشأن مقدار البيانات ذات الصلة بالتحليل واتخاذ القرار في وقت لاحق.

العيب هو أنه في مثل هذه الحالات ، لاستخراج معلومات مفيدةمطلوب مزيد من المعالجة لهذه الكميات الضخمة من البيانات.

في حين أن بعض هذه العمليات قد تكون بسيطة (على سبيل المثال ، عمليات حسابية بسيطة ، وما إلى ذلك) ، تتطلب عمليات أخرى خوارزميات أكثر تعقيدًا يجب تصميمها خصيصًا من أجل عمل فعالعلى نظام الملفات الموزعة.

قال أحد كبار التنفيذيين لشركة StatSoft ذات مرة إنه "أنفق ثروة على تكنولوجيا المعلومات وتخزين البيانات ، لكنه لم يبدأ بعد في الحصول على أموال" لأنه لم يفكر في أفضل السبل لاستخدام هذه البيانات لتحسين أعماله الأساسية.

لذلك ، في حين أن كمية البيانات يمكن أن تنمو بشكل كبير ، فإن القدرة على استخراج المعلومات والعمل على تلك المعلومات محدودة وستصل إلى حدها المقارب.

من المهم أن يتم تطوير طرق وإجراءات بناء النماذج وتحديثها وأتمتة عملية صنع القرار جنبًا إلى جنب مع أنظمة تخزين البيانات لضمان أن هذه الأنظمة مفيدة ومفيدة للمؤسسة.

تحليل البيانات الضخمة

هذه مشكلة كبيرة حقًا في تحليل البيانات الضخمة غير المهيكلة: كيفية تحليلها بطريقة مفيدة. كتب عن هذه المشكلة أقل بكثير مما كتب عن تقنيات تخزين البيانات وإدارة البيانات الضخمة.

هناك عدد من القضايا التي ينبغي النظر فيها.

تقليل الخريطة

عند تحليل مئات تيرابايت أو بيتابايت من البيانات ، لا يمكن استخراج البيانات إلى مكان آخر لتحليلها (على سبيل المثال ، في خادم تحليل المؤسسات STATISTICA).

ستستغرق عملية نقل البيانات عبر القنوات إلى خادم أو خوادم منفصلة (للمعالجة المتوازية) وقتًا طويلاً وتتطلب الكثير من حركة المرور.

بدلاً من ذلك ، يجب إجراء الحسابات التحليلية فعليًا بالقرب من مكان تخزين البيانات.

تعد خوارزمية Map-Reduce نموذجًا للحوسبة الموزعة. مبدأ عملها على النحو التالي: توزيع بيانات الإدخال على العقد العاملة (العقد الفردية) لنظام الملفات الموزعة للمعالجة المسبقة (خطوة الخريطة) ، ثم الالتفاف (الجمع) لما قبله بالفعل. - معالجة البيانات (تصغير الخطوة).

وهكذا ، على سبيل المثال ، لحساب المجموع النهائي ، ستحسب الخوارزمية بالتوازي المجاميع الفرعية في كل عقد من عقد نظام الملفات الموزع ، ثم تلخص هذه القيم الوسيطة.

هناك ثروة من المعلومات المتاحة عبر الإنترنت حول كيفية إجراء عمليات حسابية متنوعة باستخدام نموذج تقليل الخريطة ، بما في ذلك التحليلات التنبؤية.

إحصائيات بسيطة ، ذكاء الأعمال (BI)

لإنشاء تقارير BI بسيطة ، هناك العديد من المنتجات مفتوحة المصدر التي تتيح لك حساب المبالغ والمتوسطات والنسب وما إلى ذلك. باستخدام تقليل الخريطة.

لذا فإن الحصول على إحصائيات دقيقة وإحصائيات بسيطة أخرى لإعداد التقارير أمر سهل للغاية.

النمذجة التنبؤية والإحصاءات المتقدمة

للوهلة الأولى ، قد يبدو أن بناء نماذج تنبؤية في نظام ملفات موزع أكثر صعوبة ، لكن هذا ليس هو الحال على الإطلاق. ضع في اعتبارك المراحل الأولية لتحليل البيانات.

تحضير البيانات. منذ بعض الوقت ، أدارت StatSoft سلسلة من المشاريع الكبيرة والناجحة التي تتضمن مجموعات بيانات كبيرة جدًا تصف أداء محطة توليد الكهرباء دقيقة بدقيقة. كان الهدف من التحليل هو تحسين كفاءة محطة الطاقة وتقليل الانبعاثات (معهد أبحاث الطاقة الكهربائية ، 2009).

من المهم أنه على الرغم من حقيقة أن مجموعات البيانات يمكن أن تكون كبيرة جدًا ، إلا أن المعلومات الواردة فيها ذات بُعد أصغر بكثير.

على سبيل المثال ، بينما يتم تجميع البيانات كل ثانية أو كل دقيقة ، تظل العديد من المعلمات (درجات حرارة الغاز والفرن ، والتدفق ، ومواضع المخمدات ، وما إلى ذلك) مستقرة على مدى فترات زمنية طويلة. بمعنى آخر ، البيانات التي تتم كتابتها كل ثانية هي في الأساس تكرار لنفس المعلومات.

وبالتالي ، من الضروري تنفيذ تجميع البيانات "الذكي" ، والحصول على البيانات للنمذجة والتحسين التي تحتوي فقط على المعلومات الضرورية حول التغييرات الديناميكية التي تؤثر على كفاءة محطة الطاقة وكمية الانبعاثات.

تصنيف النص والمعالجة المسبقة للبيانات. دعنا نوضح مرة أخرى كيف يمكن أن تحتوي مجموعات البيانات الكبيرة على معلومات أقل فائدة بكثير.

على سبيل المثال ، شاركت StatSoft في مشاريع تتعلق بتحليل النصوص (التنقيب عن النصوص) من التغريدات ، مما يعكس مدى رضا الركاب عن شركات الطيران وخدماتها.

على الرغم من أنه تم استخراج عدد كبير من التغريدات ذات الصلة كل ساعة ويوميًا ، إلا أن المشاعر المعبر عنها فيها كانت بسيطة ورتيبة إلى حد ما. معظم المنشورات عبارة عن شكاوى ورسائل قصيرة من جملة واحدة حول "التجارب السيئة". بالإضافة إلى ذلك ، فإن عدد و "قوة" هذه المشاعر مستقرة نسبيًا بمرور الوقت وبشأن قضايا محددة (على سبيل المثال ، الأمتعة المفقودة وسوء الطعام وإلغاء الرحلات الجوية).

وبالتالي ، فإن تقليل التغريدات الفعلية إلى درجات المشاعر باستخدام تقنيات التنقيب عن النص (مثل تلك المطبقة في STATISTICA Text Miner) ينتج عنه كمية أقل بكثير من البيانات ، والتي يمكن بعد ذلك تعيينها بسهولة إلى البيانات المنظمة الحالية (مبيعات التذاكر الفعلية ، أو معلومات المسافر الدائم). يتيح لك التحليل تقسيم العملاء إلى مجموعات ودراسة شكاواهم المميزة.

هناك العديد من الأدوات المتاحة لأداء هذا النوع من تجميع البيانات (على سبيل المثال ، درجات المشاعر) على نظام ملفات موزع ، مما يجعل هذه العملية التحليلية سهلة التنفيذ.

نماذج البناء

غالبًا ما يكون التحدي هو بناء نماذج دقيقة للبيانات المخزنة في نظام ملفات موزع بسرعة.

هناك تطبيقات لتقليل الخرائط لمختلف خوارزميات استخراج البيانات / التحليلات التنبؤية المناسبة للمعالجة المتوازية واسعة النطاق للبيانات في نظام الملفات الموزع (والتي يمكن دعمها باستخدام النظام الأساسي إحصائياتستاتسوفت).

ومع ذلك ، بالتحديد لأنك عالجت كمية كبيرة جدًا من البيانات ، هل أنت متأكد من أن النموذج الناتج هو في الواقع أكثر دقة؟

في الواقع ، من الأكثر ملاءمة إنشاء نماذج لأجزاء البيانات الصغيرة في نظام الملفات الموزع.

كما جاء في تقرير حديث من Forrester: "اثنان زائد اثنان يساوي 3.9 ، وهو عادة ما يكون جيدًا بما يكفي" (هوبكنز وإيفلسون ، 2011).

تكمن الدقة الإحصائية والرياضية في حقيقة أن نموذج الانحدار الخطي ، بما في ذلك ، على سبيل المثال ، 10 تنبؤات تستند إلى تقييم جيد عينة الاحتماليةمن 100000 ملاحظة ستكون دقيقة مثل نموذج مبني من 100 مليون ملاحظة.

(حرفياً - البيانات الكبيرة)؟ لنلقِ نظرة على قاموس أكسفورد أولاً:

بيانات- الكميات أو الأحرف أو الرموز التي يتم تشغيلها بواسطة الكمبيوتر والتي يمكن تخزينها ونقلها في شكل إشارات كهربائية مسجلة على وسائط مغناطيسية أو بصرية أو ميكانيكية.

شرط البيانات الكبيرةتستخدم لوصف مجموعة بيانات كبيرة ومتنامية باطراد. لمعالجة هذا القدر من البيانات ، لا غنى عن التعلم الآلي.

الفوائد التي توفرها البيانات الضخمة:

  1. جمع البيانات من مصادر مختلفة.
  2. تحسين العمليات التجارية من خلال التحليلات في الوقت الحقيقي.
  3. تخزين كمية هائلة من البيانات.
  4. أفكار. البيانات الضخمة هي أكثر ثاقبة للمعلومات المخفية من خلال البيانات المنظمة وشبه المنظمة.
  5. تساعد البيانات الضخمة في تقليل المخاطر واتخاذ قرارات أكثر ذكاءً باستخدام تحليلات المخاطر الصحيحة

أمثلة على البيانات الضخمة

بورصة نيويوركيولد يوميا 1 تيرابايتبيانات التداول للجلسة السابقة.

وسائل التواصل الاجتماعي: تشير الإحصائيات إلى أن قواعد بيانات Facebook يتم تحميلها يوميًا 500 تيرابايتيتم إنشاء البيانات الجديدة بشكل أساسي بسبب تحميل الصور ومقاطع الفيديو على خوادم الشبكات الاجتماعية والرسائل والتعليقات أسفل المنشورات وما إلى ذلك.

محرك نفاثيولد 10 تيرابايتالبيانات كل 30 دقيقة أثناء الرحلة. نظرًا لأن آلاف الرحلات يتم إجراؤها يوميًا ، فإن حجم البيانات يصل إلى بيتابايت.

تصنيف البيانات الضخمة

نماذج البيانات الضخمة:

  • منظم
  • غير منظم
  • شبه منظم

شكل منظم

تسمى البيانات التي يمكن تخزينها والوصول إليها ومعالجتها بتنسيق ثابت البيانات المنظمة. على مدى فترة طويلة ، خطت علوم الكمبيوتر خطوات كبيرة في تحسين تقنيات العمل مع هذا النوع من البيانات (حيث يُعرف التنسيق مسبقًا) وتعلم جني الفوائد. ومع ذلك ، توجد اليوم بالفعل مشاكل مرتبطة بنمو الأحجام إلى أحجام مقاسة في نطاق عدة زيتابايت.

1 زيتابايت يساوي مليار تيرابايت

بالنظر إلى هذه الأرقام ، من السهل الاقتناع بصحة مصطلح البيانات الضخمة والصعوبات المرتبطة بمعالجة هذه البيانات وتخزينها.

يتم تنظيم البيانات المخزنة في قاعدة بيانات علائقية وتشبه ، على سبيل المثال ، جداول موظفي الشركة

شكل غير منظم

يتم تصنيف البيانات ذات البنية غير المعروفة على أنها غير منظمة. بالإضافة إلى حجمه الكبير ، يتميز هذا النموذج بعدد من الصعوبات في معالجة واستخراج المعلومات المفيدة. مثال نموذجي للبيانات غير المهيكلة هو مصدر غير متجانس يحتوي على مجموعة من الملفات النصية البسيطة والصور ومقاطع الفيديو. تتمتع المنظمات اليوم بإمكانية الوصول إلى كمية كبيرة من البيانات الأولية أو غير المهيكلة ، ولكنها لا تعرف كيفية الاستفادة منها.

شكل شبه منظم

تحتوي هذه الفئة على كلاً مما ورد أعلاه ، لذا فإن البيانات شبه المنظمة لها شكل ما ، ولكن لا يتم تعريفها بالفعل بواسطة الجداول في قواعد البيانات العلائقية. مثال على هذه الفئة هو البيانات الشخصية المقدمة في ملف XML.

براشانت راوذكر35 سيما ر.أنثى41 بدة ساتيشذكر29 سوبراتو رويذكر26 إرميا ج.ذكر35

خصائص البيانات الضخمة

نمو البيانات الضخمة بمرور الوقت:

يمثل اللون الأزرق البيانات المنظمة (بيانات المؤسسة) ، والتي يتم تخزينها في قواعد البيانات العلائقية. بألوان أخرى - البيانات غير المهيكلة من مصادر مختلفة (الاتصالات الهاتفية عبر بروتوكول الإنترنت والأجهزة وأجهزة الاستشعار والشبكات الاجتماعية وتطبيقات الويب).

وفقًا لـ Gartner ، تختلف البيانات الضخمة من حيث الحجم ومعدل التوليد والتنوع والتقلب. دعنا نفكر في هذه الخصائص بمزيد من التفصيل.

  1. مقدار. في حد ذاته ، يرتبط مصطلح البيانات الضخمة بالحجم الكبير. حجم البيانات هو أهم مؤشر في تحديد القيمة الممكن استردادها. كل يوم ، يستخدم 6 ملايين شخص الوسائط الرقمية ، والتي تولد ما يقدر بـ 2.5 كوينتيليون بايت من البيانات. لذلك ، الحجم هو الخاصية الأولى التي يجب مراعاتها.
  2. تنوعهو الجانب التالي. يشير إلى المصادر غير المتجانسة وطبيعة البيانات ، والتي يمكن أن تكون إما منظمة أو غير منظمة. في السابق ، كانت جداول البيانات وقواعد البيانات هي المصادر الوحيدة للمعلومات التي تم أخذها في الاعتبار في معظم التطبيقات. اليوم ، البيانات في شكل رسائل بريد إلكتروني ، صور ، فيديوهات ، ملفات PDF، يعتبر الصوت أيضًا في التطبيقات التحليلية. تؤدي هذه المجموعة المتنوعة من البيانات غير المهيكلة إلى مشاكل في التخزين والتعدين والتحليل: 27٪ من الشركات غير متأكدة من أنها تعمل بالبيانات الصحيحة.
  3. معدل التوليد. مدى سرعة تجميع البيانات ومعالجتها لتلبية المتطلبات يحدد الإمكانات. تحدد السرعة سرعة تدفق المعلومات من المصادر - العمليات التجارية ، وسجلات التطبيقات ، والشبكات الاجتماعية ومواقع الوسائط ، وأجهزة الاستشعار ، والأجهزة المحمولة. تدفق البيانات ضخم ومستمر في الوقت المناسب.
  4. تقلبيصف تباين البيانات في بعض النقاط الزمنية ، مما يعقد المعالجة والإدارة. على سبيل المثال ، معظم البيانات غير منظمة بطبيعتها.

تحليلات البيانات الضخمة: ما هو استخدام البيانات الضخمة

الترويج للسلع والخدمات: الوصول إلى البيانات من محركات البحث والمواقع مثل Facebook و Twitter يسمح للشركات بتطوير استراتيجيات التسويق بشكل أكثر دقة.

تحسين خدمة العملاء: يتم استبدال أنظمة ملاحظات العملاء التقليدية بأنظمة جديدة تستخدم البيانات الضخمة ومعالجة اللغة الطبيعية لقراءة وتقييم آراء العملاء.

حساب المخاطرالمرتبطة بإصدار منتج أو خدمة جديدة.

كفاءة العملية: يتم تنظيم البيانات الضخمة لاستخراج المعلومات الصحيحة بشكل أسرع وتحقيق نتائج دقيقة بسرعة. يساعد هذا المزيج من تقنيات البيانات الضخمة والتخزين المؤسسات على تحسين العمل باستخدام المعلومات التي نادرًا ما تستخدم.

البيانات الضخمة هو مصطلح واسع للاستراتيجيات والتقنيات المبتكرة المطلوبة لجمع وتنظيم ومعالجة المعلومات من مجموعات البيانات الكبيرة. على الرغم من أن مشكلة العمل مع البيانات تتجاوز القدرة الحاسوبيةأو أن سعة التخزين لجهاز كمبيوتر واحد ليست جديدة ، فقد توسع نطاق وقيمة هذا النوع من الحوسبة بشكل كبير في السنوات الأخيرة.

في هذه المقالة ، ستجد المفاهيم الأساسية التي قد تصادفك عند استكشاف البيانات الضخمة. كما يناقش بعض العمليات والتقنيات المستخدمة حاليًا في هذا المجال.

ما هي البيانات الضخمة؟

يصعب تحديد تعريف دقيق لـ "البيانات الضخمة" لأن المشاريع والبائعين والممارسين والمتخصصين في الأعمال يستخدمونها بطرق مختلفة تمامًا. مع وضع ذلك في الاعتبار ، يمكن تعريف البيانات الضخمة على النحو التالي:

  • مجموعات البيانات الكبيرة.
  • فئة من الاستراتيجيات والتقنيات الحاسوبية المستخدمة في معالجة مجموعات البيانات الكبيرة.

في هذا السياق ، تعني "مجموعة البيانات الكبيرة" مجموعة بيانات كبيرة جدًا بحيث لا يمكن معالجتها أو تخزينها باستخدام الأدوات التقليدية أو على جهاز كمبيوتر واحد. هذا يعني أن الحجم الإجمالي لمجموعات البيانات الكبيرة يتغير باستمرار ويمكن أن يختلف بشكل كبير من حالة إلى أخرى.

أنظمة البيانات الضخمة

المتطلبات الأساسية للعمل مع البيانات الضخمة هي نفسها لأي مجموعة بيانات أخرى. ومع ذلك ، فإن النطاق الهائل وسرعة المعالجة وخصائص البيانات التي تمت مواجهتها في كل خطوة من العملية تمثل تحديات جديدة خطيرة في تطوير الأداة. الهدف من معظم أنظمة البيانات الضخمة هو فهم كميات كبيرة من البيانات غير المتجانسة والتواصل معها بطريقة لن تكون ممكنة باستخدام الطرق التقليدية.

في عام 2001 ، قدم دوج لاني من شركة Gartner "ثلاثة مقابل للبيانات الضخمة" لوصف بعض الخصائص التي تجعل معالجة البيانات الضخمة مختلفة عن الأنواع الأخرى من معالجة البيانات:

  1. الحجم (حجم البيانات).
  2. السرعة (سرعة تجميع البيانات ومعالجتها).
  3. التنوع (أنواع مختلفة من البيانات المعالجة).

حجم البيانات

يساعد الحجم الاستثنائي للمعلومات التي تتم معالجتها على تحديد أنظمة البيانات الضخمة. يمكن أن تكون مجموعات البيانات هذه أكبر بكثير من مجموعات البيانات التقليدية ، مما يتطلب مزيدًا من الاهتمام في كل مرحلة من مراحل المعالجة والتخزين.

نظرًا لأن المتطلبات تتجاوز سعة جهاز كمبيوتر واحد ، غالبًا ما تنشأ مشكلة تجميع الموارد من مجموعات أجهزة الكمبيوتر وتوزيعها وتنسيقها. أصبحت إدارة المجموعات والخوارزميات القادرة على تقسيم المهام إلى أجزاء أصغر ذات أهمية متزايدة في هذا المجال.

سرعة التراكم والمعالجة

السمة الثانية التي تميز البيانات الضخمة بشكل كبير عن أنظمة البيانات الأخرى هي السرعة التي تنتقل بها المعلومات عبر النظام. غالبًا ما تدخل البيانات إلى النظام من مصادر متعددة ويجب معالجتها في الوقت الفعلي لتحديث الحالة الحالية للنظام.

أدى هذا التركيز على التغذية الراجعة الفورية إلى قيام العديد من الممارسين بالتخلي عن النهج الموجه نحو الدُفعات لصالح نظام دفق في الوقت الفعلي. تتم إضافة البيانات ومعالجتها وتحليلها باستمرار لمواكبة تدفق المعلومات الجديدة والحصول على بيانات قيمة في مرحلة مبكرة عندما تكون أكثر صلة. يتطلب ذلك أنظمة قوية ذات مكونات عالية التوفر للحماية من الأعطال على طول خط أنابيب البيانات.

مجموعة متنوعة من أنواع البيانات المعالجة

تواجه البيانات الضخمة العديد من التحديات الفريدة المتعلقة بمجموعة واسعة من المصادر التي تمت معالجتها وجودتها النسبية.

يمكن أن تأتي البيانات من الأنظمة الداخلية، مثل سجلات التطبيق والخادم ، وموجزات الوسائط الاجتماعية وواجهات برمجة التطبيقات الخارجية الأخرى ، وأجهزة استشعار الأجهزة المادية ، ومصادر أخرى. الهدف من أنظمة البيانات الضخمة هو معالجة البيانات المفيدة المحتملة ، بغض النظر عن الأصل ، من خلال دمج جميع المعلومات في نظام واحد.

يمكن أيضًا أن تختلف تنسيقات وأنواع الوسائط بشكل كبير. يتم دمج ملفات الوسائط (الصور والفيديو والصوت) مع الملفات النصية والسجلات المهيكلة وما إلى ذلك. تتوقع المزيد من أنظمة معالجة البيانات التقليدية أن تدخل البيانات في خط الأنابيب الذي تم تسميته بالفعل وتنسيقه وتنظيمه ، ولكن أنظمة البيانات الضخمة عادةً ما تستقبل البيانات وتخزنها ، تحاول إنقاذهم الحالة الأولية. من الناحية المثالية ، ستحدث أي تحويلات أو تعديلات على البيانات الأولية في الذاكرة أثناء المعالجة.

مميزات وخصائص اخرى

بمرور الوقت ، اقترح الأفراد والمؤسسات توسيع "الثلاثة مقابل" الأصلية ، على الرغم من أن هذه الابتكارات تميل إلى وصف المشكلات بدلاً من وصف خصائص البيانات الضخمة.

  • الصدق: يمكن أن يؤدي تنوع المصادر وتعقيد المعالجة إلى مشاكل في تقييم جودة البيانات (وبالتالي جودة التحليل الناتج).
  • التباين (تباين البيانات): يؤدي تغيير البيانات إلى تغييرات واسعة في الجودة. قد يتطلب تحديد البيانات منخفضة الجودة أو معالجتها أو تصفيتها موارد إضافية لتحسين جودة البيانات.
  • القيمة: الهدف النهائي للبيانات الضخمة هو القيمة. في بعض الأحيان تكون الأنظمة والعمليات معقدة للغاية ، مما يجعل من الصعب استخدام البيانات واستخراج القيم الفعلية.

دورة حياة البيانات الضخمة

إذن كيف يتم التعامل مع البيانات الضخمة بالفعل؟ هناك العديد من مناهج التنفيذ المختلفة ، ولكن هناك قواسم مشتركة بين الاستراتيجيات والبرامج.

  • إدخال البيانات في النظام
  • حفظ البيانات في التخزين
  • حساب وتحليل البيانات
  • تصور النتائج

قبل النظر في هذه الفئات الأربع من مهام سير العمل بالتفصيل ، دعنا نتحدث عن الحوسبة العنقودية ، وهي استراتيجية مهمة تستخدمها العديد من أدوات معالجة البيانات الضخمة. يعد إنشاء مجموعة الحوسبة العمود الفقري للتقنية المستخدمة في كل مرحلة من مراحل دورة الحياة.

الحوسبة العنقودية

نظرًا لجودة البيانات الضخمة ، فإن أجهزة الكمبيوتر الفردية ليست مناسبة لمعالجة البيانات. تعتبر المجموعات أكثر ملاءمة لذلك ، حيث يمكنها التعامل مع احتياجات التخزين والحوسبة للبيانات الضخمة.

تجمع برامج تجميع البيانات الضخمة موارد العديد من الأجهزة الصغيرة ، بهدف توفير عدد من الفوائد:

  • تجميع الموارد: تتطلب معالجة مجموعات البيانات الكبيرة قدرًا كبيرًا من موارد وحدة المعالجة المركزية والذاكرة ، بالإضافة إلى الكثير من مساحة التخزين المتاحة.
  • توفر عالي: يمكن أن توفر المجموعات مستويات مختلفةالتسامح مع الخطأ والتوافر ، بحيث لا تؤثر أعطال الأجهزة أو البرامج على الوصول إلى البيانات ومعالجتها. هذا مهم بشكل خاص للتحليلات في الوقت الحقيقي.
  • قابلية التوسع: تدعم المجموعات التحجيم الأفقي السريع (إضافة آلات جديدة إلى الكتلة).

للعمل في نظام مجموعة ، تحتاج إلى أدوات لإدارة عضوية الكتلة وتنسيق تخصيص الموارد وتخطيط العمل مع العقد الفردية. يمكن التعامل مع عضوية الكتلة وتخصيص الموارد من خلال برامج مثل Hadoop YARN (مع ذلك مفاوض موارد آخر) أو Apache Mesos.

غالبًا ما تعمل مجموعة الحوسبة الجاهزة بمثابة العمود الفقري الذي يتفاعل معه البرامج الأخرى لمعالجة البيانات. عادةً ما ترتبط الأجهزة المشاركة في مجموعة الحوسبة بإدارة التخزين الموزع.

الحصول على البيانات

استيعاب البيانات هو عملية إضافة بيانات أولية إلى النظام. يعتمد تعقيد هذه العملية إلى حد كبير على تنسيق وجودة مصادر البيانات وعلى كيفية تلبية البيانات لمتطلبات المعالجة.

يمكنك إضافة البيانات الضخمة إلى النظام باستخدام أدوات خاصة. يمكن لتقنيات مثل Apache Sqoop أخذ البيانات الموجودة من قواعد البيانات العلائقية وإضافتها إلى نظام البيانات الضخمة. يمكنك أيضًا استخدام Apache Flume و Apache Chukwa - وهي مشروعات مصممة لتجميع سجلات التطبيق والخادم واستيرادها. يمكن استخدام وسطاء الرسائل مثل Apache Kafka كواجهة بين مولدات البيانات المختلفة ونظام البيانات الضخمة. يمكن لأطر مثل Gobblin دمج وتحسين إخراج جميع الأدوات في نهاية خط الأنابيب.

أثناء استيعاب البيانات ، يتم عادةً إجراء التحليل والفرز والتوسيم. يشار إلى هذه العملية أحيانًا باسم ETL (استخراج وتحويل وتحميل) ، مما يعني الاستخراج والتحويل والتحميل. بينما يشير المصطلح عادةً إلى عمليات التخزين القديمة ، فإنه يتم تطبيقه أحيانًا على أنظمة البيانات الضخمة أيضًا. تشمل العمليات النموذجية تعديل البيانات الواردة من أجل التنسيق ، والتصنيف ، ووضع العلامات ، والتصفية أو التحقق من صحة البيانات.

من الناحية المثالية ، تخضع البيانات الواردة إلى الحد الأدنى من التنسيق.

مخزن البيانات

بمجرد استلامها ، تنتقل البيانات إلى المكونات التي تدير التخزين.

عادةً ما يتم استخدام أنظمة الملفات الموزعة لتخزين البيانات الأولية. تسمح لك الحلول مثل HDFS من Apache Hadoop بكتابة كميات كبيرة من البيانات إلى عقد متعددة في مجموعة. يوفر هذا النظام موارد الحساب مع الوصول إلى البيانات ، ويمكن تحميل البيانات في مجموعة ذاكرة الوصول العشوائي لعمليات الذاكرة ، ومعالجة فشل المكونات. يمكن استخدام أنظمة الملفات الموزعة الأخرى بدلاً من HDFS ، بما في ذلك Ceph و GlusterFS.

يمكن أيضًا استيراد البيانات إلى أخرى الانظمة الموزعةلمزيد من الوصول المنظم. تعد قواعد البيانات الموزعة ، وخاصة قواعد بيانات NoSQL ، مناسبة تمامًا لهذا الدور لأنها تستطيع التعامل مع البيانات غير المتجانسة. هناك العديد من أنواع مختلفةقواعد البيانات الموزعة ، يعتمد الاختيار على الطريقة التي تريد بها تنظيم البيانات وتقديمها.

حساب وتحليل البيانات

بمجرد توفر البيانات ، يمكن للنظام بدء المعالجة. ربما يكون المستوى الحسابي هو الجزء الأكثر حرية في النظام ، نظرًا لأن المتطلبات والأساليب هنا يمكن أن تختلف اختلافًا كبيرًا اعتمادًا على نوع المعلومات. غالبًا ما تتم إعادة معالجة البيانات ، إما باستخدام أداة واحدة أو باستخدام مجموعة من الأدوات لمعالجة أنواع مختلفة من البيانات.

تعد المعالجة الدفعية إحدى طرق الحساب في مجموعات البيانات الكبيرة. تتضمن هذه العملية تقسيم البيانات إلى أجزاء أصغر ، وجدولة كل قطعة لتتم معالجتها على جهاز منفصل ، وإعادة ترتيب البيانات بناءً على النتائج الوسيطة ، ثم حساب النتيجة النهائية وجمعها. تستخدم هذه الإستراتيجية MapReduce من Apache Hadoop. تعد المعالجة المجمعة مفيدة للغاية عند العمل مع مجموعات البيانات الكبيرة جدًا التي تتطلب قدرًا كبيرًا من الحساب.

تتطلب أعباء العمل الأخرى معالجة في الوقت الفعلي. في الوقت نفسه ، يجب معالجة المعلومات وإعدادها على الفور ، ويجب أن يستجيب النظام في الوقت المناسب عندما تتوفر معلومات جديدة. تتمثل إحدى طرق تنفيذ المعالجة في الوقت الفعلي في معالجة دفق مستمر من البيانات يتكون من العناصر الفردية. من الخصائص الشائعة الأخرى للمعالجات في الوقت الفعلي أنها تحسب البيانات الموجودة في ذاكرة المجموعة ، مما يتجنب الحاجة إلى الكتابة على القرص.

تقدم Apache Storm و Apache Flink و Apache Spark طرقًا مختلفة لتنفيذ المعالجة في الوقت الفعلي. تتيح لك هذه التقنيات المرنة اختيار أفضل نهج لكل مشكلة على حدة. بشكل عام ، تعد المعالجة في الوقت الفعلي هي الأنسب لتحليل أجزاء صغيرة من البيانات التي تتغير أو تتم إضافتها بسرعة إلى النظام.

كل هذه البرامج هي أطر عمل. ومع ذلك ، هناك العديد من الطرق الأخرى لحساب البيانات أو تحليلها في نظام البيانات الضخمة. غالبًا ما يتم توصيل هذه الأدوات بالأطر المذكورة أعلاه وتوفر واجهات إضافية للتفاعل مع الطبقات الأساسية. على سبيل المثال ، توفر Apache Hive واجهة مستودع بيانات لـ Hadoop ، وتوفر Apache Pig واجهة استعلام وتفاعلات مع بيانات SQLمزود بـ Apache Drill و Apache Impala و Apache Spark SQL و Presto. يستخدم التعلم الآلي Apache SystemML و Apache Mahout و MLlib من Apache Spark. بالنسبة للبرمجة التحليلية المباشرة ، المدعومة على نطاق واسع من قبل النظام البيئي للبيانات ، يتم استخدام R و Python.

تصور النتائج

غالبًا ما يكون التعرف على الاتجاهات أو التغييرات في البيانات بمرور الوقت أكثر أهمية من القيم التي تم الحصول عليها. تصور البيانات هو واحد من أكثر طرق مفيدةتحديد الاتجاهات وتنظيم عدد كبير من نقاط البيانات.

تُستخدم المعالجة في الوقت الفعلي لتصور مقاييس التطبيق والخادم. تتغير البيانات بشكل متكرر ، وعادة ما تشير الفروق الكبيرة في المقاييس إلى تأثير كبير على صحة الأنظمة أو المنظمات. يمكن استخدام مشاريع مثل Prometheus لمعالجة تدفقات البيانات والسلاسل الزمنية وتصور هذه المعلومات.

إحدى الطرق الشائعة لتصور البيانات هي Elastic stack ، المعروف سابقًا باسم مكدس ELK. يستخدم Logstash لجمع البيانات ، Elasticsearch لفهرسة البيانات ، و Kibana للتصور. يمكن أن تعمل الحزمة المرنة مع البيانات الضخمة ، أو تصور نتائج العمليات الحسابية ، أو تتفاعل مع المقاييس الأولية. يمكن الحصول على مكدس مماثل عن طريق دمج Apache Solr لفهرسة شوكة Kibana تسمى Banana للتصور. مثل هذا المكدس يسمى الحرير.

المستندات هي تقنية تصور أخرى لعمل البيانات التفاعلية. تتيح هذه المشاريع الاستكشاف التفاعلي وتصور البيانات بتنسيق يسهل مشاركته وتقديمه. من الأمثلة الشائعة على هذا النوع من الواجهات Jupyter Notebook و Apache Zeppelin.

مسرد البيانات الضخمة

  • البيانات الضخمة هي مصطلح واسع لمجموعات البيانات التي لا يمكن معالجتها بشكل صحيح. أجهزة الكمبيوتر التقليديةأو الأدوات بسبب حجمها وسرعة توصيلها وتنوعها. يتم تطبيق المصطلح أيضًا بشكل شائع على التقنيات والاستراتيجيات للتعامل مع مثل هذه البيانات.
  • معالجة الدُفعات هي استراتيجية حسابية تتضمن معالجة البيانات في مجموعات كبيرة. عادة ما تكون هذه الطريقة مثالية للتعامل مع البيانات غير العاجلة.
  • الحوسبة العنقودية هي ممارسة تجميع موارد أجهزة متعددة وإدارة قدراتها المشتركة لأداء المهام. يتطلب هذا طبقة إدارة الكتلة التي تتعامل مع الاتصال بين العقد الفردية.
  • بحيرة البيانات هي مستودع كبير للبيانات التي تم جمعها في حالة خام نسبيًا. غالبًا ما يستخدم المصطلح للإشارة إلى البيانات الضخمة غير المهيكلة والمتغيرة بشكل متكرر.
  • التنقيب في البيانات هو مصطلح واسع للممارسات المختلفة للعثور على الأنماط في مجموعات البيانات الكبيرة. إنها محاولة لتنظيم كتلة من البيانات في مجموعة معلومات أكثر قابلية للفهم وتماسكًا.
  • مستودع البيانات هو مستودع كبير ومنظم للتحليل وإعداد التقارير. بخلاف بحيرة البيانات ، يتكون المستودع من بيانات منسقة ومنظمة جيدًا تتكامل مع مصادر أخرى. غالبًا ما تتم الإشارة إلى مستودعات البيانات فيما يتعلق بالبيانات الضخمة ، ولكنها غالبًا ما تكون مكونات لأنظمة معالجة البيانات التقليدية.
  • ETL (استخراج وتحويل وتحميل) - استخراج وتحويل وتحميل البيانات. هكذا تبدو عملية الحصول على البيانات الأولية وإعدادها للاستخدام. يرتبط بمخازن البيانات ، ولكن توجد خصائص هذه العملية أيضًا في خطوط أنابيب أنظمة البيانات الضخمة.
  • Hadoop هو مشروع Apache مفتوح المصدر للبيانات الضخمة. وهو يتألف من نظام ملفات موزع يسمى HDFS وجداول مجموعة وموارد يسمى YARN. يتم توفير إمكانيات المعالجة المجمعة بواسطة محرك حساب MapReduce. باستخدام MapReduce ، يمكن لعمليات نشر Hadoop الحديثة تشغيل أنظمة الحوسبة والتحليلات الأخرى.
  • الحوسبة في الذاكرة هي استراتيجية تتضمن نقل مجموعات البيانات العاملة بالكامل إلى ذاكرة المجموعة. لا تتم كتابة العمليات الحسابية الوسيطة على القرص ، بل يتم تخزينها في الذاكرة. يمنح هذا الأنظمة ميزة سرعة هائلة على الأنظمة المرتبطة بالإدخال / الإخراج.
  • التعلم الآلي هو دراسة وممارسة تصميم الأنظمة التي يمكنها التعلم والضبط والتحسين بناءً على البيانات التي يتم تغذيتها. عادة ، هذا يعني تنفيذ الخوارزميات التنبؤية والإحصائية.
  • تقليل الخريطة (يجب عدم الخلط بينه وبين MapReduce Hadoop) هو خوارزمية جدولة مجموعة الحوسبة. تتضمن العملية تقسيم المهمة بين العقد والحصول على نتائج وسيطة ، وخلط ثم إخراج قيمة واحدة لكل مجموعة.
  • NoSQL هو مصطلح واسع لقواعد البيانات المصممة خارج النموذج العلائقي التقليدي. قواعد بيانات NoSQL مناسبة تمامًا للبيانات الضخمة نظرًا لمرونتها وبنيتها الموزعة.
  • التدفق هو ممارسة حساب العناصر الفردية للبيانات أثناء انتقالها عبر النظام. يسمح ذلك بتحليل البيانات في الوقت الفعلي وهو مناسب لمعالجة المعاملات ذات الأهمية الزمنية باستخدام مقاييس عالية السرعة.
العلامات: ،