✨ مرحباً في مدونتنا ✨

مقدمة في تحليل البيانات📉🔎


"البيانات نفط المستقبل" تتكرر هذه العبارة على مسامعنا بشكل دائم، مؤكدةً على أهميتها للاقتصاد الرقمي بمثابة الشريان الحيوي له ، فمن الفرد والمنشآت الصغيرة إلى مجالس إدارة الشركات وأروقة المؤسسات الحكومية، تلعب البيانات دورًا رئيسيًا في عملية إتخاذ القرارات والتنبؤ بمآلات الأمور، ولذلك سنتطرق في هذا المقال إلى مقدمة عن تحليل البيانات ابتداءً من أشكالها:


قد تأتي البيانات نصيةً أو مرئية أو حتى مسموعة من مصادر مختلفة مثل وسائل التواصل الاجتماعي، وتصنف إلى:

١. بيانات منظمة: يمكن عرضها على شكل أعمدة وصفوف.

٢. بيانات غير منظمة: لا يمكن عرضها على شكل أعمدة وصفوف كالصور وغيرها.


خطوات تحليل البيانات:

وهي عملية مكونة من عدة خطوات لاستخلاص أكبر قدر ممكن من الفائدة ، ولا تعد خطية بل يمكن لمحلل البيانات الانتقال بحرية بين الخطوات كلما دعت الحاجة إلى ذلك . 

تبدأ العملية بخطوة الاستيعاب (ingestion) وفيها يتم تحديد نوع البيانات المرادة وجمعها من مصادر متنوعة  وتوجد العديد من التقنيات المساعدة من (Google) سواءً كانت البيانات على شكل حزم أو تيارات ومنها أداة (pub/sub)  لاستيعاب البيانات وتحليلها. 

تليها خطوة المعالجة (processing) وفيها يتم تنقية البيانات من العيوب كالتكرار والقيم الفارغة، ومن الأدوات المساعدة المقدمة من (Google).

 (Dataproc) والذي يقوم بمعالجة حزم البيانات، و (Dataflow) لمعالجة تيارات البيانات، و (Cloud Data Fusion)  لدمج البيانات من مصادر متعددة. 

بعد استيعاب البيانات ومعالجتها تأتي خطوة التخزين وفيها يتم حفظ البيانات بشكل آمن ولـ(Google Cloud)حلول مختلفة حسب الحاجة منها :

١. مستودع البيانات(BigQuery).

٢. البيانات العلاقية(Cloud SQL , Cloud Spanner).

٣. قاعدتا البيانات(Firestore,Bigtable).

٤. حل مستودع البيانات(Data werehouse).

٥. AlloyDb.

عند الإنتهاء من تخزين البيانات تبدأ مرحلة تحليلها, معتمدةً على ال(BigQuery) وهو عبارة عن مستودع بيانات مرن وآمن يعمل عبر السحابات ويحلل البيانات عن طريق أوامر ال(SQL) كما أنه يمكن نمذجتها باستخدام (Looker , Looker Studio) .

تفعيل البيانات وتعتبر المفتاح الأساسي لتعلم الآلة ويعد (vertex AI) المنتج الأم لتضمنه على : (AutoMl , Vertex AI Workbench , TensorFlow) إلا أنه لا يمكن استخدامه بفعالية إذا كانت البيانات قليلة.


مصادر البيانات:

وهي موصلات تتيح لك الاستعلام عن البيانات من مصادر مختلفة ويمكن تصنيف مصادر بيانات (Google Cloud) إلى فئتين :

١. مصادر البيانات السحابية المخزنة في (Google Cloud).

٢. مصادر البيانات الخارجية والتي يمكن تخزينها في مزود سحابي آخر. 


لماذا نستخدم مصادر بيانات (Google Cloud) ؟

١.تمنح مصادر بيانات Cloud Google وصولًا مركزياً إلى البيانات، مما يسهل العثور عليها وتحليلها. 

٢.تساعد مصادر بيانات Cloud Google  على دمج البيانات من مصادر مختلفة.

٣.يمكن استخدامها لتحليل البيانات ونمذجتها، للتوصل إلى قرارات أفضل.


قواعد البيانات :

تنقسم قواعد البيانات إلى عدة أشكال منها :

١. قواعد البيانات الترابطية: هي مجموعة منظمة من البيانات مخزنة على هيئة جداول ويتم الوصول إليها إلكترونياً .وتتكون من جداول ذات صفوف وأعمدة، بحيث تمثل الصفوف قيم البيانات أما الأعمدة فتمثل الخصائص والسمات وتعد قواعد البيانات الترابطية الأكثر شيوعًا واستخدامًا ويتم الاستعلام عن البيانات باستخدام لغة الاستعلام الهيكلية SQL.


تلعب قواعد البيانات الترابطية دورًا هامًا في إدارة البيانات لعدة أسباب منها:

𐏓 اتساق البيانات وتكاملها: ويشير اتساق البيانات إلى ضمان بقاء البيانات دقيقة وحديثة. 

𐏓 سهولة استرجاع البيانات ومعالجتها: تتيح لنا لغة الاستعلام الهيكلية (SQL) اضافة، حذف، استرجاع، وتحديث البيانات وغيرها بسلاسة.  

𐏓 فرض قيود السلامة: تفرض قواعد البيانات الترابطية قيود لضمان سلامة البيانات كالتحكم في الوصول إليها (فقط المخول لهم يستطيعون الوصول إلى المعلومات الحساسة لتعديلها أو حذفها). 

يوفر (Google Cloud) منصات لتخزين وإدارة قواعد البيانات بطريقة ترابطية منها:

Cloud SQL  

Cloud Spanner  

 AlloyDB


٢. قواعد البیانات غیر الترابطیة NoSQL:

یعد عصر الإنترنت الحالي قائماً على البیانات، حیث یعتبر إنتاج البیانات حالياً أكبر وأسرع مما كان علیه من قبل، وقد بدأت المؤسسات بتجميع البيانات بأشكال مختلفة، حيث كانت البيانات في الماضي تقتصر على النصوص والأرقام، أما الآن مع دخول مواقع التواصل الاجتماعي ظهرت أنواع أخرى من البيانات مثل الصور ومقاطع الفيديو، ولم يعد بإمكان قواعد البیانات الترابطیة التعامل مع سرعة وحجم وتنوع هذه البیانات، مما أدى إلى ظهور قواعد البيانات غير الترابطية.

لا تخزن قواعد البيانات غير الترابطية (NoSQL) البيانات على هيئة جداول، حيث بنيت لتخزین أنواع البیانات غیر الهیكلیة مثل: تیارات الأحداث (ِEvent streams)، ومقاطع الفیدیو، والمستندات النصیة، وتتبين فائدتها عندما نواجه صعوبة في تحدید أو معرفة البیانات التي نحتاج لتخزینها, إذ إنها مرنة  في تخزين البيانات المختلفة.

أنواع قواعد البیانات غیر الترابطیة:

𐏓 مخازن المفاتيح ذات قيمة: 

یتم تخزین البیانات على هیئة أزواج من المفاتیح والقیم المتعلقة بها, وتعد وسيلة فعالة لإسترجاع البيانات، ویتم استخدام هذي المخازن لتخزین بیانات الجلسة.

𐏓 قواعد البیانات للمستندات النصية: 

تخزّن النصوص كما هي علیه، ویتم ترجمة المستند من نسخته النصیة أو وثيقة (PDF) إلى لغة مقروءة للآلة مثل: JSON, BSON, XML، وهو الخیار الأمثل لاستعادة البیانات من مجموعة كبیرة من النصوص، لكن لا یعد هذا النوع جيّد لتخزین العلاقات بین المستندات إن وجدت.

𐏓 قواعد البیانات للرسوم البیانیة: 

یتم استخدامها في المخططات الدینامیكیة، حیث لا حاجة لمعرفة شكل البيانات قبل البدء بتخزينها، على عكس قواعد البيانات المترابطة إذ يعتبرها ذا شرط أولي.

𐏓 مخازن الأعمدة الواسعة:

 قد تبدو مخازن الأعمدة الواسعة كالجداول في قواعد البیانات الترابطیة، لكن الاختلاف في أن جداول الأعمدة الواسعة تم تطویرها بطریقة تسمح للصف الواحد أن یحتوي على قیم مختلفة في العمود الواحد.

𐏓 مخازن البیانات Data Lakes:


ما هو مخزن البیانات (Data Lake)؟

یعتبر مخزن البیانات مستودعاً مركزیاً تم تصمیمه لتخزین، ومعالجة، وتأمین كمیات كبیرة من البیانات كما هي بتنسيقها الأصلي دون الاضطرار إلى هيكلتها ، بسعة تخزینیة كبیرة شبه غیر محدودة. 

 لبناء مؤسسات تتفوق على نظائرها في الأداء یجب أن تنجح أولاً في خلق قیمة أعمالها من بياناتها، ومخازن البیانات تعتبر أحد مفاتیح الوصول لهذا النجاح، حیث تقوم بتمكین المؤسسة على إجراء أنواع جديدة من التحليلات على بياناتها كالتعلم الآلي، والحصول على البيانات من مصادر متنوعة واسعة النطاق مثل: ملفات السجلات، ومواقع التواصل الاجتماعي والأجهزة المتصلة بالانترنت.

ماهي الخدمات التي تقدمها مخازن البیانات (Data Lake)؟

١. نقل البیانات:

تتیح مخازن البیانات إمكانیة استیراد أي قدر من البیانات من عدة مصادر ونقلها بتنسیقها الأصلي، وتتیح لك هذه العملیة إمكانیة التكیف من أجل البیانات بأي حجم مع توفیر وقت تعریف هياكل البیانات والمخطط والتحولات.

٢. تخزین البیانات وتصنيفها بأمان:

تتیح لك مخازن البیانات تخزین البیانات الترابطية وغیر الترابطية، وتمنحك القدرة على فهم طبیعة البیانات الموجودة في المخزن من خلال تتبع البیانات وتصنيفها وفهرستها، كما أنها تستطيع تأمین البیانات لضمان حمایة أصولها. 

𐏓 مستودع البيانات Warehouse Data:

 ما هو مستودع البيانات Warehouse Data ؟

هو نظام مؤسسي يستخدم لتحليل وإعداد تقارير البيانات للمؤسسة وشبه المؤسسة من مصادر متعددة. 

مثل معاملات نقاط البيع، وأتمتة التسويق، وإدارة علاقات العملاء، وأخرى. يعتبر مستودع البيانات مناسًبا للتحليل المخصص بالإضافة إلى إعداد التقارير المخصصة. يمكن لمستودع البيانات تخزين كل من البيانات الحالية والسابقة في مكان واحد، وهو مصمم لتوفير رؤية طويلة المدى للبيانات ، مع مرور الوقت أصبح أحد المكونات الأساسية في  ذكاء الأعمال.

 

لماذا نحتاج إلى مستودع البيانات Warehouse Data ؟

لتغذية التحليل الذكي للأعمال (BI) وإعداد التقارير والتحليلات ودعم المتطلبات التنظيمية لكي تتمكن المؤسسات من تحويل بياناتها إلى رؤى شاملة واتخاذ قرارات ذكية معتمدة على البيانات. تقوم مستودعات البيانات بتخزين البيانات الحالية والقديمة في مكان واحد وتعمل كمصدر واحد لبيانات المؤسسة.

ماهي الخدمات التي تقدمها مستودعات البيانات السحابية ؟

توفر مستودعات البيانات السحابية مجموعة من الحلول التي يمكن أن تفيد المؤسسات. 

ومن أكثر حالات استخدامها شيوعًا: 


اتخاذ قرارات فورية: تحليل البيانات في الوقت المناسب للتصدي للتحديات، وتحديد الفرص، وتحقيق الكفاءة، وتقليل التكاليف، والرد استباقًيا على أحداث الأعمال.

 

تجميع البيانات المعزولة: سحب البيانات بسرعة من مصادر هيكلية متعددة عبر المؤسسة، مثل أنظمة نقاط البيع، والمواقع الإلكترونية، وقوائم البريد الإلكتروني، وجمعها في مكان واحد .

تمكين إعداد التقارير التجارية والتحليلات الفورية: الاحتفاظ بالبيانات السابقة على خادم منفصل عن البيانات الحالية بحيث يمكن للمستخدمين النهائيين الوصول إليها وتشغيل استعلاماتهم وتقاريرهم الخاصة دون التأثير على أداء الأنظمة التشغيلية أو الانتظار للحصول على المساعدة من قبل قسم تكنولوجيا المعلومات. 

تنفيذ التعلم الآلي والذكاء الاصطناعي: جمع البيانات السابقة والحالية لتطوير خوارزميات يمكنها تقديم رؤى تنبؤية، مثل توقع ذروة حركة المرور أو اقتراح منتجات ذات صلة لزوار موقع الويب. في حين أن مخازن البيانات ومستودعات البيانات تقوم جميعها بتخزين البيانات بسعاتٍ مختلفة، إلا أنه تم تطويرها لاستخدامات مختلفة. تعتبر أدوات تكاملية وليست أدوات تنافسية وقد تحتاج المؤسسات إلى كليهما.  

 

الأدوات المستخدمة:

𐏓 أولًا (Looker):

تعد منصة لذكاء الأعمال واستكشاف البيانات، تمكن المؤسسات من الاستفادة الكاملة من إمكانيات بياناتها. ومن خلال انضمامها إلى ( Google Cloud)، قدمت (Looker) واجهة سهلة الاستخدام لتلبي احتياجات المستخدمين التقنيين وغير التقنيين لاستكشاف البيانات وتحليلها وتصويرها. 

قدمت أيضًا منصة مركزية لإنشاء  ومشاركة لوحات البيانات، مما يعزز التعاون بين الفِرَق .

تكمن قوة (Looker) في قدرتها على الاتصال بمصادر بيانات متنوعة، مما يمكن المستخدمين من استخراج رؤى من مجموعات البيانات. بفضل ميزات مثل وظيفة السحب والإفلات المباشر والطبقة النمطية القوية، يُسهل (Looker) عملية استخراج رؤى ذات مغزى، مما ييسر اتخاذ القرارات القائمة على البيانات للشركات بمختلف الأحكام. 

𐏓 ثانيًا (BigQuery):

يُعد (BigQuery) مستودع بيانات مُدار بالكامل من (Google)، مصمم لتخزين وتحليل كميات هائلة من البيانات كما أنه يوفر مجموعة واسعة من الميزات، منها:

إدارة البنية التحتية الأساسية: 

مصمم لتخزين وتحليل كميات هائلة من البيانات، مما يمكنه من إجراء استعلامات على تيرابايت من البيانات في ثوانِ  وعلى بيتابايت في دقائق. 

يعد محرك استعلام (SQL) سريع. 

لديه ميزات مدمجة في:


أولاً: التعلم الآلي والتي يمكن استخدامها لإنشاء نماذج تنبؤية وتحليلية.

ثانياً: التحليل الجغرافي. على سبيل المثال، تحليل البيانات الديموغرافية للمناطق المختلفة.

ثالثًا:  الذكاء الاصطناعي للأعمال والتي يمكن استخدامها لإنشاء تقارير وعروض توضيحية ً وتحليلات تفاعلية. تحليل بيانات الأعمال والويب وإنترنت الأشياء يمكن استخدامه لفهم سلوك العملاء وتحسين العمليات واتخاذ قرارات أفضل. 

 

ختامًا، بعد رحلة طويلة تطرقنا فيها  إلى أنواع البيانات، خطوات تحليلها، مصادرها، وطرق تخزينها، والأدوات المستخدمة بها ، يمكننا الجزم بأن البيانات تعد (نفط المستقبل).


المصـــــــادر:

🔗https://cloud.google.com/learn/what-is-a-data-warehouse

🔗https://cloud.google.com/learn/what-is-a-data-warehouse

🔗https://cloud.google.com/learn/what-is-a-data-warehouse

تعليقات