البيانات – وقود القرن الحادي والعشرين

0 486

في ظل التطور التكنولوجي السريع وثورة المعلومات، يتزايد اهتمام الجميع بـ”البيانات“. إنها أصبحت العمود الفقري لكثير من القرارات والاستراتيجيات في مختلف المجالات لدى الدول والشركات والجهات المختلفة. قد نجد الكثير من التعريفات المتعددة التي تعرف معنى البيانات في المصادر والكتب المهتمة في هذا المجال، ولكن يُمكن القول أن جميع تلك المصادر تتفق على أهميتها وضرورة الاستفادة القصوى منها. نؤمن في بايثونات أن لغة البايثون والبيانات متلازمتان في هذا العصر، فلا تكاد تقرأ مقالا أو شرحا عن البيانات، إلا وتجد أن لغة البايثون لها دور كبير في هذا الموضوع. لذلك، نحاول في هذا المقال أن نبني مرجعا بسيطا وسهلا يجيب عن الأسئلة التالية:

  • ما هو تعريف البيانات؟
  • ما هي البيانات وما هي أنواعها؟
  • ما هو مجال علم البيانات؟
  • ما هي منصات البيانات المفتوحة؟
  • ما هو الفرق بين البيانات والمعلومات؟
  • ما هي برامج قاعدة البيانات؟
  • أفضل الدورات في مجال علم البيانات

لنبدأ مقالنا على بركة الله.

ما هو تعريف البيانات؟

البيانات هي مجموعة من المقاييس المسجلة والمحفوظة في مكان ما. في الأساس، تعتبر البيانات “مادة خام” تنتظر المعالجة والتحليل، فهي بحد ذاتها لا تقدم فائدة دون وضعها في سياق ما. لو افترضنا مثلا أن لدينا ملف ما يتضمن مجموعة من الأرقام المرتبة على شكل عمود، فإن هذه الأرقام لا تقدم أي فائدة إلا إذا ربطناها بسياق ما، مثل “قراءات مستشعر الحرارة” أو “أعمار طلاب صف معين”. معنى البيانات لا يقتصر فقط على الأرقام، بل يشمل النصوص، الصور، الأصوات والمزيد. القرن الحادي والعشرين شهد زيادة كبيرة في كمية البيانات المتاحة، حيث تُنتج 329 مليون تيرا بايت من البيانات يومياً حول العالم.

حجم البيانات المتولدة سنويا حول العالم
حجم البيانات المتولدة سنويا حول العالم – المصدر explodingtopics.com

ما هي البيانات وما هي أنواعها؟

البيانات ليست كلها متشابهة. فهناك البيانات الكمية التي تعتمد على الأرقام والقياسات. ومن ناحية أخرى، البيانات النوعية التي تركز على الوصف والتصنيف. وفي السياق الرقمي، نجد البيانات المفتوحة التي تتيح الوصول الحر للجميع، وهذه تُعد أحد أهم مصادر المعرفة الحرة في العصر الحالي. من المهم أن نفرق بين أشكال البيانات و أنواع البيانات في هذا الموضوع. إذاً، ففي عالم البيانات نجد تنوعًا وغنى يفوق ما يتخيل الكثيرون.

من حيث نوع البيانات، فالبيانات تنقسم إلى:

  • البيانات الكمية: هي البيانات التي يمكن قياسها وتحديدها بوحدات محددة. تستند بشكل أساسي إلى الأرقام، وتعتبر أساسًا في الأبحاث العلمية والتحليلات الإحصائية. فمثلاً، عندما نتحدث عن ميزانية مشروع، أو النسب المئوية لنجاح منتج في السوق، نتعامل مع البيانات الكمية.
  • البيانات النوعية: على الجانب الآخر، تُعتبر البيانات النوعية الأكثر استخدامًا في الدراسات التي تهتم بالصفات والخصائص. فبدلاً من الاعتماد على الأرقام، تعتمد هذه البيانات على الوصف. مثل دراسة تقييم آراء الناس حول منتج معين أو خدمة.

فيما يخص أشكال البيانات، هنا نجد قائمة طويلة من الأشكال التي تتجمع فيها البيانات. يُمكننا القول أن مصطلح أشكال البيانات هنا يقابله مصطلح أنواع البيانات في لغات البرمجة، حيث الجدول التالي يُوضح مجموعة من أنواع البيانات في لغات البرمجة المشهورة:

ما هو مجال علم البيانات؟

علم البيانات هو مزيج من التقنيات والأساليب التي تُعنى بفحص وتحليل البيانات الكبيرة. يشمل هذا المجال استخدام الإحصاء والرياضيات والبرمجة لاستخلاص المعلومات المفيدة. في الواقع، يعتبر علم البيانات القوة الدافعة وراء العديد من التقنيات المبتكرة مثل الذكاء الاصطناعي وتعلم الآلة، وهذا الأمر ليس مستغربا، لأن أساس عمل هذه التقنيات يعتمد اعتمادًا كليًا على البيانات.

في عصر المعلوماتية الذي نعيشه، أصبح لعِلم البيانات دور بارز في تحويل الكميات الهائلة من البيانات إلى معلومات ذات قيمة. مع التقدم التكنولوجي المستمر، أصبحت المنظمات تمتلك ثروات من المعلومات المختلفة، من نصوص وصور ومقاطع فيديو، وهذه البيانات تحمل بين طياتها فرصًا غير محدودة. كما أصبحت الأنظمة الإلكترونية، وخصوصًا في مجالات الطب والتجارة، مصدرًا يوميًا لبيانات قد تغير مسار الأبحاث والاكتشافات. ومن هنا، يظهر دور عِلم البيانات كالجسر الذي يربط بين هذه الكميات الضخمة وبين استخراج القيمة الحقيقية منها.

البيانات

علم البيانات هو مجال متعدد التخصصات، وهو يعتمد على عدة علوم وتخصصات لتحقيق أهدافه. من أبرز العلوم التي يعتمد عليها علم البيانات:

  1. الرياضيات: خصوصاً الإحصاء والجبر الخطي ونظرية الاحتمالات. تُساعد هذه الأدوات في فهم وتحليل البيانات واستنتاج النماذج المناسبة.
  2. علوم الحاسوب: حيث تأتي أهمية البرمجة، ومعالجة البيانات، وتعلم الآلة، والذكاء الإصطناعي، وهندسة البيانات.
  3. علم النظم: في فهم وتحليل النظم المعقدة وكيفية التفاعل بين مكوناتها.

العمل مع البيانات

نقلا عن مقالي المنشور في موقع نمذجيات، تتكون عملية التعامل مع البيانات من عدة مراحل متتابعة حسب الشكل التالي:

المرحلة الأولى: جلب البيانات

في هذه المرحلة يتم تحديد مصادر البيانات وكيفية دمجها ببعضها في حالة كانت من أكثر من مصدر.

  المرحلة الثانية: تنظيف البيانات

تعتبر هذه المرحلة من المراحل المهمة جداً والتي تتضمن تهيئة البيانات لعملية التنقيب. بعض البيانات تحتوي على قيم فارغة، وبعضها يحتوي على أخطاء، ومنها ما هو غير منطقي. في هذه المرحلة يتم التعامل مع هذه المشاكل وحلها.

المرحلة الثالثة: اختيار البيانات

في هذه المرحلة يتم اختيار البيانات المهمة في عملية التنقيب، ويتم استبعاد البيانات الغير مهمة، المُكررة والتي ليس لها علاقة. البيانات المكررة أو الغير مهمة ستؤثر على عملية تنقيب البيانات بالتأكيد، لذا يجب الانتباه لها.

المرحلة الرابعة: تحويل البيانات

في بعض الأحيان نحتاج إلى تحويل شكل البيانات أو قيمها إلى شكل اخر أو قيم أخرى بهدف جعلها مناسبة للخوارزمية المستخدمة في التنقيب، فبعض الخوارزميات مثلا تتعامل مع قيم رقمية فقط، وفي هذه الحالة سيتم إما استبعاد البيانات النصية في المرحلة الثالثة أو تحويلها لقيم رقمية في هذه المرحلة.

المرحلة الخامسة: تنقيب البيانات

هنا تتم عملية استخدام أحد الخوارزميات الذكية (مثل شجرة القرار، الشبكات العصبية..الخ) والتي ستقوم بعملية تنقيب البيانات واستخراج المعرفة منها واستخدام المعرفة الناتجة في عملية اتخاذ القرار.

المرحلة السادسة: التقييم

في هذه المرحلة يتم استخدام طرق تقييم خاصة لعملية التنقيب، وهدفها قياس درجة دقة العملية التي تمت باستخدام عينات اختبارية من البيانات.

المرحلة السابعة: المعرفة

هنا يتم عرض/استخدام النتيجة النهائية لتنقيب البيانات في عملية اتخاذ القرار والاستفادة من المعرفة الناتجة عن ذلك.

المراحل السابقة تشكل مجتمعةً عملية تنقيب البيانات، وهي ليست بالضرورة في اتجاه واحد فقط، نستطيع بعد إتمام أي مرحلة الرجوع لأي مرحلة سابقة وذلك في حال وجدنا أن هناك خلل ما أو عدم دقة في النتائج أو حتى لأغراض التجربة، وهذا الأمر يعطي عملية تنقيب البيانات نوعاً من الديناميكية التي تسهل العمل.

ما هي منصات البيانات المفتوحة؟

البيانات المفتوحة هي بيانات يمكن الوصول إليها واستخدامها ومشاركتها من قبل الجميع. هذه المنصات تتيح للأفراد والمؤسسات الحصول على معلومات بدون قيود، وغالبا ما تشارك الحكومات والجهات غير الربحية مجموعة من البيانات المفتوحة من خلال منصات معينة. هنا ستجد قائمة من منصات البيانات المفتوحة:

  1. منصة Data.gov الأمريكية
  2. البوابة الوطنية السعودية للبيانات المفتوحة
  3. منصة البيانات الوطنية الحكومية المفتوحة (الأردن)
  4. البوابة الوطنية للبيانات المفتوحة في تونس
  5. البوابة العربية للتنمية
  6. منصة معلومات الطاقة الشمسية
  7. البيانات المفتوحة للبنك الدولي
  8. بوابة ميتشغين المفتوحة
  9. بوابة نظم المعلومات الجغرافية المفتوحة
  10. بوابة البيانات المفتوحة للعاصمة الأمريكية واشنطن

ما هو الفرق بين البيانات والمعلومات؟

هذا السؤال مهم للغاية، خاصة للمبتدئين في دراسة مجال علم البيانات. الاجابة المختصرة: البيانات هي مجموعة من الحقائق الخام والأرقام، بينما المعلومات تعتبر البيانات المعالجة والتي تُقدم في سياق معين. يُمكن النظر إلى البيانات كمكونات غير مُرتبطة، بينما المعلومات تُعتبر هيكلاً مُنظمًا يحمل معنىً. على سبيل المثال، الأرقام “25، 9، 2023” تُعتبر بيانات، ولكن عندما نقول “25 سبتمبر 2023″، تصبح معلومة، وقس على ذلك الكثير من الأمثلة.

ما هي برامج قاعدة البيانات؟

برامج قاعدة البيانات تتيح تخزين واسترجاع وتنظيم البيانات بشكل فعال. ومن بين أشهر هذه البرامج: Oracle, MySQL, و SQL Server. تساعد هذه الأنظمة المنظمات في إدارة البيانات وحمايتها، وتأتي مع مجموعة من الأدوات التي تتيح إدارة البيانات وضمان البيانات والخصوصية.

في ختام هذا المقال، يمكننا القول أن فهم البيانات وأهميتها يُعتبر من أبرز متطلبات العصر الحالي. إذا كانت البيانات هي نفط القرن الواحد والعشرين، فإن علم البيانات هو محركه الأساسي. لذلك، اذا أردت خوض مجال علم البيانات، ننصحك بقراءة المقال التالي:

علم البيانات – أفضل الدورات التي يُمكنك الالتحاق بها لبدء مسارك المهني

اترك ردًا

Your email address will not be published.