تمثيل كلمات القرآن الكريم باستخدام بايثون

تحليل تركيبة الكلمات في مجموعة نصوص Corpus قد يكون مفيداً لأخذ صورة عامة عن طبيعة وتركيبة هذه المجموعة. على سبيل المثال، قام روب داوسون بتحليل تركيبة أشهر 100,000 كلمة في كتب قوقل الإنجليزية. كانت نتيجة هذا التحليل هو هذا الرسم:

wordvis_100k
اضغط على الصورة لمشاهدتها بشكل أكبر

هذا النوع من الرسم اسمه Sunburst Chart. هذا الرسم هو عبارة عن حلقات دائرية Rings. الدائرة الداخلية الصغرى مقسمة إلى أجزاء، وكل جزء يمثل نسبة تواجد الحرف في أول الكلمة (الحرف الأول في الكلمة). والدائرة التي تليها تمثل نسبة تواجد الحرف كثاني حرف للكلمة. وهكذا. لاحظ أن حرف T هو أكثر الحروف تكرراً في أول الكلمات الانجليزية.

من النظرة الأولى لهذا الرسم، ستلاحظ أن كلمة THE هي أكثر الكلمات تكراراُ في كتب قوقل. لاحظ الجزء الذي أخذته حروف هذه الكلمة من منتصف الرسم إلى أعلى اليسار. هذه هي أهم المزايا لـ Sunburst Chart. تستطيع ملاحظة أكثر الحروف، أو الكلمات، تكراراً في مجموعة النصوص لديك.

كتدريب عملي خلال تعلمي للبايثون، قمت بعمل نفس التحليل لكلمات القرآن الكريم، لتمثيل أكثر الكلمات والأحرف تكراراً. كانت هذه هي النتيحة:

quran-sunburst
اضغط على الصورة لعرضها بالحجم الأصلي (2.4MB)

من النظرة الأولى لهذا الرسم، نلاحظ أن كلمة “الله” (من منتصف الرسم باتجاه أعلى اليمين) هي من أكثر الكلمات تردداً . كذلك لاحظ كلمة “والله” (باتجاه أعلى اليسار)، و “من” (باتجاه اليسار).

في الرسم التالي، سنركز على الحروف بغض النظر عن موقعه في الكلمة. سيتضح لنا أكثر الحروف تكراراً في القرآن الكريم. حرفا الألف واللام يتصدران القائمة.

histogram-modified

  • تم أخذ نص القرآن الكريم من ويكيبيديا، ثم تمت معالجته (حذف أرقام الآيات، حذف البسملة، تحويل الرسوم المختلفة للأحرف أ إ آ ا ء ، …).
  • استخدمت سكربت البايثون هذا لرسم الـ Sunburst Chart ، بعد التعديل عليه لدعم أفضل للنص العربي. السكربت يأخذ متغيرين اثنين: ملف نصي يحوي في كل سطر على كلمة ثم عدد تكرارها في النص (جدول تردد)، واسم الملف الذي سيحفظ فيه ملف الـ svg. بالنسبة لرسم تكرار الأحرف، استخدمت مكتبة matplotlib.
  • يمكن تحسين التحليل بحذف الكلمات الشائعة stop words. لكني فضلت تركها لصغر النص.

 

برنامج التحول الوطني بالرسوم البيانية

تم الإعلان يوم الإثنين الماضي عن برنامج التحول الوطني 2020. ومن الأشياء التي شدتني في وثيقة البرنامج هو الملحق المتعلق بالمبادرات التي سيبدأ إطلاقها ابتداءً من عام 2016 م. ذكرت المبادرات في الوثيقة على شكل جداول مليئة بالأرقام. سأقوم هنا بمحاولة تحويل بعض هذه البيانات إلى رسوم.

متابعة قراءة “برنامج التحول الوطني بالرسوم البيانية”

الاستثمارات في أوبر

استثمر صندوق الاستثمارات العامة السعودي 3.5 مليار دولار في شركة أوبر. هذا هو أكبر استثمار حصلت عليه الشركة منذ تأسيسها عام 2009. قمت بتحليل سريع لقائمة جولات الاستثمار في الشركة فوجدت أن هذا الاستثمار يمثل 25% من مجموع الاستثمارت التي حصلت عليها الشركة حتى الآن. هذه صورة لتوزيع قيم الاستثمارات في شركة أوبر بعد دخول السعودية:

متابعة قراءة “الاستثمارات في أوبر”

أداء طلاب المملكة في اختبار القياس والتحصيلي

نشرت شركة إمكان التعليمية خريطة توضح مستوى طلاب وطالبات المملكة في اختباري القدرات والتحصيلي. الخريطة تسمح لك بمعرفة متوسط أداء الطلاب والطالبات في كل منطقة من مناطق المملكة. يمكنك فلترة النتائج بحسب نوع الاختبار (قدرات أو تحصيلي)، تخصص وجنس الطلاب، نوع المدرسة وتصنيفها.

متابعة قراءة “أداء طلاب المملكة في اختبار القياس والتحصيلي”

تمثيل البيانات في الويب (1)

من خلال تصفحي للانترنت، تمر علي مواقع، فيديوهات، شروحات، ومشاريع متعلقة بالبيانات وتمثيلها. سأجمع في سلسلة المقالات هذه أفضل هذه الروابط. غالب هذه المشاريع والشروحات باللغة الانجليزية، لضعف المحتوى العربي في هذا المجال. هذا هو المقال الأول في هذه السلسة.

متابعة قراءة “تمثيل البيانات في الويب (1)”

تحليل: أسعار قطع الأراضي في المملكة

 

في هذه التدوينة، حاولت الإجابة على سؤال بسيط: كم سعر قطع الأراضي في كل حي سكني؟ قمتُ بجمع بيانات الصفقات السكنية لقطع الأراضي في الفترة من شهر محرم 1436 هـ حتى شهر جمادى الآخر 1437 هـ. كل ما عليك هو اختيار المنطقة والمدينة والحي، وستعرف عدد الصفقات التي تمت في الحي خلال هذه الفترة، ومتوسط سعر المتر المربع.

متابعة قراءة “تحليل: أسعار قطع الأراضي في المملكة”

كيف نكتب “محمد” بالإنجليزية؟

عملية النقل الكتابي للأسماء العربية بالحرف الروماني (اختصاراً: الرومَنة) عملية معقدة بعض الشيء. يقول لورنس العرب في كتابه أعمدة الحكمة السبعة:

لا يمكن نقل الأسماء العربية إلى الإنجليزية نقلا دقيقا، بسبب صوامتها
التي تختلف عن صوامتنا، وصوائتها التي كصوائتنا تختلف من مكان إلى آخر.

وحتى تعرف مدى صحة هذه العبارة، كتب لورنس مدينة جدة في كتابه هذا بثلاث طرق: Jeddah ، Jidda ، Jedda . هذا هو أحد الأسباب في اختلاف الرسم الكتابي للأسماء العربية بالحرف الروماني. النظام الصوتي للغة العربية يختلف عن النظام الإنجليزي. أيضاً، الأسماء المركبة (مثل عبد الله و أبو سليمان) تزيد من صعوبة الرومَنة. وهناك عوامل أخرى يمكنك القراءة عنها هنا.

متابعة قراءة “كيف نكتب “محمد” بالإنجليزية؟”