تبدأ رحلتنا في استكشاف موقع مجاني شامل يضم كنوز وهي : دورات مجانية ومنح دراسية ووظائف وتدريب ومقالات مفيدة ودليل كامل لكل مجال خاص بالتكنولوجيا حصريا وبعض من المجالات الاخري لمتابعة كل جديد علي التليجرام والفيسبوك | Telegram | Facebook

[100% Off] AWS Certified Data Engineer - Associate (DEA-C01) Exam Guide Free Course Coupon

دورة متاحة لفترة محدودة
free-palestine free-palestine

Responsive image
منذ 18 ساعة

أهلا بك عزيزي المتابع لموقع (journey for learn) نقدم دورات بكوبونات متاحة لاول 1000 تسجيل مجاني فقط وكوبونات اخري لفترة محدودة فاذا كنت تريد ان تحصل علي كل الكورسات علي موقعنا وان تكون اول المسجلين في الكورسات المجانية قم بتسجيل الدخول أوقم بالدخول علي وسائل التواصل الاجتماعي وخصوصا التليجرام نوضح الوصف المختصر والطويل للدورات لكي تعرف الدروس التي سوف تتعلمها بسهولة ويسر :

وصف التحضير لمهندس بيانات معتمد من AWS DEA-C01؟ هذه هي دورة الاختبارات التدريبية التي تمنحك ميزة الفوز. وقد قام بهذه الاختبارات التدريبية أسامة البرهيشي الذين جلبوا تجربتهم الجماعية في اجتياز 20 شهادة من AWS إلى الطاولة. وتحاكي لهجة الأسئلة ومضمونها الاختبار الحقيقي. إلى جانب الوصف التفصيلي و"تنبيه الاختبار" المقدم ضمن التوضيحات، قمنا أيضًا بمراجعة وثائق AWS على نطاق واسع لإطلاعك على كل مجالات النطاق التي يتم اختبارها لامتحان DEA-C01. نريد منك أن تفكر في هذه الدورة التدريبية على أنها نقطة التوقف النهائية حتى تتمكن من عبور خط الفوز بثقة مطلقة والحصول على اعتماد AWS! ثق في عمليتنا، أنت في أيدٍ أمينة.
تمت كتابة جميع الأسئلة من الصفر! ويتم إضافة المزيد من الأسئلة بمرور الوقت! الجودة تتحدث عن نفسها
سؤال نموذجي:
يواجه مهندس البيانات أداءً بطيئًا في الاستعلام أثناء تنفيذ استعلامات Amazon Athena على مجموعات البيانات المخزنة في حاوية Amazon S3، مع خدمة AWS Glue Data Catalog كمستودع للبيانات الوصفية. حدد مهندس البيانات السبب الجذري للأداء البطيء باعتباره العدد المفرط للأقسام في مجموعة S3، مما يؤدي إلى زيادة أوقات تخطيط استعلام Athena.
ما الطريقتان الممكنتان للتخفيف من هذه المشكلة وتحسين كفاءة الاستعلام (حدد اثنان)؟


تحويل البيانات في كل قسم إلى تنسيق Apache ORC
ضغط الملفات بتنسيق gzip لتحسين أداء الاستعلام مقابل الأقسام
إجراء تجميع البيانات في كل قسم قم بإعداد فهرس قسم AWS Glue والاستفادة من تصفية الأقسام عبر استدعاء GetPartitions
قم بإعداد إسقاط قسم Athena استنادًا إلى بادئة مجموعة S3
ما هو تخمينك؟ قم بالتمرير أدناه للحصول على الإجابة.

























br>
صحيح: 4,5.
شرح:
الخيارات الصحيحة:
إعداد فهرس قسم AWS Glue والاستفادة من تصفية الأقسام عبر استدعاء GetPartitions
عند إنشاء فهرس قسم، يمكنك تحديد قائمة بمفاتيح الأقسام الموجودة بالفعل في جدول معين. فهرس القسم هو قائمة فرعية لمفاتيح القسم المحددة في الجدول. يمكن إنشاء فهرس القسم على أي تبديل لمفاتيح القسم المحددة في الجدول. بالنسبة لجدول بيانات_المبيعات أعلاه، الفهارس المحتملة هي (البلد، الفئة، تاريخ الإنشاء)، (البلد، الفئة، السنة)، (البلد، الفئة)، (البلد)، (الفئة، البلد، السنة، الشهر)، وما إلى ذلك.


لنأخذ جدول sales_data كمثال، والذي تم تقسيمه حسب المفاتيح البلد والفئة والسنة والشهر وتاريخ الإنشاء. إذا كنت ترغب في الحصول على بيانات المبيعات لجميع العناصر المباعة لفئة الكتب في عام 2020 بعد 15-08-2020، عليك تقديم طلب GetPartitions مع التعبير "Category = 'Books' وcreateDate > '2020-08" -15'" إلى كتالوج البيانات.


في حالة عدم وجود فهارس أقسام في الجدول، يقوم AWS Glue بتحميل جميع أقسام الجدول ثم يقوم بتصفية الأقسام المحملة باستخدام تعبير الاستعلام المقدم بواسطة المستخدم في طلب GetPartitions. يستغرق الاستعلام وقتًا أطول للتشغيل نظرًا لزيادة عدد الأقسام في الجدول الذي لا يحتوي على فهارس. باستخدام الفهرس، سيحاول استعلام GetPartitions جلب مجموعة فرعية من الأقسام بدلاً من تحميل كافة الأقسام في الجدول. خيارات غير صحيحة:
قم بتحويل البيانات الموجودة في كل قسم إلى تنسيق Apache ORC - Apache ORC هو تنسيق ملف شائع لأعباء العمل التحليلية. إنه تنسيق ملف عمودي لأنه يخزن البيانات ليس حسب الصف، ولكن حسب العمود. يسمح تنسيق ORC أيضًا لمحركات الاستعلام بتقليل كمية البيانات التي يجب تحميلها بطرق مختلفة. على سبيل المثال، من خلال تخزين الأعمدة وضغطها بشكل منفصل، يمكنك تحقيق نسب ضغط أعلى ويجب قراءة الأعمدة المشار إليها في الاستعلام فقط. ومع ذلك، يتم تحويل البيانات داخل الأقسام الموجودة، وهذا الخيار لا يحل السبب الجذري لضعف الأداء (أي العدد الزائد من الأقسام في مجموعة S3).


اضغط الملفات بتنسيق gzip لتحسين أداء الاستعلام مقارنة بالأقسام - يمكن أن يؤدي ضغط بياناتك إلى تسريع استعلاماتك بشكل كبير. تعمل أحجام البيانات الأصغر على تقليل البيانات الممسوحة ضوئيًا من Amazon S3، مما يؤدي إلى انخفاض تكاليف تشغيل الاستعلامات. كما أنه يقلل من حركة مرور الشبكة من Amazon S3 إلى Athena. تدعم Athena مجموعة متنوعة من تنسيقات الضغط، بما في ذلك التنسيقات الشائعة مثل gzip وSnapy وzstd. ومع ذلك، يتم ضغط البيانات داخل الأقسام الموجودة، وهذا الخيار لا يحل السبب الجذري لضعف الأداء (أي العدد الزائد من الأقسام في حاوية S3).


تنفيذ التجميع على البيانات الموجودة في كل قسم - التجميع هو وسيلة لتنظيم سجلات مجموعة البيانات في فئات تسمى المجموعات. يختلف معنى الجرافة والجرافة عن دلاء Amazon S3 ويجب عدم الخلط بينها. في تجميع البيانات، تدخل السجلات التي لها نفس القيمة للخاصية في نفس الحاوية. يتم توزيع السجلات بالتساوي قدر الإمكان بين المجموعات بحيث تحتوي كل مجموعة على نفس كمية البيانات تقريبًا. في الممارسة العملية، تكون المجموعات عبارة عن ملفات، وتحدد دالة التجزئة المجموعة التي يدخل إليها السجل. ستحتوي مجموعة البيانات المجمعة على ملف واحد أو أكثر لكل مجموعة بيانات لكل قسم. يتم ترميز المجموعة التي ينتمي إليها الملف في اسم الملف. يكون التجميع مفيدًا عندما يتم تجميع مجموعة بيانات بواسطة خاصية معينة وتريد استرداد السجلات التي تحتوي فيها هذه الخاصية على قيمة معينة. ونظرًا لأنه يتم تخزين البيانات، يمكن لـ Athena استخدام القيمة لتحديد الملفات التي يجب النظر إليها. على سبيل المثال، لنفترض أن مجموعة بيانات تم تجميعها بواسطة customer_id وتريد البحث عن كافة السجلات لعميل معين. تحدد Athena المجموعة التي تحتوي على تلك السجلات وتقرأ فقط الملفات الموجودة في تلك المجموعة.
تظهر المرشحات الجيدة للتجميع عندما يكون لديك أعمدة ذات قيمة أساسية عالية (أي تحتوي على العديد من القيم المميزة)، ويتم توزيعها بشكل موحد، وأنك الاستعلام بشكل متكرر عن قيم محددة.
نظرًا لأن التجميع يتم داخل الأقسام الموجودة، فإن هذا الخيار لا يحل السبب الجذري لضعف الأداء (أي العدد الزائد من الأقسام في مجموعة S3).
(adsbygoogle = window.adsbygoogle || []).push({}); احصل على قسيمة إذا لم يتم فتح القسيمة، قم بتعطيل Adblock، أو جرب متصفحًا آخر.

ما هي المتطلبات الأساسية لدخول الدورة والتسجيل فيها على موقعنا؟ رحلة التعلم:

(احصل على الدورة للدخول إلى الموقع والتسجيل)

يجب أن يكون لديك بريد إلكتروني (حساب بريد) تتذكره لنفسك وأيضًا يجب أن تتذكر كلمة مرور البريد الإلكتروني الذي ستسجل به ، وإذا لم يكن لديك حساب بريد إلكتروني ، فمن الأفضل إنشاء حساب (Gmail)

اغلق مانع الاعلانات لتحصل على الدورة



0 تعليقات