تجزیه‌وتحلیل داده‌های اکتشافی

(Exploratory Data Analysis (EDA

تجزیه و تحلیل اکتشافی داده‌ها یا EDA روشی برای تجزیه ‌و تحلیل دیتاست به جهت خلاصه کردن ویژگی‌ها است که اغلب به‌صورت بصری انجام می‌شود. EDA در مورد اینکه داده‌ها قبل از مدل‌سازی چه اطلاعاتی در اختیار ما می‌گذارند ؛ کاربرد دارد. با نگاه کردن به جداول دیتاست به‌ راحتی نمی‌توان اطلاعات مفیدی از آن به‌ دست آورد زیرا ممکن است داده‌ها فرمت مناسبی نداشته باشند. برای رفع این مشکل از تجزیه و تحلیل اکتشافی استفاده می‌کنیم.

برای درک بیش‌تر تجزیه و تحلیل اکتشافی تجزیه ‌و تحلیلی را بر روی دیتاست گل‌های زنبق انجام می‌دهیم. این دیتاست شامل 4 ویژگی (طول کاسبرگ، عرض کاسبرگ، طول گلبرگ، عرض گلبرگ) برای 3 گونه از این گل‌ها (versicolor, virginica, setosa) می‌باشد. در دیتاست 50 نمونه از هرگونه موجود می‌باشد که درکل 150 نمونه (ردیف) می‌شود.

iris-table

 

تجزیه ‌و تحلیل تک متغیره

تجزیه‌ و تحلیل تک متغیره ساده‌ترین شکل تجزیه ‌و تحلیل داده است، جایی که داده‌های مورد بررسی فقط از یک متغیر تشکیل ‌شده‌اند. هدف اصلی تجزیه ‌و تحلیل تک متغیره توصیف داده‌ها و یافتن الگوهای موجود در آن است. اکنون به چند مورد از بصری‌سازی در این نوع تجزیه ‌و تحلیل می‌پردازیم.

 

نمودار جعبه‌ای

این نمودار خلاصه‌ای از داده‌ها را با 5 عددِ کمترین داده، چارک اول، میانه، چارک سوم و بیش‌ترین داده مشخص می‌کند.

box-plot
ساختار نمودار جعبه‌ای
iris-box-plot
نمودار جعبه‌ای iris

نمودار جعبه‌ای ایجادشده از این دیتاست خلاصه‌ای از 4 ویژگی عددی را نشان می‌دهد. همان‌طور که می‌بینید توزیع طول و عرض کاسبرگ گسترده‌تر است زیرا نمودار جعبه‌ای آن‌ها بزرگ‌تر نمایش داده‌شده است در حالی که توزیع طول و عرض گلبرگ در حوالی میانگین اتفاق افتاده است.

 

نمودار Histogram

نموداری است که به شما کمک می‌کند توزیع تکراری داده‌های متوالی را نمایش دهید. در تصویر زیر نمودار histogram مربوط به عرض کاسبرگ و گلبرگ را مشاهده می‌کنید. عرض کاسبرگ از توزیع گاوسی پیروی می‌کند و عرض گلبرگ بیش‌تر به سمت راست تمایل پیدا کرده است و این نشان می‌دهد عرض گلبرگ اکثر گل‌ها کمتر از 0.4 سانتی‌متر می‌باشد.

هیستوگرام ابزاری مهم در تجزیه و تحلیل اکتشافی
نمودار هیستوگرام iris

 

تجزیه ‌و تحلیل چند متغیره

تکنیکی آماری است که به بررسی داده‌هایی که بیش از یک متغیر دارند می‌پردازد. اکنون به بررسی بصری این نوع تجزیه و تحلیل می‌پردازیم.

 

نمودار Scatter

تجسمی دو بُعدی از داده است که از نقطه برای نمایش دو متغیر مختلف استفاده می‌کند؛ یکی در امتداد محور x و دیگری در امتداد محورy

iris-scatter
نمودار iris scatter

می‌توان مشاهده کرد که یک رابطه‌ی خطی بین طول و عرض گلبرگ وجود دارد. درحالی‌که با افزایش طول کاسبرگ، عرض آن به ‌طور متناسب افزایش نمی‌یابد به همین دلیل آنها یک رابطه خطی ندارند. در نمودار scatter اگر نقاط رنگی باشند می‌توان یک متغیر اضافی دیگر را نمایش داد. به‌ عنوان ‌مثال در نمودار زیر‌‌‌‌، گونه‌ی گل هم به نموداری که بر اساس طول و عرض گلبرگ بود اضافه کرده‌ایم.

نمودار Scatter جهت تجزیه و تحلیل اکتشافی

از نمودار فوق متوجه می‌شویم که گونه‌ی setosa کم‌ترین و virginica بیش‌ترین طول و عرض گلبرگ را دارد. همچنین versicolor بین این دو گونه قرار می‌گیرد.

نمودار میله‌ای

نمودار میله‌ای، داده‌های دسته‌ای را به‌صورت مستطیلی متناسب با مقدارشان نمایش می‌دهد. به‌ عنوان ‌مثال با استفاده از دیتاست گل‌های زنبق می‌توانیم میانگین طول و عرض گلبرگ و کاسبرگ هر سه گونه گل را به‌دست آوریم.

نمودار میله‌ای ابزاری برای تجزیه و تحلیل اکتشافی
نمودار میله ای iris

با مشاهده‌ی نمودار جعبه‌ای گل‌های زنبق به اطلاعات مفیدی ازجمله اینکه virginica بیش‌ترین طول و عرض گلبرگ را دارد؛ دست می‌یابیم.

 

تجزیه و تحلیل اکتشافی بر روی دیتاست گل‌های زنبق درک خوبی از اطلاعات موجود را در اختیار ما قرارداد. پس از اتمام این مرحله، می‌توانیم کارهای پیچیده‌تری در مدل‌سازی مانند خوشه‌بندی و طبقه‌بندی را به‌راحتی و با دید روشنی انجام دهیم.

تجزیه و تحلیل اکتشافی گامی اساسی است که باید قبل از وارد شدن در یادگیری ماشین یا مدل‌سازی آماری برداشته شود زیرا زمینه‌ی لازم را برای ایجاد یک مدل مناسب فراهم می‌کند. EDA برای دانشمندان علم داده ارزشمند است چراکه از نتایج تولیدی مدل خود اطمینان حاصل می‌کنند. 

ارسال یک پاسخ

آدرس ایمیل شما منتشر نخواهد شد.