معیار برتری مدل در یادگیری ماشین

قسمت اول

زمانی که شما مدلی برای دسته‌بندی ایجاد می‌کنید تنها به دقت مدل به‌عنوان معیاری برای تعداد پیش‌بینی‌های صحیح نگاه می‌کنید. هنگامی‌که مدلی را ساخته‌اید و فکر می‌کنید پیش‌بینی‌های قدرتمندی را انجام می‌دهد؛ باید تصمیم نهایی‌تان را بگیرید که آیا این مدل به‌اندازه کافی برای حل مسئله‌ی شما خوب هست یا خیر. معمولاً دقت طبقه‌بندی به‌تنهایی اطلاعات کافی برای تصمیم‌گیری ارائه نمی‌دهد.

 

Breast Cancer Dataset

Breast Cancer یک مجموعه داده‌ی استاندارد یادگیری ماشین مرتبط با سرطان در خانم‌ها است. شامل ۹ ویژگی است که اطلاعات مربوط به 286 خانم مبتلا به سرطان می‌باشد که بهبود یافته‌اند و بررسی می‌کند که در طی 5 سال این بیماری در آن‌ها بازگشته است یا خیر.

برای این دیتاست از طبقه‌بندی دودویی استفاده می‌شود زیرا یا بیماری بازگشته است یا خیر. از بین ۲۸۶ خانم، ۲۰۱ نفر از بازگشت بیماری رنج نمی‌برند و ۸۵ نفر باقی‌مانده بازگشت این بیماری را پشت سر گذاشته‌اند. False Negative (کسی که بازگشت بیماری ندارد و به‌اشتباه پیش‌بینی می‌شود بازگشت سرطان دارد) به‌مراتب بدتر از False Positive (کسی که بازگشت سرطان دارد و به‌اشتباه پیش‌بینی می‌شود بازگشت سرطان ندارد) است زیرا غربالگری دقیق‌تر می‌تواند مثبت‌های کاذب (False Positive) را اثبات کند یعنی با غربالگری‌های بیش‌تر مشخص می‌شود فرد بازگشت سرطان ندارد؛ اما منفی‌های کاذب (False Negative) چون به‌اشتباه تشخیص داده‌شده‌اند بازگشت سرطان ندارند به خانه فرستاده می‌شوند و دیگر ارزیابی نمی‌شوند و این امر خطرناک است.

 

دقت دسته‌بندی

دقت دسته‌بندی برابر است با تعداد پیش‌بینی‌های صحیح تقسیم‌بر تعداد کل پیش‌بینی‌ها که درنهایت عدد حاصل در ۱۰۰ ضرب می‌شود تا دقت برحسب درصد به‌دست بیاید.

 

مدل عدم بازگشت سرطان

مدلی که تنها عدم بازگشت سرطان را پیش‌بینی می‌کند؛ می‌تواند به دقت ۱۰۰*(۲۸۶/۲۰۱) یا ۷۰.۲۸٪ برسد. این مدل خطرناکی است که دقت بالایی دارد. اگر برای تصمیم‌گیری پزشکان این مدل به‌کار گرفته شود؛85 خانم را به خانه می‌فرستند زیرا به‌اشتباه تصور می‌کنند که سرطان آن‌ها در معرض بازگشت مجدد قرار نگرفته است (False Negative بسیار بالا). 

 

مدل بازگشت‌ سرطان

مدلی که تنها بازگشت سرطان را پیش‌بینی می‌کند؛ می‌تواند به دقت ۱۰۰ *(۲۸۶/۸۵) یا ۲۹.۷۲٪ برسد. این مدل نیز دقت خطرناکی دارد زیرا  برای 201 خانم فکر می‌کنند بازگشت سرطان وجود دارد اما واقعاً چنین نیست. (False Positive بسیار بالا).

 

CART

CART (Classification And Regression Treesیک الگوریتم ساده درخت تصمیم‌گیری است. در این مسئله CART می‌تواند دقت ۶۹.۲۳٪ را به‌دست آورد. این مدل از مدل عدم بازگشت سرطان پایین‌تر است ولی آیا ارزش بیش‌تری دارد؟

 

ماتریس درهم‌ریختگی (Confusion Matrix)

یک روش عالی و بدون ابهام برای ارائه‌ی نتایج پیش‌بینی طبقه‌بندی شده، استفاده از یک ماتریس درهم‌ریختگی است.

 

Confusion Matrix

 

برای این مسئله طبقه‌بندی دودویی دارای ۲ ردیف و ۲ ستون است.

 True Positive) TP): یعنی تعداد کسانی‌ که بازگشت بیماری دارند و مدل نیز این‌گونه پیش‌بینی کرده است.

 True Negative) TN): یعنی تعداد کسانی که بازگشت بیماری ندارند و مدل نیز این‌گونه پیش‌بینی کرده است.

 False Positive) FP): یعنی تعداد کسانی که بازگشت بیماری دارند  ولی مدل، آن‌ها را بدون بازگشت پیش‌بینی کرده است.

 False Negative) FN): یعنی تعداد کسانی که بازگشت بیماری ندارند ولی مدل، آن‌ها را دارای بازگشت پیش‌بینی کرده است.

دقت (Accuracy) از طریق فرمول زیر به‌دست می‌آید:

 

\begin{equation}\text { Accuracy }=\frac{T P+T N}{T P+F P+T N+F N}\end{equation}

 

دقت می‌تواند گمراه‌کننده باشد. ممکن است گاهی اوقات انتخاب مدل با دقت کمتر مطلوب باشد زیرا قدرت پیش‌بینی بهتری بر روی مسئله دارد.

 

صحت (Precession)

با نماد (Positive Predictive Value) PPV نمایش داده می‌شود و به معنای مقدار پیش‌بینی مثبت است؛ طبق فرمول زیر به‌دست می‌آید:

 

\begin{equation}\mathrm{PPV}=\frac{T P}{T P+F P}\end{equation}

 

صحت می‌تواند به‌عنوان معیاری برای دقت دسته‌بند تعریف شود. یک صحت پایین نشان از تعداد FP کم دارد. هنگامی‌که تعداد مثبت‌های کاذب (FP) زیاد باشد؛ صحت کمک‌کننده است.

 

حساسیت (Recall)

حساسیت یا نرخ مثبت‌های درست طبق فرمول زیر به‌دست می‌آید:

 

\begin{equation}\text { Sensitivity }(\%)=\frac{\mathrm{TP}}{\mathrm{TP}+\mathrm{FN}} \times 100\end{equation}

 

حساسیت می‌تواند به‌عنوان معیاری برای تشخیص کامل بودن دسته‌بند استفاده شود. حساسیت پایین نشان از تعداد FN کم دارد. حساسیت زمانی که مقدار منفی کاذب (FN) زیاد باشد کمک‌کننده است.

 

F1 Score

همچنین امتیازF یا اندازه‌F نامیده می‌شود و تعادلی بین صحت و حساسیت می‌باشد. F1 Score طبق فرمول زیر به‌دست می‌آید:

 

\begin{equation}F=2 \frac{\text {Precision } * \text { Recall}}{\text {Precision }+\text { Recall}}\end{equation}

 

F1 اندازه‌گیری کلی از دقت یک مدل است که ترکیبی از دقت و یادآوری است. امتیاز F1 خوب بدان معنی است که شما دارای مثبت کاذب (FP) و منفی کاذب (FN) پایین هستید؛ بنابراین به درستی تهدیدهای واقعی را شناسایی کرده‌اید. امتیازF1 زمانی کامل در نظر گرفته می‌شود که مقدار آن ۱ باشد. اگر مقدار آن برابر ۰ شد مدل به‌کلی با شکست مواجه شده است.

 

یکی از مراحل مهم پس از ایجاد مدل، ارزیابی آن است که با استفاده از معیارهای مختلفی همچون دقت، صحت، حسایت و امتیازF1 انجام می‌شود. به‌دست آوردن تنها دقت بالا برای ارزیابی کافی نیست و باید سایر معیارها نیز در نظر گرفته شود.
2 نظرات
  1. نسرین جمشیدی می گوید

    مثل همیشه عالی بود. منم از سردرگمی در آورد که واقعا چه مدلی مناسبه

  2. ملیکا بهمن آبادی می گوید

    ممنونم از شما . خوشحالم که اینطور بوده.

ارسال یک پاسخ

آدرس ایمیل شما منتشر نخواهد شد.