برچسب POS در پردازش زبان طبیعی

POS چگونگی قرار گرفتن کلمات در یک جمله را توضیح می‌دهد. اصولاً یک جمله از 8 بخش تشکیل‌ شده است که شامل اسم، ضمیر، صفت، فعل، قید، حرف‌اضافه، حرف ربط و حرف ندا می‌باشد.

اکنون به بررسی مثال‌هایی از هر بخش می‌پردازیم:

اسم: مهسا-ایران-میز-پرنده-دانش‌آموز-شهر-شادی-امید

فعل: رفتن-صحبت‌کردن-دویدن-زندگی‌کردن-دوست‌داشتن

صفت: سبز-خوشحال-جوان-پنج-بامزه

حرف‌اضافه: در-روی-از-با-نزدیک-درمورد-زیر

حرف ربط: و-یا-اما-به‌دلیل-بنابراین-ازوقتی‌که-اگر

ضمیر: من-تو-او-ما-شما-ایشان

حرف ‌ندا: وای-اوه-هان

بیش‌ترین POSها به زیرمجموعه‌هایی تقسیم می‌شوند. برچسب‌گذاری POS به معنی برچسب‌گذاری کلمات بر اساس ساختارشان است.

در دنیای پردازش زبان طبیعی (NLP)، ابتدایی‌ترین مدل‌ها مبتنی بر Bag of Words هستند؛ اما چنین مدل‌هایی قادر به ضبط روابط نحوی کلمات نیستند. به ‌عنوان ‌مثال فرض کنید ما یک تحلیل‌کننده احساسی را تنها بر اساس Bag of Words ساخته‌ایم. چنین مدلی قادر نخواهد بود تفاوت بین دو جمله‌ I like you” و I am like you”  را تشخیص دهد چرا که like در جمله‌ی اول فعل و به معنای دوست داشتن است اما در جمله‌ی دوم حرف اضافه و به معنای شبیه آمده است.

در اینجا این سوال برای ما مطرح می‌شود که چگونه تکنیک Bag of Words را ارتقاء دهیم؟

POS برای ساختن tree pars که در ساخت NERها استفاده می‌شود؛ کاربرد دارد و در استخراج روابط بین کلمات نیز مفید هستند. برچسب‌گذاری POS همچنین برای ساخت lemmatizerها که برای کاهش یک کلمه و تبدیل آن به ریشه‌اش است استفاده می‌شود. برچسب‌گذاری POS فرآیند علامت‌گذاری یک کلمه در متن برای بخش مربوط به یک برچسب گفتار، بر اساس متن و معنای آن است. این کار ساده نیست، زیرا ممکن است یک کلمه خاص بر اساس زمینه‌ای که از آن استفاده می‌شود، نقش‌های مختلفی در  گفتار داشته باشد. برای مثال در جمله‌ی Give me your answer“، answer اسم است اما در جمله‌ی Answer the questions“، answer یک فعل می‌باشد.

 

تکنیک‌های مختلف برچسب POS

 

Lexical Based Method

روش‌های مبتنی بر واژگان، برچسب POS را که اغلب همراه با یک کلمه در متن آموزشی روی می‌دهد؛ تعیین می‌کنند.

Rule-Based Methods

 روش‌های مبتنی بر قاعده، برچسب‌های POS را بر اساس قانون خاصی تعیین می‌کنند. برای مثال می‌توانیم قاعده‌ی هر کلمه‌ای که به ed یا ing ختم می‌شود را فعل در نظر بگیرید.” داشته باشیم. تکنیک‌های مبتنی بر قاعده را می‌توان به همراه روش‌های مبتنی بر واژگان استفاده کرد تا امکان برچسب‌گذاری POS کلماتی که در متن آموزشی موجود نیستند اما در داده‌های تست وجود دارند، را فراهم کنیم.

Probabilistic Methods

روش‌های احتمالی، برچسب‌های POS را بر اساس احتمالِ وقوعِ متوالیِ برچسبی خاص اختصاص می‌دهند. زمینه های تصادفی شرطی (CRF) و مدل‌های پنهان مارکوف (HMM)، رویکردهای احتمالی برای اختصاص یک برچسب POS هستند.

Deep Learning Methods

از میان روش‌های یادگیری عمیق، شبکه‌های عصبی بازگشتی نیز می‌توانند برای برچسب‌گذاری POS استفاده شوند. 

 

برچسب‌گذاری POS چگونه کار می‌کند؟

برچسب‌گذاریPOS  یک راه‌حل یادگیری نظارت‌شده است که از ویژگی‌هایی مانند کلمه‌ی قبلی، کلمه بعدی، حرف اول با حروف بزرگ و… استفاده می‌کند.NLTK  تابعی برای به‌دست آوردن برچسب‌های POS دارد و بعد از فرآیند نشانه‌گذاری کار می‌کند.

import nltk
nltk.download('all')
sentence = "My name is Jocelyn"
token = nltk.word_tokenize(sentence)
token
nltk.pos_tag(token)
nltk.help.upenn_tagset("PRP$")
nltk.help.upenn_tagset("NN")
nltk.help.upenn_tagset("VBZ")
nltk.help.upenn_tagset("NNP")

 

Tag Penn Treebank محبوب‌ترین مجموعه برچسب است. بیشتر برچسب‌ها ازقبل برای زبان انگلیسی روی این مجموعه، آموزش‌دیده‌اند.

برچسب‌گذاری کلمات بر اساس ساختار در استخراج روابط بین کلمات و درک معنی هر جمله یک گام بسیار مهم است.

 

 

ارسال یک پاسخ

آدرس ایمیل شما منتشر نخواهد شد.