الف نظامی
لائبریرین
اردو متن کی نارملائزیشن
Urdu Text Normalization
اردو لینگوئج پراسیسنگ یا مشین لرننگ میں فراہم کردہ متن کی بہت اہمیت ہے جس کو استعمال سے قبل مختلف مراحل سے گزارا جاتا ہے جن میں سے ایک مرحلہ ٹیکسٹ نارملائزیشن ہے۔Urdu Text Normalization
ٹیکسٹ نارملائزیشن کا عمل اردو متن پر مندرجہ ذیل کام کرتا ہے:
- متن میں غلطیوں کو درست کرنا (پروف ریڈنگ)
- غیر معیاری حروف کو معیاری حروف سے تبدیل کرنا
- غیر ضروری الفاظ و حروف نکالنا
- واوین کی یکسانیت
مثلا :
انشاء اللہ کو ان شاء اللہ
آ نا کو آنا سے تبدیل کرنا
جا نا کو جانا سے تبدیل کرنا
وغیرہ وغیرہ
غیر معیاری حروف کو معیاری حروف سے تبدیل کرناآ نا کو آنا سے تبدیل کرنا
جا نا کو جانا سے تبدیل کرنا
وغیرہ وغیرہ
اکثر اوقات دئیے گئے متن میں عربی کی بورڈ کی مدد سے لکھا گیا متن موجود ہوتا ہے چند عربی حروف کی یونیکوڈ ویلیوز اور اردو حروف کی یونیکوڈ ویلیوز یکساں نہیں ہوتی جس کی وجہ سے سرچ کرنے میں مسائل آتے ہیں۔
اس لیے دئیے گئے اردو متن کے تمام حروف کو اردو یونیکوڈ ویلیوز میں منتقل کرنا ضروری ہوتا ہے۔
غیر ضروری الفاظ و حروف نکالنا
متن سے غیر ضروری الفاظ اور حروف نکال دئیے جاتے ہیں
مثلا:
بسا اوقات اردو متن کا ماخذ ایچ ٹی ایم ایل ، ایکس ایم ایل یا جے سون فائلز ہوتا ہے لہذا متن سے ایچ ٹی ایم ایل ، ایکس ایم ایل ٹیگز وغیرہ نکال لیے جاتے ہیں
اسی طرح زیر ، زبر ، پیش ، شد ، جزم وغیرہ کو متن سے نکال دیا جاتا ہے کیوں کہ لینگوئج پراسیسنگ / مشین لرننگ میں ان کی اہمیت نہیں ہوتی۔
اس کے ساتھ ساتھ لفظوں سے تطویل ختم کرنا بھی ضروری ہے کیوں کہ اس کی موجودگی میں لفظ سرچ نہیں ہوسکتا۔
واوین کی یکسانیت
اردو میں چار طرح کی واوین استعمال ہوتی ہیں
” “
’ ‘
" "
' '
بسا اوقات یوں ہوتا ہے کہ متن موجود الفاظ یا جملے کے کسی حصے پر لگائی گئی واوین میں ابتدائی واوین اور اختتامی واوین ایک جیسی نہیں ہوتی’ ‘
" "
' '
مثلا:
"نگۂ ناز‘
”صفحہ"
متن کی یکسانیت کے لیے تمام واوین کو ایک ہی قسم کے واوین سے تبدیل کر دیا جاتا ہے”صفحہ"
مثلا یہ اصول طے کر لیا جائے کہ متن میں ہر جگہ واوین کے لیے ڈبل کوٹس استعمال ہوں گے
آخری تدوین: