کثیر الاستعمال الفاظ کی فہرست بمعہ معیاری تلفظ

ظہیراحمدظہیر

لائبریرین
کسی لفظ کی عدم شمولیت ان دو اصولوں کو مد نظر رکھ کر کی گئی ہے:
لفظ کی کارپس میں تعداد پچاس سے کم ہو
لفظ عربی الاصل ، فارسی الاصل یا انگریزی الاصل ہو

آپ سے ذاتی پیغام یا مکالمہ ممکن نہیں ہو پا رہا معلوم نہیں کہ کیا تکینیکی وجہ ہو سکتی ہے
ْ
<لفظ عربی الاصل ، فارسی الاصل یا انگریزی الاصل ہو>
یہ اصول تو ٹھیک نہیں ۔ اردو کے بے شمار الفاظ جو روز مرہ زبان میں عام مستعمل ہیں ان تینوں زمروں میں آتے ہیں ۔
آپ کی باتوں نے مجھے الجھن میں ڈال دیا ۔مقصد اگر ایسی فہرست بنانا ہے جس میں سب سے زیادہ استعمال ہونے والے ہزار دو ہزارالفاظ ہوں تو پھر اپنی طرف سے ہم کوئی پابندی یا بندش کیسے لگاسکتے ہیں ۔ لفظ خواہ کسی بھی زبان کا ہو اگر اس کی کثرتِ استعمال اسے فہرست میں شامل کرتی ہے تو فبہا۔ ہم اسے کس طرح خارجِ فہرست کر سکتے ہیں ؟!
مکالمے پر کوئی پابندی نہیں ہے ۔

 

الف نظامی

لائبریرین
<لفظ عربی الاصل ، فارسی الاصل یا انگریزی الاصل ہو>
یہ اصول تو ٹھیک نہیں ۔ اردو کے بے شمار الفاظ جو روز مرہ زبان میں عام مستعمل ہیں ان تینوں زمروں میں آتے ہیں ۔
آپ کی باتوں نے مجھے الجھن میں ڈال دیا ۔مقصد اگر ایسی فہرست بنانا ہے جس میں سب سے زیادہ استعمال ہونے والے ہزار دو ہزارالفاظ ہوں تو پھر اپنی طرف سے ہم کوئی پابندی یا بندش کیسے لگاسکتے ہیں ۔ لفظ خواہ کسی بھی زبان کا ہو اگر اس کی کثرتِ استعمال اسے فہرست میں شامل کرتی ہے تو فبہا۔ ہم اسے کس طرح خارجِ فہرست کر سکتے ہیں ؟!
مکالمے پر کوئی پابندی نہیں ہے ۔
بظاہر تو آپ کا اعتراض درست لگتا ہے لیکن ذرا فہرست سے خارج ہونے والے الفاظ کو دیکھ لیجیے
مثال کے طور پر :
دو ورژنز کا تقابل یا ڈیفرینس فائل دیکھیے کہ کس طرح کے الفاظ خارج فہرست ہوئے۔ یہ سب قرآنی اور عربی الفاظ ہیں جو اردو میں مستعمل نہیں
یہاں
non_urdu_removed
کالم ان الفاظ کی فہرست فراہم کرتا ہے جو فہرست سے خارج کیے گئے
 
آخری تدوین:

ظہیراحمدظہیر

لائبریرین
بظاہر تو آپ کا اعتراض درست لگتا ہے لیکن اس وقت تک جب تک آپ خارج فہرست الفاظ کو نہیں دیکھتے۔

دو ورژنز کا تقابل یا ڈیفرینس فائل دیکھیے کہ کس طرح کے الفاظ خارج فہرست ہوئے۔ یہ سب قرآنی اور عربی الفاظ ہیں جو اردو میں مستعمل نہیں
یہاں
non_urdu_removed
کالم ان الفاظ کی فہرست فراہم کرتا ہے جو فہرست سے خارج کیے گئے
نظامی صاحب، کسی بھی قسم کی کوئی فہرستِ الفاظ تب تک کوئی معنی نہیں رکھتی جب تک کہ اس میں موجود الفاظ کے رد و قبول کے اصول معلوم نہ ہوں ۔ آپ منظم طریقے سے اپنا طریقہ کار لکھیے تاکہ میں اپنی رائے دے سکوں ۔
اردو کا معاملہ انگریزی سے بالکل ہی مختلف ہے ۔ تحریری اردو میں مفرد الفاظ کے علاوہ بہت ساری اضافی و صفتی تراکیب بھی عام مستعمل ہیں ۔بہت ساری عطفی تراکیب بھی عام مستعمل ہیں ۔عظیم الشان ، علی الاعلان، بین السطور ، مندرجہ بالا ، دیدہ و دانستہ ، وغیرہ عام مستعمل لفظ ہیں اور میرا گمان ہے کہ یہ دو ہزار الفاط کی فہرست میں جگہ پائیں گے۔ اردو سیکھنے والوں کے لیے یہ عام مستعمل تراکیب سکیھنا ناگزیر ہے۔
اب سوال یہ پیدا ہوتا ہے کہ آپ متن سے صرف مفرد الفاظ چن رہے ہیں یا پھر تراکیب بھی چن رہے ہیں؟
کیا آپ کسی تحریر میں موجود عربی اور فارسی عبارات یا اشعار وغیرہ کو بھی اردو عبارت کی طرح برت رہے ہیں یا انہیں خارج از مواد کردیتے ہیں ؟
اسمائے علَم جیسے ، ہندوستان ،دہلی ، اسلم ، محمد ، خان وغیرہ کو شمار سے خارج کرنے کا کیا طریقہ استعمال کررہے ہیں؟

ایسے اور بہت سے سوالات اور مسائل ہیں کہ جن کا حل آپ کو اپنے لفظ شماری کے طریقۂ کار میں پہلے سے ڈالنا پڑے گا۔ کئی ہزار الفاظ کی فہرست کو لفظ بہ لفظ پرکھنا اور موازنہ کرنا تو درست طریقۂ کار نہیں ہے اور بہت وقت طلب کام ہے جس میں بشری غلطی کا امکان تو پھر بھی رہے گا۔
 

الف نظامی

لائبریرین
نظامی صاحب، کسی بھی قسم کی کوئی فہرستِ الفاظ تب تک کوئی معنی نہیں رکھتی جب تک کہ میں موجود الفاظ کے رد و قبول کے اصول معلوم نہ ہوں ۔ آپ منظم طریقے سے اپنا طریقہ کار لکھیے تاکہ میں اپنی رائے دے سکوں ۔
جی ضرور۔
یہ طریقہ کار ہے:
پہلے کارپس سے غیر ضروری حروف کا اخراج کیا گیا
جو غیر ضروری حروف نکالے گئے وہ یہ ہیں:
ؒ
ؓ
ؐ
ۙ
ۤ
ۚ
ۧ
ٓ
ۭ
ٌ
ْ
ّ
#
%
,
?
@
[
]
_
`
{
}
~
¦
¨
¯
´
¸
¿
؛
؟
٬
٬٬


’’
¢
£
¤
¥
+
<
>
±
«
»
×
÷
§
©
®
°
µ


۝
۝ۙ
؎
؀
٭
٭٭
۞
؏
؍
؁
؃
nan
ß
þ
ü
ý
ÿ
ۗ



اس کے بعد کارپس کے متن کو نارملائز کیا گیا یعنی غیر معیاری یونیکوڈ حروف کو معیاری یونیکوڈ حروف میں تبدیل کیا گیا
اس کے بعد کارپس میں موجود ہر لفظ کی تعداد معلوم کی گئی
اور تمام الفاظ اور ان کی تعداد کو ایکسل فائل میں جمع کیا گیا
پھر تعداد کے لحاظ سے فہرست کو سارٹ کیا گیا
اب یہ ورژن نمبر 1 ہوا۔
اس فہرست کو دیکھنے سے معلوم ہوا کہ اس میں قرآنی عربی الفاظ بھی شامل ہیں لہذا ان کو خارج کر دیا گیا۔ خارج شدہ لفظ اردو میں مستعمل نہ ہو ، اس کا تعدد ۵۰ سے زائد نہ ہو۔
خارج شدہ الفاظ کی فہرست مرتب کی گئی
اردو کا معاملہ انگریزی سے بالکل ہی مختلف ہے ۔ تحریری اردو میں مفرد الفاظ کے علاوہ بہت ساری اضافی و صفتی تراکیب بھی عام مستعمل ہیں ۔بہت ساری عطفی تراکیب بھی عام مستعمل ہیں ۔عظیم الشان ، علی الاعلان، بین السطور ، مندرجہ بالا ، دیدہ و دانستہ ، وغیرہ عام مستعمل لفظ ہیں اور میرا گمان ہے کہ یہ دو ہزار الفاط کی فہرست میں جگہ پائیں گے۔ اردو سیکھنے والوں کے لیے یہ عام مستعمل تراکیب سکیھنا ناگزیر ہے۔
اب سوال یہ پیدا ہوتا ہے کہ آپ متن سے صرف مفرد الفاظ چن رہے ہیں یا پھر تراکیب بھی چن رہے ہیں؟
مفرد الفاظ
کیا آپ کسی تحریر میں موجود عربی اور فارسی عبارات یا اشعار وغیرہ کو بھی اردو عبارت کی طرح برت رہے ہیں یا انہیں خارج از مواد کردیتے ہیں ؟
کارپس میں قرآنی عربی اور فارسی متن موجود ہےجس کو خارج از مواد کر دیا جاتا ہے اگر وہ اردو میں مستعمل نہ ہو۔

اسمائے علَم جیسے ، ہندوستان ،دہلی ، اسلم ، محمد ، خان وغیرہ کو شمار سے خارج کرنے کا کیا طریقہ استعمال کررہے ہیں؟
ان کو خارج نہیں کیا گیا

مزید تفصیلات:
کثیر الاستعمال الفاظ کی فہرست بنانے کا طریقہ کار
 
آخری تدوین:

زیک

مسافر
ظہیراحمدظہیر انگریزی جنرل سروس لسٹ اور اس کی نئی ورژنز ہیڈ ورڈز پر مشتمل ہے۔ اردو میں بھی ایسا ہی کرنا بہتر ہو گا۔

اچھا اور معیاری کارپس اس کام کے لئے انتہائی اہم ہے۔ کیمبرج لرنر کارپس شاید 4 کروڑ الفاظ پر مشتمل ہے اور کیمبرج انگلش کارپس کئی ارب
 

زیک

مسافر
متن میں مندرجہ ذیل کنٹرول کیریکٹرز بھی موجود ہیں، ان کا کیا کرنا چاہیے؟
ZWNJ zero width non joiner
PDF pop directional formatting
LRM left to right mark
ZWNBSP Zero Width No-Break Space
RLO start of right to left over-ride
RLE
الف عین سعادت زیک محب علوی دوست
میرے خیال میں ہیڈ ورڈز ہی شامل ہونے چاہئیں لہٰذا یہ کنٹرول حروف شامل نہیں ہوں گے
 

زیک

مسافر
اردو کا معاملہ انگریزی سے بالکل ہی مختلف ہے ۔ تحریری اردو میں مفرد الفاظ کے علاوہ بہت ساری اضافی و صفتی تراکیب بھی عام مستعمل ہیں ۔بہت ساری عطفی تراکیب بھی عام مستعمل ہیں ۔عظیم الشان ، علی الاعلان، بین السطور ، مندرجہ بالا ، دیدہ و دانستہ ، وغیرہ عام مستعمل لفظ ہیں اور میرا گمان ہے کہ یہ دو ہزار الفاط کی فہرست میں جگہ پائیں گے۔ اردو سیکھنے والوں کے لیے یہ عام مستعمل تراکیب سکیھنا ناگزیر ہے۔
اس معاملے میں جرمن زبان پر کام دیکھنا مناسب ہو سکتا ہے کہ اس میں کمپاؤنڈ ورڈ کافی مستعمل ہیں۔
 

الف نظامی

لائبریرین
کثیر الاستعمال مرکبات کی فہرست علیحدہ سے ایک منصوبہ ہے جس کو بعد میں مرتب کیا جا سکتا ہے۔
 
آخری تدوین:

ظہیراحمدظہیر

لائبریرین
کرلپ کی فہرست میرے پاس موجود ہے ۔ ابھی اس پر نظر ڈالی اور کئی باتیں نوٹ کی ہیں ۔ کچھ تجاویز میرے ذہن میں آرہی ہیں انہیں نمبر وار لکھ دیتا ہوں ۔
1۔ لاحقوں اور سابقوں کی مدد سے بنے الفاظ کو اجزا میں توڑنا غلط ہوگا ۔ انہیں جوں کا توں مفرد الفاظ کے طور پر رکھنا چاہیے کیونکہ ان کے معنی منفرد ہوتے ہیں ۔ مثلاً سرانجام ، رضاکار ،پتنگ باز کو مصدر اورسابقے /لاحقےمیں توڑ کر لکھا جائے تو ہر ٹکڑے کے الگ الگ معنی ہوں گے جو مکمل لفظ کے معنی سے بالکل مختلف ہیں ۔ چنانچہ لغت میں ایسے ہر لفظ کو بغیر توڑے ایک مفرد لفظ کی حیثیت سے درج کرنا ضروری ہے۔ کرلپ کی پانچ ہزاری فہرست میں اس قسم کے چند الفاظ جو سرسری جائزے پر مجھے نظر آئے وہ یہ ہیں: خلاف ورزی ، حوصلہ افزائی ، بالخصوص، بدقسمتی، سر انجام، اندھا پن ، اجارہ داری ، لچکدار ، تربیت یافتہ، فائدہ مند، غیر معمولی ، حیرت انگیز ، ترقی پسند ، نو منتخب ، فیصلہ کن ، قرعہ اندازی ، سرمایہ کاری ، لطف اندوز ، زلزلہ زدگان، غیر قانونی ، علاقہ جات ۔ ایسے الفاظ کو متون میں ڈھونڈنا آسان ہوگا کہ ان کے درمیان عموماً اسپیس نہیں دی جاتی۔ دوسری ترکیب یہ ہوسکتی ہے کہ اردو میں مستعمل سابقوں اور لاحقوں کی ایک فہرست کی مدد سے کوئی کوڈ لکھا جائے جو ایسے تمام الفاظ کو شناخت کرکے الگ کرسکے۔سابقوں اور لاحقوں کی ایسی فہرست موجود ہے ، میری نظر سے گزری ہے اور آپ کوڈ لکھنا چاہیں تو میں ڈھونڈ سکتا ہوں ۔
2۔ اضافی مرکبات کو بھی بطور "لفظِ واحد" شمار کرنا اور فہرست کا حصہ بنانا بہتر ہوگا ۔ کرلپ کی پانچ ہزاری فہرست میں کچھ الفاظ جو مجھے نظر آئے وہ یہ ہیں: وزیرِ اعظم ، دارالحکومت، سرِفہرست، قتلِ عام ، زرِ مبادلہ ۔ اور یہ کثیرالاستعمال الفاظ معلوم ہوتے ہیں ۔ میرے خیال میں کسی کوڈ کی مدد سے اضافی مرکبات کو شناخت کرنا آسان ہونا چاہیے ۔ ہر وہ لفظ کہ جس کے آخری حرف پر زیر ہو ، اُسے اور اُس سے اگلے لفظ کو شناخت کرلیا جائے تو اضافی مرکبات کی فہرست حاصل ہوجائے گی۔ اسی طرح ہر وہ لفظ جس کے آخر میں ۂ ہو ، اُسے اور اُس سے اگلے لفظ کو ملا کر مرکب کو پکڑا جاسکتا ہے ۔ البتہ جو مرکباتِ اضافی "ئے" کی مدد سے بنتے ہیں انہیں پکڑنا مشکل ہوگا ۔ یہ کام کمپیوٹر کی مدد کے بغیر شاید ہاتھ سے کرنا پڑے گا۔
3۔ کئی عطفی مرکبات تحریری زبان میں کثرت سے مستعمل ہیں انہیں بھی فہرست میں جوں کا توں شامل کرنا چاہیے۔ مثلاً نشو و نما ، آہ و زاری ، بلند و بالا ، روز و شب ، آب و دانہ ، وغیرہ ۔ یہ الفاظ اپنے معنوں میں مفرد ہیں اور انہیں اجزا میں توڑ کر وہ معنی حاصل نہیں ہوسکتے۔کمپیوٹر کوڈ کے ذریعے ان کی شناخت تو آسان ہونی چاہیے کہ دو مفرد الفاظ کے درمیان میں غیر متصل "و" موجود ہوتا ہے۔
4۔کارپس میں موجود عربی اور فارسی عبارات/ اقتباسات کو لفظوں کی تخریج سے پہلے ہی متن سے نکال باہر کرنا اگر ممکن ہوسکے تو زیادہ بہتر ہوگا کیونکہ بہت سارے عربی اور فارسی الفاظ اردو میں جوں کے توں مستعمل ہیں اور ان غیر اردو عبارات اور اقتباسات کو شاملِ متن رکھنےسے الفاظ کی فریکوئنسی متاثر ہو سکتی ہے۔ کیا ایسی عبارات کو شناخت کرنے کے لیے کوئی کوڈ بنایا جاسکتا ہے؟! اگر ہاں تو پھر سب سے پہلے ان عبارات کو متن سے خارج کرنا زیادہ بہتر ہوگا تاکہ کارپس میں صرف اور صرف اردو کے الفاظ ہی باقی رہیں۔
سوال: کیا کارپس سے حاصل ہونے والی فہرست پر کوئی اچھا اسپیل چیکر استعمال کرکے غیر اردو الفاظ کو شناخت کیا جاسکتا ہے؟
 

ظہیراحمدظہیر

لائبریرین
ظہیراحمدظہیر انگریزی جنرل سروس لسٹ اور اس کی نئی ورژنز ہیڈ ورڈز پر مشتمل ہے۔ اردو میں بھی ایسا ہی کرنا بہتر ہو گا۔

اچھا اور معیاری کارپس اس کام کے لئے انتہائی اہم ہے۔ کیمبرج لرنر کارپس شاید 4 کروڑ الفاظ پر مشتمل ہے اور کیمبرج انگلش کارپس کئی ارب
ایسا بھی کیا جاسکتا ہے ۔ اردو میں اکثر و بیشتر کسی لفظ کے مشتقات لاحقے یا سابقے لگا کر بنائے جاتے ہیں ۔ مصدر یا روٹ ورڈ کے آگے حروف کا اضافہ کرکے عموماً جمع یا تانیث و تصغیر بنائی جاتی ہے یا پھر افعال کے مختلف صیغے۔ مثلاً بھاگنا سے بھاگا ، بھاگی ، بھاگے ، بھاگوں ، بھاگیں ، بھاگیے وغیرہ۔
بہرحال ، الفاظ کو دونوں انداز سے ترتیب دیا جاسکتا ہے ۔ مصدر کے تحت اس کے تمام مشتقات یا پھر الفبائی ترتیب ۔اردو کی اکثر لغات میں الفبائی ترتیب کا اہتمام ہے۔ عربی کی تمام لغات روٹ ورڈ کے تحت تالیف کی گئی ہیں ۔اس موضوع پر کچھ روز پہلے یہاں بات ہوئی تھی۔
اہم بات وہی ہے جو آپ نے لکھی کہ ایک وسیع اور معیاری کارپس اس کام کے لیے بنیادی اہمیت رکھتا ہے۔ لیکن مسئلہ یہ کہ اردو کا اکثر معیاری لٹریچر ابھی تک یونیکوڈ میں نہیں تبدیل ہوا ہے۔ اگر اچھا او سی آر پروگرام میسر آجائے تو اچھے اور معیاری رسائل و جرائد اور نثری کتب کو یونیکوڈ میں منتقل کرنے میں بہت مدد ملے گی۔ میں نے آج کل یہ کام شروع کیا ہوا ہے ۔ جب جب کچھ وقت ملتا ہے تو میں پرانی کتب کے چند اوراق گوگل ڈاکس کے ذریعے یونیکوڈ ٹیکسٹ میں تبدیل کرتا رہتا ہوں ۔ لیکن ظاہر ہے کہ یہ کام چند افراد کے بس کا نہیں بلکہ کسی ادارے یا یونیورسٹی وغیرہ کے لائق ہے۔
 

ظہیراحمدظہیر

لائبریرین
اس معاملے میں جرمن زبان پر کام دیکھنا مناسب ہو سکتا ہے کہ اس میں کمپاؤنڈ ورڈ کافی مستعمل ہیں۔
اس سلسلے میں محفل پر موجود جرمن جاننے والے محبانِ اردو توجہ فرمائیں اور نظامی صاحب کو اس کام میں کوئی مشورہ دے سکیں تو بہت اچھا ہوگا۔

میری جرمن زبان کی استعداد تو صرف چھینک کا جواب دینے کی حد تک ہے۔ :D
 

الف نظامی

لائبریرین
کرلپ کی فہرست میرے پاس موجود ہے ۔ ابھی اس پر نظر ڈالی اور کئی باتیں نوٹ کی ہیں ۔ کچھ تجاویز میرے ذہن میں آرہی ہیں انہیں نمبر وار لکھ دیتا ہوں ۔
1۔ لاحقوں اور سابقوں کی مدد سے بنے الفاظ کو اجزا میں توڑنا غلط ہوگا ۔ انہیں جوں کا توں مفرد الفاظ کے طور پر رکھنا چاہیے کیونکہ ان کے معنی منفرد ہوتے ہیں ۔ مثلاً سرانجام ، رضاکار ،پتنگ باز کو مصدر اورسابقے /لاحقےمیں توڑ کر لکھا جائے تو ہر ٹکڑے کے الگ الگ معنی ہوں گے جو مکمل لفظ کے معنی سے بالکل مختلف ہیں ۔ چنانچہ لغت میں ایسے ہر لفظ کو بغیر توڑے ایک مفرد لفظ کی حیثیت سے درج کرنا ضروری ہے۔ کرلپ کی پانچ ہزاری فہرست میں اس قسم کے چند الفاظ جو سرسری جائزے پر مجھے نظر آئے وہ یہ ہیں: خلاف ورزی ، حوصلہ افزائی ، بالخصوص، بدقسمتی، سر انجام، اندھا پن ، اجارہ داری ، لچکدار ، تربیت یافتہ، فائدہ مند، غیر معمولی ، حیرت انگیز ، ترقی پسند ، نو منتخب ، فیصلہ کن ، قرعہ اندازی ، سرمایہ کاری ، لطف اندوز ، زلزلہ زدگان، غیر قانونی ، علاقہ جات ۔ ایسے الفاظ کو متون میں ڈھونڈنا آسان ہوگا کہ ان کے درمیان عموماً اسپیس نہیں دی جاتی۔ دوسری ترکیب یہ ہوسکتی ہے کہ اردو میں مستعمل سابقوں اور لاحقوں کی ایک فہرست کی مدد سے کوئی کوڈ لکھا جائے جو ایسے تمام الفاظ کو شناخت کرکے الگ کرسکے۔سابقوں اور لاحقوں کی ایسی فہرست موجود ہے ، میری نظر سے گزری ہے اور آپ کوڈ لکھنا چاہیں تو میں ڈھونڈ سکتا ہوں ۔
بالکل سابقوں اور لاحقوں کی ایسی فہرست درکار ہوگی۔

2۔ اضافی مرکبات کو بھی بطور "لفظِ واحد" شمار کرنا اور فہرست کا حصہ بنانا بہتر ہوگا ۔ کرلپ کی پانچ ہزاری فہرست میں کچھ الفاظ جو مجھے نظر آئے وہ یہ ہیں: وزیرِ اعظم ، دارالحکومت، سرِفہرست، قتلِ عام ، زرِ مبادلہ ۔ اور یہ کثیرالاستعمال الفاظ معلوم ہوتے ہیں ۔ میرے خیال میں کسی کوڈ کی مدد سے اضافی مرکبات کو شناخت کرنا آسان ہونا چاہیے ۔ ہر وہ لفظ کہ جس کے آخری حرف پر زیر ہو ، اُسے اور اُس سے اگلے لفظ کو شناخت کرلیا جائے تو اضافی مرکبات کی فہرست حاصل ہوجائے گی۔ اسی طرح ہر وہ لفظ جس کے آخر میں ۂ ہو ، اُسے اور اُس سے اگلے لفظ کو ملا کر مرکب کو پکڑا جاسکتا ہے ۔ البتہ جو مرکباتِ اضافی "ئے" کی مدد سے بنتے ہیں انہیں پکڑنا مشکل ہوگا ۔ یہ کام کمپیوٹر کی مدد کے بغیر شاید ہاتھ سے کرنا پڑے گا۔
بہت شکریہ۔ اس پر بھی کام کرتا ہوں۔

3۔ کئی عطفی مرکبات تحریری زبان میں کثرت سے مستعمل ہیں انہیں بھی فہرست میں جوں کا توں شامل کرنا چاہیے۔ مثلاً نشو و نما ، آہ و زاری ، بلند و بالا ، روز و شب ، آب و دانہ ، وغیرہ ۔ یہ الفاظ اپنے معنوں میں مفرد ہیں اور انہیں اجزا میں توڑ کر وہ معنی حاصل نہیں ہوسکتے۔کمپیوٹر کوڈ کے ذریعے ان کی شناخت تو آسان ہونی چاہیے کہ دو مفرد الفاظ کے درمیان میں غیر متصل "و" موجود ہوتا ہے۔
یہ تو ہوگیا ملاحظہ کیجیے

4۔کارپس میں موجود عربی اور فارسی عبارات/ اقتباسات کو لفظوں کی تخریج سے پہلے ہی متن سے نکال باہر کرنا اگر ممکن ہوسکے تو زیادہ بہتر ہوگا کیونکہ بہت سارے عربی اور فارسی الفاظ اردو میں جوں کے توں مستعمل ہیں اور ان غیر اردو عبارات اور اقتباسات کو شاملِ متن رکھنےسے الفاظ کی فریکوئنسی متاثر ہو سکتی ہے۔ کیا ایسی عبارات کو شناخت کرنے کے لیے کوئی کوڈ بنایا جاسکتا ہے؟! اگر ہاں تو پھر سب سے پہلے ان عبارات کو متن سے خارج کرنا زیادہ بہتر ہوگا تاکہ کارپس میں صرف اور صرف اردو کے الفاظ ہی باقی رہیں۔
کثیر الاستعمال الفاظ کی فہرست بنانے کے عمل میں مینول طریقے سے جن عربی الفاظ کو نکالا گیا اور ان کی فہرست بھی مرتب ہوگئی۔
اب آئندہ اسی فہرست میں موجود الفاظ کی مدد سے کارپس سے عربی الفاظ نکالنے کا کام کر لیا جائے گا
 
الف نظامی بھائی اس سلسلے میں تکنیکی حوالے سے آپ بہتر جانتے ہوں گے، ہم کس انداز سے حصہ ڈال سکتے ہیں؟
ذخیرہ الفاظ کے حوالے سے دو کروڑ سے کچھ زیادہ ذخیرہ تو واقعی کافی کم لگ رہا ہے۔ میں کئی سال سے کمپوزنگ، وائس ٹائپ اور گوگل او سی آر کر رہا ہوں اور اس وقت میرے پاس اپنی تیار کردہ تین سو سے زائد فائلیں موجود ہیں جن میں سے شاید سو کے قریب فائلیں ایک لاکھ سے زائد الفاظ پر مشتمل ہیں۔ اسی طرح محترم اعجاز عبید صاحب کی کتب کے علاوہ بہت سی کتب (سو سے زائد) یونیکوڈ میں میرے پاس موجود ہیں۔ کیا یہ چیزیں ڈیٹا بیس کے حوالے سے کچھ مدد کرسکتی ہیں؟ البتہ ان کی فراہمی سے قبل ناشرین کے حقوق محفوظ کرنے کے لیے ان کے الفاظ میں کسی قسم کا ہیر پھیر کرنا ہوگا، ترتیب بدل کر یا انتخاب کرکے، جیسے بھی ممکن ہو۔ اگر ایسا ممکن ہے تو میں حاضر ہوں۔
 
اس سلسلے میں ایک طالب علمانہ سوال یہ ذہن میں آرہا ہے کہ آن لائن ریسورسز میں سے کیا خود اردو محفل کے ہی مراسلات سے اس سلسلے میں فائدہ اٹھایا جاسکتا ہے؟ کیا ان مراسلات کو کسی تکنیک کے ذریعے یکجا کرنا ممکن ہے؟
 

دوست

محفلین
اردو محفل کے ڈیٹا کا ایک کارپس بنانا ضروری ہے، انفارمل بول چال کے ڈیٹا کی وجہ سے اس سے موجودہ کارپس کے تنوّع میں اضافہ ہو گا۔
کئی سال پہلے ابنِ سعید کو یہ تجویز دی تھی لیکن انہوں نے پرائیویسی کے حوالے سے اعتراض کیا تھا۔ بہرحال کوئی بھی پبلک فورم کا ڈیٹا سکریپ کر سکتا ہے۔ اردو محفل کا ڈیٹا لنکاسٹر یونیورسٹی کے کارپس پورٹل پر موجود ہے۔ لنکاسٹر اردو ویب کارپس دیکھیں تو اسی فورم کا ڈیٹا ہے۔
بہرحال اس ڈیٹا کو ڈیٹا بیس سے نکال کر ٹیکسٹ میں فراہم کرنا چاہیے تاکہ اس پر مزید تحقیق ممکن ہو سکے۔ ورنہ صرف چیٹ باٹس کے استعمال میں ہی آتا رہے گا۔
 

الف نظامی

لائبریرین
الف نظامی بھائی اس سلسلے میں تکنیکی حوالے سے آپ بہتر جانتے ہوں گے، ہم کس انداز سے حصہ ڈال سکتے ہیں؟
ذخیرہ الفاظ کے حوالے سے دو کروڑ سے کچھ زیادہ ذخیرہ تو واقعی کافی کم لگ رہا ہے۔ میں کئی سال سے کمپوزنگ، وائس ٹائپ اور گوگل او سی آر کر رہا ہوں اور اس وقت میرے پاس اپنی تیار کردہ تین سو سے زائد فائلیں موجود ہیں جن میں سے شاید سو کے قریب فائلیں ایک لاکھ سے زائد الفاظ پر مشتمل ہیں۔ اسی طرح محترم اعجاز عبید صاحب کی کتب کے علاوہ بہت سی کتب (سو سے زائد) یونیکوڈ میں میرے پاس موجود ہیں۔ کیا یہ چیزیں ڈیٹا بیس کے حوالے سے کچھ مدد کرسکتی ہیں؟ ا
بہت شکریہ عبید انصاری صاحب ! جی بالکل یہ ڈیٹا کارآمد تو ہے لیکن کاپی رائٹ کا مسئلہ اپنی جگہ موجود رہے گا۔

کارپس میں مزید متن شامل کرنے کے لیے الف عین صاحب نے مزید کتب کا بتایا ہے جہاں سے ڈیٹا اکٹھا کر لیا جائے گا اور ظہیراحمدظہیر صاحب کے پاس بھی کچھ متن موجود ہے۔
 
آخری تدوین:

الف نظامی

لائبریرین
اردو محفل کے ڈیٹا کا ایک کارپس بنانا ضروری ہے، انفارمل بول چال کے ڈیٹا کی وجہ سے اس سے موجودہ کارپس کے تنوّع میں اضافہ ہو گا۔
کئی سال پہلے ابنِ سعید کو یہ تجویز دی تھی لیکن انہوں نے پرائیویسی کے حوالے سے اعتراض کیا تھا۔ بہرحال کوئی بھی پبلک فورم کا ڈیٹا سکریپ کر سکتا ہے۔ اردو محفل کا ڈیٹا لنکاسٹر یونیورسٹی کے کارپس پورٹل پر موجود ہے۔ لنکاسٹر اردو ویب کارپس دیکھیں تو اسی فورم کا ڈیٹا ہے۔
بہرحال اس ڈیٹا کو ڈیٹا بیس سے نکال کر ٹیکسٹ میں فراہم کرنا چاہیے تاکہ اس پر مزید تحقیق ممکن ہو سکے۔ ورنہ صرف چیٹ باٹس کے استعمال میں ہی آتا رہے گا۔
کارپس کے متن پر anonymization کا عمل ہو جائے تو پھر اس متن سےجملوں کو رینڈم ترتیب سے نکال لیا جائے۔ اس طرح پیراگراف کا سٹرکچر غائب ہو جائے گا۔
 

سعادت

تکنیکی معاون
الف نظامی کیا آپ نے مخزن کا ڈیٹا بھی دیکھا ہے؟ یہ ایک اردو کارپس ہے جو متن‌ساز کی ٹیم نے تیار کیا ہے۔ البتہ، اپنے پروگرامز میں اس کا ڈیٹا استعمال کرنے سے پہلے اس کے لائسنس/کاپی‌رائٹ کی تفصیلات کا مطالعہ ضرور کیجیے گا۔ اس کی docs اور stats ڈائریکٹرِیز بھی دلچسپ ہیں۔
 
Top