اردو لغت اور سپیل چیکر کی ضروریات

اسد

محفلین
پچھلے کئی دنوں سے میں اردو سپیل چیکر کی ڈکشنری (فہرستِ الفاظ) تیار کرنے پر کام کر رہا ہوں۔ اس سے پہلے کبھی اس کام کا خیال اس لئے نہیں آیا تھا کیونکہ میں اردو میں سوائے محفل کے اور کہیں کم ہی لکھتا ہوں اور اوپرا 12 میں اردو سپیل چیکر موجود نہیں۔ کام شروع کرنے سے پہلے میرا خیال تھا کہ یہ زیادہ مشکل نہیں ہونا چاہیے۔ لیکن اب پتہ چل رہا ہے کہ اس کام میں کتنے مسائل ہیں اور اب تک بہتر ڈکشنری کیوں نہیں بنائی جا سکی۔ میرے خیال میں سب سے پہلے ہمیں کچھ اصول وضع کرنے ہوں گے جن کی بنیاد پر یہ کام بہتر طریقے پر ہو سکے۔ پہلے میں چند مسائل کا ذکر کروں گا اور پھر وہ اصول بتاؤں گا جن کے تحت میں کام کرنا چاہتا ہوں۔

سب سے پہلا مسئلہ وہی ہے جو ہمارے بیشتر کاموں اور پروجیکٹس کا ہوتا ہے، یعنی نئے سرے سے پہیہ ایجاد کرنا۔ ایک ہی فرد کو پروجیکٹ سے متعلق تمام کام کرنے ہوتے ہیں، چاہے اسے ان میں سے آدھے کام بھی نہ آتے ہوں اور نئے سرے سے کرنے پڑتے ہیں۔ پہلے سے اس پروجیکٹ پر کیا ہوا کام یا تو دستیاب نہیں ہوتا یا دستیاب ہونے کی صورت میں اس کی تفصیلات نہیں دی ہوتیں کہ کام کس طرح سے اور کن اصولوں کی بنیاد پر کیا گیا تھا۔ مثلاً سپیل چیکر کے لئے الفاظ کی بہت سی فہرستیں دستیاب ہیں لیکن صرف اعجاز اختر صاحب ( الف عین ) کی فہرست کے بارے میں علم ہے کہ انہوں نے ہر لفظ کی وہ تمام صورتیں فہرست میں شامل کی ہیں جس طرح لوگ انہیں ٹائپ کرتے ہیں۔ انہوں نے حرکات (زیر/زبر/پیش) بھی شامل کی ہیں(جو میں شامل نہیں کرنا چاہتا)، ئی اور ئے کے لئے ئ اور ئے بھی شامل کیے ہیں، وغیرہ۔ میں محمد شاکر عزیز ( دوست ) کے فراہم کردہ کورپس استعمال کرنے کی کوشش کروں گا، لیکن اس میں وقت لگے گا۔

مجھے گرامر کا کچھ علم نہیں ہے، سکول میں اردو اور انگلش دونوں میں گرامر صرف پرچہ پاس کرنے کے حساب سے پڑھی تھی۔ اب اندازہ ہو رہا ہے کہ اچھی لغت بنانے کے لئے گرامر کا اچھا خاصا علم ضروری ہے۔ اس کے بغیر ہم root الفاظ نہیں جان سکتے، اس کا ایک حل یہ ہو سکتا تھا کہ root الفاظ کی فہرست استعمال کی جائے، جو کہ دستیاب نہیں ہے۔

ایک مسئلہ الفاظ کی موضوعاتی فہرستوں کی عدم دستیابی ہے۔ اردو زبان کے تمام الفاظ کی فہرست میں تو لاکھوں الفاظ ہیں، لیکن عمومی ڈکشنری کے لئے ان میں سے زیادہ استعمال ہونے الفاظ استعمال کرنے ہوتے ہیں۔ اس کے لئے فریکوینسی ٹیبل استعمال ہوتے ہیں، جو اردو کے لئے انٹرنیٹ پر دستیاب نہیں ہیں۔ مثلاً اردو میں عام طور پر سب سے زیادہ استعمال ہونے والے دس ہزار root الفاظ سے نکلنے والے تمام الفاظ کو لغت میں شامل کیا جائے اور اس کے علاوہ عام دلچسپی کے موضوعات پر تمام الفاظ شامل کیے جائیں۔ ان میں ملکوں، شہروں اور علاقوں کے نام شامل ہیں۔ سبزیوں، پھلوں، پھولوں، پودوں اور درختوں کے نام شامل ہیں۔ اہم شخصیات کے نام شامل ہیں، جن میں موجودہ دور کے نام علیحدہ، تاریخی نام علیحدہ اور مذہبی نام علیحدہ فہرستوں میں ہونے چاہییں تاکہ ہم اپنی ضرورت کے حساب سے انہیں شامل کر سکیں۔ اسی طرح بہت سے موضوعات ہیں۔ انٹرنیٹ پر بہت سی فہرستیں موجود ہیں لیکن ان میں سے براہِ راست قابل استعمال فہرستوں کی تعداد نہ ہونے کے برابر ہے۔ الفاظ نکالنے پڑتے ہیں اور ہر فہرست کا فورمیٹ مختلف ہوتا ہے۔ مجھے اللہ تعالىٰ کے ناموں کی فہرست ڈھونڈنے میں وقت لگ گیا۔ ہر جگہ یہ فہرستیں پریزنٹیشن کے حساب دی گئی تھیں۔

سابقوں، لاحقوں کی فہرستوں کا نہ ہونا۔ ہر کتاب میں اور ویب سائٹس پر انہی آٹھ دس سابقوں اور لاحقوں کا استعمال کیا گیا ہے جو ڈیڑھ صدی پہلے انگلش ماہرین نے اپنی کتابوں میں لکھے تھے۔ کسی نے ان کی تفصیلی فہرست نہیں دی۔ ایک افسوسناک بات یہ ہے کہ انٹرنیٹ پر جو تحقیقی مواد دستیاب ہے وہ انگلش زبان سے متعلق لوگوں نے تیار کیا ہے یا بھارتی زبانوں اور کمپیوٹر سے متعلق لوگوں نے۔ مجھے کچھ سابقے اور لاحقے ایسی سائٹس اور پی ڈی ایف فائلوں سے ملے جن میں 'فرتیلا/فرتیلی' اور 'روجانہ' یا 'کدر/بکدر' کے الفاظ موجود تھے۔ لیکن ان لوگوں نے کمپیوٹر استعمال کرتے ہوئے پہلے اردو میں مستعمل سابقے اور لاحقے دریافت کیے، اور پھر ان کو استعمال کرتے ہوئے الفاظ کے root معلوم کرنے کا طریقہ تشکیل دیا۔ یہ سب ریسرچ کا حصہ تھا، ان کے پیپرز میں تفصیل نہیں دی گئی۔

زیادہ تر اوپن سورس پروجیکٹ اب ہَن سپیل (hunspell) استعمال کرتے ہیں کیونکہ صرف یہی یونیکوڈ کو مکمل طور پر سپورٹ کرتا ہے، یہ پرانے پروگراموں (ispell/aspell/myspell) سے مختلف ہے کیونکہ ہنگری کی زبان میں کچھ ایسی خصوصیات ہیں جو یہ پروگرام سپورٹ نہیں کرتے تھے۔ ہنگری والوں نے اپنی زبان کے لئے ہَن سپیل تیار کیا۔ یہ انتہائی طاقتور سسٹم استعمال کرتا ہے جس میں زبان کی تمام خصوصیات کا احاطہ کیا گیا ہے۔ اس میں سابقے/لاحقے استعمال کرتے ہوئے ڈکشنری کمپریس کرنے کی سہولت موجود ہے(جس میں میں ابھی تک کامیاب نہیں ہو سکا)۔

اردو کے ساتھ ایک مسئلہ کمپیوٹر پر ٹائپنگ کے قوائد کا نہ ہونا بھی ہے، ہم نے مرکب الفاظ کو لکھنے کے اصول نہیں بنائے۔ مثلاً عبد اللہ اور خوش فہمی کس طرح لکھے جائیں، دونوں الفاظ کے درمیان کیا ٹائپ کیا جائے؟ سپیس، نو-بریک-سپیس، زیرو-وڈتھ-نون-جوائنر، زیرو-وڈتھ-سپیس، زیرو-وڈتھ-نو-بریک-سپیس یا کوئی اور؟ فارسی کی سائٹس پر میں نے دیکھا کہ وہ پی ایچ ڈی اور بی بی سی قسم کے الفاظ کے درمیان نو-بریک-سپیس استعمال کرتے ہیں تاکہ یہ دو سطروں میں تقسیم نہ ہو سکیں، ہمیں بھی ایسا ہی کرنا چاہیے۔ اصول بنانا اس لئے مشکل ہے کہ ہم کتنے ہی مختلف کی بورڈ لے آؤٹ استعمال کرتے ہیں۔ بہت سے لوگ ویب سائٹس پر موجود پلگ ان کی بورڈ استعمال کرتے ہیں۔ یہ دیکھ کر مجھے اندازہ ہوا کہ اردو میں صرف ایک سپیل چیکر سے کام نہیں چلے گا بلکہ تین کی ضرورت پڑے گی۔

1- عام سپیل چیکر جو براؤزر اور ورڈ پروسیسر میں استعمال ہو اور غلطیوں کی تصحیح کی اوپشن دے۔ اس وقت ہم ایسے ہی سپیل چیکر استعمال کر رہے ہیں۔

2- مختصر جاواسکرپٹ یا سرور سائڈ سکرپٹ جو براؤزر میں کسی ٹیکسٹ ایریا کے متن سے ایک بٹن دبانے پر انتہائی عام غلطیاں دور کر دے۔ مثلاً عربی کاف کو اردو کاف اور عربی ي کو اردو ی سے تبدیل کر دے۔ بی بی سی میں سپیس کو نو-بریک-سپیس سے تبدیل کر دے، وغیرہ۔ یہ ہر ویب سائٹ کے لئے ضرورت کے حساب سے تھوڑا مختلف ہو گا۔

3- ایک علیحدہ ایپلیکیشن جو کسی فائل کو پڑھے اور بہت سے قوائد اور اصول استعمال کرتے ہوئے غلطیاں دور کرے۔ ایک مثال یہ ہے کہ غلط طور پر جوڑ کر لکھے جانے والے الفاظ کی فہرست بنائیں اور پروگرام انہیں تبدیل کر دے، مثلاً 'روزوشب' کو 'روز و شب' میں۔ اس کے علاوہ بعض الفاظ ایسے ہوتے ہیں جو کسی مخصوص لفظ کے بعد ہی استعمال ہوتے ہیں، پروگرام یہ چیک کرے کہ ایسے الفاظ درست جگہ پر ہی استعمال ہو رہے ہیں۔ ئ اور ئے جن الفاظ کے آخر میں ئی اور ئے کی جگہ استعمال ہو رہے ہوں انہیں تبدیل کر دیا جائے۔ پروگرام چیک کر سکتا ہے کہ دو زبر صرف الف پر لفظ کے آخر میں استعمال ہوں۔ یہ پروگرام اضافے کے بعد گرامر چیک کرنے لئے بھی استعمال ہو سکتا ہے۔

ایک مسئلہ کتابی اصولوں کو کمپیوٹر پر لانے میں یونیکوڈ کے قوائد اور فونٹس کی سپورٹ کا ہوتا ہے۔ ہم کن یونیکوڈ حروف کو اردو حروف میں شامل کریں گے؟ کیا ہم الف مکسورہ ( ى U+0649) استعمال کریں گے؟ اس وقت زیادہ تر لوگ چھوٹی یے استعمال کرتے ہیں، بہت ہوتا ہے تو اوپر کھڑا الف لگا دیتے ہیں۔ الف کے اوپر یا نیچے ہمزہ والے حروف استعمال کریں گے؟ زیادہ تر لوگ عربی استعمال نہیں کرتے ان کا خیال رکھنا ہو گا۔ ہمزہ ء کا استعمال کیسے ہو گا؟ الفاظ کے آخر میں ئ کیسے استعمال ہو گا؟ (ابھی میں صرف ان ترکیبوں میں یہ حرف چھوڑ رہا ہوں جن میں میرے خیال میں اس کی ضرورت ہے، جیسے سعئِ لا حاصل وغیرہ۔ لیکن اگر ان الفاظ کی فہرست ہو تو بہتر ہے۔) ایسی ترکیبوں کی فہرست بھی ایپلیکیشن میں استعمال ہو جائے گی۔

میں ابتدائی طور پر اوپن/لیبرے آفس کی ڈکشنری (ہَن سپیل فورمیٹ) تیار کر رہا ہوں جو فائرفوکس میں آسانی سے انسٹال ہو جاتی ہے۔ میں اس میں زیر/زبر/پیش شامل نہیں کر رہا ہوں اور ڈکشنری میں اصول شامل کر رہا ہوں کہ ان حرکات کو نظرانداز کر دے۔ یعنی سپیل چیکر کے لئے اَلِف، اَلَف، اُلِف وغیرہ تمام درست ہوں گے کیونکہ اس کے لئے یہ تمام لفظ 'الف' کے برابر ہوں گے جو ڈکشنری میں موجود ہے۔ میں تشدید شامل کر رہا ہوں اور کوشش کر رہا ہوں کہ اس کی جگہ غلط نہ ہو۔ اگر تشدید والے الفاظ کی فہرست ہوتی تو کام کچھ آسان ہو جاتا۔

موضوعاتی فہرستیں اگلے مرحلے میں اردو-اردو، اردو-انگلش لغت اور تھیسارس کے لئے استعمال ہو سکتی ہیں۔ ان فہرستوں کو موضوع سے دلچسپی رکھنے والے افراد بڑھا سکتے ہیں۔ عربی، فارسی، ہندوستانی اور دیگر زبانوں میں ناموں کی علیحدہ علیحدہ فہرستیں ہونی چاہییں۔

اصول وضع کرنا ضروری ہے، اس کے بعد دیکھا جائے کہ ان میں سے کون سے اصول فوری طور پر استعمال ہو سکتے ہیں اور کون سے بعد میں۔ پروگرامرز گرامر کے اصول نہیں جانتے، ان کے لئے گرامر سے واقف افراد اصول وضع کریں، مثالوں کے ساتھ واضح کریں اور ایکسیپشنز بھی بتائیں، ایسی زبان استعمال کریں جو پروگرامرز سمجھ سکیں۔

املا کے اصول بھی واضح ہونے چاہییں، انگلش الفاظ کو اردو میں لکھتے ہوئے پاکستانی املا اور ہندوستانی املا میں فرق ہے۔ پاکستانی بہت سی جگہوں پر اضافی ی استعمال کرتے ہیں اور بعض جگہوں پر اضافی و۔ اس کے علاوہ الفاظ کے درمیان ہمزہ ئ کا استعمال بھی زیادہ ہے۔ انہیں کیسے ہینڈل کیا جائے؟ میں خود O کے لئے واؤ استعمال کرنے کی کوشش کرتا ہوں لیکن اردو میں اس کے لئے الف استعمال کیا جاتا رہا ہے۔ اس سے تلفظ میں فرق آتا ہے اور مشین ٹرانسلٹریشن مشکل ہو جاتی ہے، اس پر بھی غور ہونا چاہیے۔ ایک مرتبہ یہ اصول تیار کر لیے جائیں تو کئی آسانیاں پیدا ہو جائیں گی۔

ایک اہم چیز اردو حروف کا سورٹنگ آرڈر ہے، یونیکوڈ میں عربی حروف پہلے ہیں اور اردو، فارسی، وغیرہ کے مخصوص حروف بعد میں اس لئے سورٹ کرنے پر بخت پہلے آتا ہے اور بچت بعد میں۔ اس پر بھی کام ہونا چاہیے۔
 
ایک زبردست اور انتہائی ناگزیر پراجیکٹ۔ شہروں کے ناموں کی اردو فہرست اردو ویکیپیڈیا میں دستیاب ہے۔ جس میں ہمارا اندازہ ہے پچیس ہزار نام ہونگے۔
 
نیز کاشف عقیل صاحب نے غالبا ڈاٹ نیٹ میں املا کی درستگی کے لیے ایک سکرپٹ بھی لکھی تھی جس میں الفاظ کی فہرست شامل کرنے پر خودکار انداز میں درستگی ہوجاتی تھی، لیکن اب ان کی آنلائن سرگرمیاں کافی محدود ہوگئی ہے اس لیے شاید ان سے رابطہ نہ ہوسکے۔ لیکن ہم انہیں اس دھاگہ کا ربط ایمیل کرتے ہیں شاید ان کی تکنیکی مہارت سے بھی استفادہ کیا جاسکے۔
 
البتہ خودکار درستگی املا کے لیے پائیتھون اسکرپٹ مہیا ہے جس سے ہم فی الحال کام لیتے ہیں لیکن وہ محض میڈیاویکی کے لیے بنائی گئی ہے۔
 

سید ذیشان

محفلین
نہایت مفید کام کرنے کی ٹھانی ہے اس کی کامیابی کے لئے دعائیں۔ اس سلسلے میں شائد میں آپ کی کچھ چیزوں میں مدد کر سکتا ہوں۔ کچھ فرصت ملے تو ایک تفصیلی پوسٹ لکھوں گا۔

پس نوشت: درج زیل ریسرچ پیپر آپ کے لئے کافی مفید ثابت ہو سکتا ہے:

Assas-Band, an affix-exception-list based Urdu stemmer


اسی پیپر کی بنیاد پر بنی اپلیکیشن اور الفاظ کی فہرستیں اس لنک پر موجود ہیں:
http://www.cle.org.pk/software/langproc/UrduStemmer.htm
 
آخری تدوین:

الف عین

لائبریرین
بہت عمدہ۔ لیکن بغیر اعراب کے درست املا کس طرح چیک کی جا سکتی ہے؟ اگر گاف پیش لام گُل کو گام لام پیش لکھا گیا ہو تو!!!
میں نے حال ہی میں ایک کتاب جو دہلی یونیورسٹی کے شعبہ اردو میں ایک صاحب کا تحقیقی مقالہ ہے، اس پر تبصرہ کرتے ہوئے مصنف کو ای میل بھی کی ہے اور علی گڑھ میں ہی شعبہ اردو کے کچھ احباب کو متوجہ کیا ہے کہ املا کو کمپیوٹر پر تائپ کرنے کے مطابق ’معیارانے‘ کی اشد ضرورت ہے۔ کاش کوئی نقار خانے میں یہ آواز سن لے!!
اصل مسائل صرف تین ہیں،
1۔ اردو میں بہت سے الفاظ ایسے ہیں جو محض دو حروف پر مبنی ہیں، جب کہ اکثر سپیل چیکر ان میں اغلاط کو اگنور کر دیتے ہیں
2۔ بنیادی مسئلہ تو یونیکوڈ کنزورشیم کا پیدا کردہ ہے۔ کیا عربی کے مخصوص حروف صرف عربی میں استعمال ہوتے ہیں؟ اگر ک، ہ، ی وغیرہ کی معیاری یونی کوڈ قدر ہر زبان میں ایک ہی مقرر کی جاتی تو یہ مسائل نہ پیدا ہوتے جو مختلف کی بورڈس استعمال کرنے کے باعث ہو رہے ہیں۔ اور صرف کی بورڈ کیوں۔ ان پیج کنورٹر بھی اکثر مختلف کیریکترس استعمال کرتے ہیں۔ اکثر وئب سائٹ پر ان پیج سے کنورٹ کیا ہوا مواد فراہم کیا گیا ہے، جس کی ایڈٹنگ نہیں کی گئی، یہاں تک کہ قرآنی آیتوں تک کو قبول کر لیا گیا ہے۔اور کارپس اسی قسم کی سائٹس سے تیار ہوتے ہیں۔
گوگل ترجمہ کر کے دیکھیں تو اس میں بھی اردو میں ک، ہ اور ی وغیرہ مختلف استعمال ہوئی نظر آتی ہیں۔ یونی کوڈ کیریکٹر سیٹ کے مسائل کے لئے تو میرے خیال میں پاکستانی مقتدرہ اردو زبان کو ذمہ دار قرار دیا جا سکتا ہے۔ اور اس کو سدھارنے کے لئے بھی ان کو ہی مجبور کیا جانا چاہئے۔
3۔ جب تک کہ ہماری ٹائپنگ عادات نہیں بدلیں گی، تب تک مسائل جاری رہیں گے۔ غلط جگہ سپیس دے دینا، اور جہاں ضروری ہو وہاں نہ دینا ۔ مثال کے طور پر تقریباً ہر فائل جو میں دیکھتا ہوں برقی کتابوں کے لئے، ان میں ’اور‘ کو بھی کئی جگہ ’او۔ سپیس۔ ر‘ لکھا ہوتا ہے۔ جو کسی انجن میں سپیل کی غلطی نہیں دکھا سکتا کہ ’او‘ بھی ویلڈ لفظ ہے۔’لگام‘ کو ’لگا۔ سہیس۔ م‘ یا ’نیام’ کو ’نیا۔ سپیس ۔م‘ لکھنے سے بھی سپیل چیکنگ ناکام رہتی ہے کہ |لگا‘ اور ’نیا‘ بھی درست الفاظ ہیں۔
 

اسد

محفلین
بہت عمدہ۔ لیکن بغیر اعراب کے درست املا کس طرح چیک کی جا سکتی ہے؟ ...
1۔ اردو میں بہت سے الفاظ ایسے ہیں جو محض دو حروف پر مبنی ہیں، جب کہ اکثر سپیل چیکر ان میں اغلاط کو اگنور کر دیتے ہیں ...
3۔ جب تک کہ ہماری ٹائپنگ عادات نہیں بدلیں گی، تب تک مسائل جاری رہیں گے۔ غلط جگہ سپیس دے دینا، اور جہاں ضروری ہو وہاں نہ دینا ۔ ...
میرا مقصد عام لوگوں کے لئے ایک ڈکشنری تیار کرنا ہے، جو زیادہ تر انٹرنیٹ پر استعمال ہو گی۔ اس میں وقت کے ساتھ اضافہ کیا جا سکے گا۔ زیادہ تر لوگ اعراب استعمال نہیں کرتے، انہیں اس سے مسئلہ نہیں ہونا چاہیے۔
ایک بہت بڑا مسئلہ نستعلیق فونٹس میں سپیس کی چوڑائی کا ہے، چاہے ان‌پیج ہو یا براؤزر یا ورڈ‌پروسیسرز، سب میں سپیس نظر ہی نہیں آتی۔ لوگوں کو محض خوبصورتی چاہیے، چاہے وہ املا کی غلطیوں سے پر ہو، وہ بدشکل مونو سپیسڈ فونٹس برداشت نہیں کرتے۔

میں نے آپ کی فہرست سے فائرفوکس کے لئے ڈکشنری تیار کی ہے جو یہاں سے ڈاؤنلوڈ/انسٹال کی جا سکتی ہے۔ میں اس کے لئے علیحدہ لڑی کہیں اور شروع کرتا ہوں(ایڈٹ: یہاں نئی لڑی شروع کی ہے)۔ فائرفوکس میں کھولیں گے تو انسٹال کرنے کے لئے اجازت مانگے گا۔
ذیل میں آپ کی ڈکشنری کا نتیجہ فائرفوکس میں نستعلیق فونٹ اور نوٹ‌پیڈ++ میں مونو سپیسڈ فونٹ میں موجود ہے:
Dict-IN-err1.png

اور وہی عبارت میری زیر تعمیر ڈکشنری میں۔
Dict-IN-err2.png

چاہے سپیل چیکر غلطی نہ پکڑ سکے پھر بھی مونو سپیسڈ فونٹ میں فالتو سپیس واضح نظر آتی ہے۔ آپ کی فہرست میں م بطور لفظ شامل ہے اس لئے سرخ انڈرلائن نہیں ہوا۔

آپ کی فہرست پر مندرجہ ذیل کام کیے تھے:
کل 46916 الفاظ۔
1 - تمام اعداد ختم کر دیے۔ : 0-9: 2، اردو ۰-۹: 248، عربی ٠-٩: 524
کل 46692 الفاظ۔
2 - عربی ي کو اردو ی سے تبدیل کیا۔ : 22
3 - عربی ك کو اردو ک سے تبدیل کیا۔ : 157
4 - جن الفاظ کے آخر میں ئی کی جگہ ئ استعمال ہو رہا تھا انہیں تبدیل کیا۔
کل 46192 الفاظ۔
5 - جن الفاظ کے آخر میں ئے کی جگہ ئے استعمال ہو رہا تھا انہیں تبدیل کیا۔
کل 45640 الفاظ۔

افیکس فائل میں ان حروف کو نظرانداز کیا ہے (اعراب چیک ہوں گے):
۰۱۲۳۴۵۶۷۸۹۔،؟!؛abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ
 
آخری تدوین:

دوست

محفلین
فائر فاکس کے لیے جو ڈکشنری پہلے ہی تیار کردہ ہے وہ ہن سپیل میں ہی کام کرتی ہے۔ اس کے قواعد کام دے سکتے ہیں۔ یہی لغت اوپن آفس، لبرے آفس میں استعمال ہوتی رہی ہے۔
 

اسد

محفلین
فائر فاکس کے لیے جو ڈکشنری پہلے ہی تیار کردہ ہے وہ ہن سپیل میں ہی کام کرتی ہے۔ اس کے قواعد کام دے سکتے ہیں۔ یہی لغت اوپن آفس، لبرے آفس میں استعمال ہوتی رہی ہے۔
میں بھی انسٹال کر چکا ہوں لیکن اس میں بھی سابقے لاحقے استعمال نہیں ہو رہے۔ انہیں بھی شاید کوئی مسئلہ ہوا تھا کہ افیکس کمنٹ کر دیے تھے۔
یہاں یہ سب بتانے کا مقصد ہے کہ جو کچھ میں کر رہا ہوں وہ محفوظ رہے اور دوسرے اسے استعمال کر سکیں۔ میں نے سابقے/لاحقے معلوم کرنے پر کچھ کام کیا تھا لیکن انہیں استعمال کرنے میں کامیاب نہ ہونے کی وجہ سے اس پر اب کام نہیں کر رہا۔ پہلے افیکس فائل کی مدد سے ڈکشنری کمپریس ہو جائے تو مزید کام کروں گا۔ اب تک کا کام:
سابقے: ابن ، ابن۔ال ، ابو_ال ، ال ، ان ، بال ، با ، بد ، بے ، خوش ، عبد ، عبد_ال ، غیر ، لا ، نا ، نو ، پر ، گل

لاحقے: ء , آباد , آرا+ئی , آشنا+ئی|ؤں , ؤں , ؤ , ئیں , ئی , ئے , ات , انا , انداز+ی|وں , اندوز+ی|وں , انہ , ان , اں , ا , باد , باش , بندی , تا , تی , تے , ت , جات+ی , خانوں , خانہ , خانے , خور+ی|وں , دار+ی|وں , دان+ی|وں , داں , زدگی , زدہ , فروش+ی|وں , مند+ی|وں , نامہ , نامے , ناک , نا , نما , نگر , نیاں , نی , نے , وانا , وک , وں , وی , و , پذیر+ی , پرست+ی|وں , پسند , پن , پور , کار+ی|وں , گان , گاہ , گر+ی|وں , گیر , ں , ہ , یاں , یا , یت , ین , یوں , یں , یے , ی , ے
انگلش لاحقے: ر ، ز ، رز ، زیشن , ڈ

اردو حروف کی ابتدائی فریکونسی لسٹ*:
کوڈ:
ایرنومتلبدکسہںھےگجپفشئٹعقچحزخڑصطڈغضآۂؤذثظءكۃژة
یہ فہرست سپیل چیکر کو الفاظ کے متبادل تجویز کرنے میں مدد دیتی ہے۔
*: یہ صرف چند فائلوں سے اخذ کی گئی ہے، ابھی اس میں تبدیلی ہو گی۔

جن حروف کو میں نظر انداز کر رہا ہوں**: -َ-ُ-ً-ِ۰۱۲۳۴۵۶۷۸۹۔،؟!؛
اس میں بھی تبدیلی ہو سکتی ہے۔ اعجاز صاحب کی ڈکشنری کے لئے اس میں سے حرکات (اعراب) ختم کر دی ہیں۔
**: - محض حرکات کو ظاہر کرنے کے لئے استعمال کیا ہے۔

خصوصی علامات: -ؐ-ؑ-ؓ-ؒ وغیرہ۔
ابھی خصوصی علامات کے بارے میں فیصلہ نہیں کیا کہ ان کا کیا ہونا چاہیے۔
 
آخری تدوین:

اسد

محفلین
کئی کام بیک وقت کرنے پڑ رہے ہیں، جس کی وجہ سے کوئی بھی کام تسلّی بخش رفتار سے نہیں ہو پا رہا۔ پچھلے تقریباً دس دنوں میں لغت صرف تیرہ ہزار الفاظ تک پہنچی ہے۔ میں اس کام کے لئے نوٹ‌پیڈ++ استعمال کر رہا ہوں اور نئے الفاظ کسٹم ڈکشنری میں شامل کرتا ہوں۔ یہ الفاظ ریم میں رہتے ہیں اور جب ایڈیٹر بند ہوتا ہے تو یہ الفاظ ڈکشنری میں محفوظ ہوتے ہیں، اگر اس دوران بجلی چلی جائے تو اس نشست میں کیا ہوا تمام کام ضائع ہو جاتا ہے، دو چار منٹ کے لئے دن میں چھ سات مرتبہ بجلی جاتی ہے۔ مزید وقت کسی غلط لفظ کو شامل کرنے کے بعد لغت سے نکالنے میں ضائع ہوتا ہے۔ روزانہ کئی مرتبہ کسٹم ڈکشنری کے الفاظ مرکزی فہرست میں ضم کرتا ہوں۔ جو الفاظ ڈکشنری میں موجود نہیں ہوتے وہ سرخ انڈرلائن ہو جاتے ہیں جس سے آسانی ہوتی ہے۔ نوٹ‌پیڈ++ میں سطروں کی یونیک سورٹنگ ممکن ہے جس سے بہت آسانی ہوتی ہے۔ مسئلہ یہ ہے کہ مجھے خود بےشمار الفاظ کی املا کا یقین نہیں ہوتا اور کاغذی لغت میں الفاظ ڈھونڈنے مشکل ہوتے ہیں کہ اس میں الفاظ کی ترتیب کمپیوٹر فائل کی ترتیب سے مختلف ہوتی ہے۔ میں نے پہلے ہی بتایا تھا کہ یونیکوڈ کا سورٹنگ آرڈر مختلف ہوتا ہے۔

اس دوران تین چار بار کی‌بورڈ لےآؤٹ میں (عربی کے) نئے حروف شامل کر چکا ہوں* اور کچھ حروف کو کنٹرول+آلٹ سے شفٹ پر لانا پڑا کیونکہ نوٹ‌پیڈ++ میں کنٹرول+آلٹ پر اس کے اپنے شارٹ‌کٹ استعمال ہوتے ہیں۔ ایسے ہی بعض اور زبردستی کے کام کرنے پڑتے ہیں اور وقت ضائع ہوتا ہے۔
*: لےآؤٹ کی تصویر یہاں ہے اور اگر کوئی ٹیسٹ کرنا چاہے تو کی بورڈ یہاں سے ڈاؤنلوڈ ہو سکتا ہے، ونڈوز کے لئے 7زپ فائل - 175 کلو بائٹ۔

املا اور دیگر غلطیوں کی تصحیح کے لئے ایپلیکیشن پر غور کیا تو اندازہ ہوا کہ میرے لئے یہ کام کرنا اس لئے مشکل ہے کہ میں پرل(Perl) اور ٹی کے(Perl/Tk) ٹول کٹ میں بنے ہوئے ایڈیٹر میں کام کرتا ہوں(انگلش کے لئے)۔ اس میں متن کی دائیں سے بائیں سمت میں تدوین ممکن نہیں ہے، اس لئے اسی کو استعمال کرتے ہوئے اردو ایڈیٹر نہیں بنایا جا سکتا۔ پرل/ٹی کے یونیکوڈ کو تو سپورٹ کرتا ہے لیکن BiDi سپورٹ میں بہت مسائل ہیں۔ میں پرل میں ایک یوٹیلٹی بنانا چاہتا ہوں جو ٹیکسٹ فائل کو پڑھے اور اس میں عمومی اغلاط کو درست کر کے نئی فائل محفوظ کر دے۔ اس کے لئے عمومی اغلاط کی فہرست تیار کرنی ہو گی۔

افکس فائل میں کچھ بہتری ہوئی ہے۔ میں ونڈوز 7 استعمال کرتا ہوں، جب اس میں کام نہیں بنا تو پہلے کوبنٹو(Kubuntu) استعمال کیا، لیکن کچھ مسئلوں کی وجہ سے زوبنٹو(Xubuntu) پر آ گیا۔ اس میں ایک بہت سادہ سی افکس فائل بنا کر سادہ فہرست الفاظ کو لغت میں تبدیل کیا تو جزوی کامیابی ہوئی۔ سابقوں اور لاحقوں کے ساتھ ڈکشنری تو بن گئی لیکن افکس فائل (اور لغت) ایسی فورمیٹ میں ہے کہ تقریباً دو سو اصول استعمال ہو سکتے ہیں(یا شاید 256)۔ تیرہ ہزار الفاظ کی فہرست، ساٹھ سادہ افکس اصول استعمال کرتے ہوئے، دس ہزار اندراجات والی لغت میں تبدیل ہو جاتی ہے۔ اردو جیسی زبان کے لئے ہزاروں اصولوں کی ضرورت پڑے گی۔ اگر دو سو اصول ہی استعمال کرنے پڑتے ہیں تو ہر اصول میں زیادہ سے زیادہ ذیلی اصول شامل کرنے پڑیں گے۔ اگر ایک ہزار اصول بھی استعمال کریں تو بھی ہر اصول میں کئی افکس شامل کرنے ہوں گے۔ ایک مرتبہ الفاظ کی تعداد پچاس ہزار سے زیادہ ہو جائے تو اس پر مزید کام کروں گا۔

میں نے سید ذیشان کے تجویز کردہ صفحات سے ایپلیکیشن ڈاؤنلوڈ کر کے اس میں شامل سابقوں/لاحقوں کی فہرست دیکھی ہے۔ یہ کمپیوٹر پروگرام کے ذریعے اخذ کردہ فہرست ہے اور اس میں ہزاروں سادہ افکس شامل ہیں۔ انہیں استعمال کرنے سے سپیل چیکنگ کی رفتار انتہائی سست ہو گی۔ ریورس انجینئرنگ کی قیمت ادا کرنی پڑتی ہے۔ ہمیں افکس روٹ الفاظ سے ہی اخذ کرنے ہوں گے تاکہ ایک قسم کے الفاظ کے لئے ایک ہی پیچیدہ اصول بنایا جا سکے۔ لیکن روٹ الفاظ کی فہرست کی غیر موجودگی میں اسی فہرست میں سے زیادہ عمومی افکس تلاش کرنے ہوں گے۔

لغت بنانے کے لئے میرا گرامر سیکھنے کا کوئی ارادہ نہیں ہے، میں اس کے بغیر ہی کام چلاؤں گا۔ جتنی مدد آنلائن مل گئی اسے استعمال کروں گا، اس سے زیادہ نہیں۔

ٹائپنگ کی غلطیوں کے علاوہ میں نے انگلش الفاظ کی پاکستانی اور ہندوستانی املا کا ذکر کیا تھا۔ اس میں پرانی اور نئی املا کا بھی اضافہ کر لیں۔ پرانی املا میں بہت سے انگلش الفاظ جن میں s کا اصل تلفظ ز تھا، س سے لکھے جاتے تھے۔ اب زیادہ تر (خصوصاً نوجوان) افراد ان میں ز استعمال کرتے ہیں۔ ان دوہری املا والے الفاظ کا کیا کیا جائے؟ اردو ویکیپیڈیا پر بھی بعض ناموں میں ایسا ہوا ہے۔ برازیل کے دارالحکومت برازیلیا(Brasília) کو براسیلیا لکھا گیا ہے۔ وجہ پرتگالی/پرتگیزی زبان کی املا میں s کی موجودگی ہے، کیونکہ یہ بھی اسلام آباد کی طرح جدید شہر ہے اس لئے اس کے نام کی انگلش املا رائج نہیں ہو سکی۔

غیرملکی افراد کے ناموں کی بھی کوئی معیاری فہرست ہونی چاہیے، دنیا میں صرف انگلش نام ہی نہیں ہوتے۔ فی الحال آئنسٹائن جیسے نام کئی طریقوں سے لکھے جاتے ہیں۔ ناموں کے لئے کوئی اصول بھی بنانا چاہیے۔ جب تک میں نے Angela Merkel(اَنگِلا میرکِل)* کا درست تلفظ نہیں سنا تھا میں اسے انجیلا مرکل سمجھتا تھا اور شاہ ہوان کارلوس(Juan Carlos) کو تو لوگ اب تک جوان کارلوس کہتے ہیں۔ اردو ٹی وی چینلز پر موٹو جی پی کی خبریں سنیں تو ہر چینل ہورہے لورنزو(Jorge Lorenzo) کا نیا تلفظ سنا رہا ہوتا ہے۔ بہتر اصول تو یہی ہو گا کہ ناموں کا اپنی زبان کا اصل (یا اس سے قریب ترین) تلفظ استعمال کیا جائے۔
*: ابھی دیکھا ہے تو اردو ویکیپیڈیا پر 'انگیلا میرکل' کا یک سطری صفحہ موجود ہے۔
 

قیصرانی

لائبریرین
کئی کام بیک وقت کرنے پڑ رہے ہیں، جس کی وجہ سے کوئی بھی کام تسلّی بخش رفتار سے نہیں ہو پا رہا۔ پچھلے تقریباً دس دنوں میں لغت صرف تیرہ ہزار الفاظ تک پہنچی ہے۔ میں اس کام کے لئے نوٹ‌پیڈ++ استعمال کر رہا ہوں اور نئے الفاظ کسٹم ڈکشنری میں شامل کرتا ہوں۔ یہ الفاظ ریم میں رہتے ہیں اور جب ایڈیٹر بند ہوتا ہے تو یہ الفاظ ڈکشنری میں محفوظ ہوتے ہیں، اگر اس دوران بجلی چلی جائے تو اس نشست میں کیا ہوا تمام کام ضائع ہو جاتا ہے، دو چار منٹ کے لئے دن میں چھ سات مرتبہ بجلی جاتی ہے۔ مزید وقت کسی غلط لفظ کو شامل کرنے کے بعد لغت سے نکالنے میں ضائع ہوتا ہے۔ روزانہ کئی مرتبہ کسٹم ڈکشنری کے الفاظ مرکزی فہرست میں ضم کرتا ہوں۔ جو الفاظ ڈکشنری میں موجود نہیں ہوتے وہ سرخ انڈرلائن ہو جاتے ہیں جس سے آسانی ہوتی ہے۔ نوٹ‌پیڈ++ میں سطروں کی یونیک سورٹنگ ممکن ہے جس سے بہت آسانی ہوتی ہے۔ مسئلہ یہ ہے کہ مجھے خود بےشمار الفاظ کی املا کا یقین نہیں ہوتا اور کاغذی لغت میں الفاظ ڈھونڈنے مشکل ہوتے ہیں کہ اس میں الفاظ کی ترتیب کمپیوٹر فائل کی ترتیب سے مختلف ہوتی ہے۔ میں نے پہلے ہی بتایا تھا کہ یونیکوڈ کا سورٹنگ آرڈر مختلف ہوتا ہے۔

اس دوران تین چار بار کی‌بورڈ لےآؤٹ میں (عربی کے) نئے حروف شامل کر چکا ہوں* اور کچھ حروف کو کنٹرول+آلٹ سے شفٹ پر لانا پڑا کیونکہ نوٹ‌پیڈ++ میں کنٹرول+آلٹ پر اس کے اپنے شارٹ‌کٹ استعمال ہوتے ہیں۔ ایسے ہی بعض اور زبردستی کے کام کرنے پڑتے ہیں اور وقت ضائع ہوتا ہے۔
*: لےآؤٹ کی تصویر یہاں ہے اور اگر کوئی ٹیسٹ کرنا چاہے تو کی بورڈ یہاں سے ڈاؤنلوڈ ہو سکتا ہے، ونڈوز کے لئے 7زپ فائل - 175 کلو بائٹ۔

املا اور دیگر غلطیوں کی تصحیح کے لئے ایپلیکیشن پر غور کیا تو اندازہ ہوا کہ میرے لئے یہ کام کرنا اس لئے مشکل ہے کہ میں پرل(Perl) اور ٹی کے(Perl/Tk) ٹول کٹ میں بنے ہوئے ایڈیٹر میں کام کرتا ہوں(انگلش کے لئے)۔ اس میں متن کی دائیں سے بائیں سمت میں تدوین ممکن نہیں ہے، اس لئے اسی کو استعمال کرتے ہوئے اردو ایڈیٹر نہیں بنایا جا سکتا۔ پرل/ٹی کے یونیکوڈ کو تو سپورٹ کرتا ہے لیکن BiDi سپورٹ میں بہت مسائل ہیں۔ میں پرل میں ایک یوٹیلٹی بنانا چاہتا ہوں جو ٹیکسٹ فائل کو پڑھے اور اس میں عمومی اغلاط کو درست کر کے نئی فائل محفوظ کر دے۔ اس کے لئے عمومی اغلاط کی فہرست تیار کرنی ہو گی۔

افکس فائل میں کچھ بہتری ہوئی ہے۔ میں ونڈوز 7 استعمال کرتا ہوں، جب اس میں کام نہیں بنا تو پہلے کوبنٹو(Kubuntu) استعمال کیا، لیکن کچھ مسئلوں کی وجہ سے زوبنٹو(Xubuntu) پر آ گیا۔ اس میں ایک بہت سادہ سی افکس فائل بنا کر سادہ فہرست الفاظ کو لغت میں تبدیل کیا تو جزوی کامیابی ہوئی۔ سابقوں اور لاحقوں کے ساتھ ڈکشنری تو بن گئی لیکن افکس فائل (اور لغت) ایسی فورمیٹ میں ہے کہ تقریباً دو سو اصول استعمال ہو سکتے ہیں(یا شاید 256)۔ تیرہ ہزار الفاظ کی فہرست، ساٹھ سادہ افکس اصول استعمال کرتے ہوئے، دس ہزار اندراجات والی لغت میں تبدیل ہو جاتی ہے۔ اردو جیسی زبان کے لئے ہزاروں اصولوں کی ضرورت پڑے گی۔ اگر دو سو اصول ہی استعمال کرنے پڑتے ہیں تو ہر اصول میں زیادہ سے زیادہ ذیلی اصول شامل کرنے پڑیں گے۔ اگر ایک ہزار اصول بھی استعمال کریں تو بھی ہر اصول میں کئی افکس شامل کرنے ہوں گے۔ ایک مرتبہ الفاظ کی تعداد پچاس ہزار سے زیادہ ہو جائے تو اس پر مزید کام کروں گا۔

میں نے سید ذیشان کے تجویز کردہ صفحات سے ایپلیکیشن ڈاؤنلوڈ کر کے اس میں شامل سابقوں/لاحقوں کی فہرست دیکھی ہے۔ یہ کمپیوٹر پروگرام کے ذریعے اخذ کردہ فہرست ہے اور اس میں ہزاروں سادہ افکس شامل ہیں۔ انہیں استعمال کرنے سے سپیل چیکنگ کی رفتار انتہائی سست ہو گی۔ ریورس انجینئرنگ کی قیمت ادا کرنی پڑتی ہے۔ ہمیں افکس روٹ الفاظ سے ہی اخذ کرنے ہوں گے تاکہ ایک قسم کے الفاظ کے لئے ایک ہی پیچیدہ اصول بنایا جا سکے۔ لیکن روٹ الفاظ کی فہرست کی غیر موجودگی میں اسی فہرست میں سے زیادہ عمومی افکس تلاش کرنے ہوں گے۔

لغت بنانے کے لئے میرا گرامر سیکھنے کا کوئی ارادہ نہیں ہے، میں اس کے بغیر ہی کام چلاؤں گا۔ جتنی مدد آنلائن مل گئی اسے استعمال کروں گا، اس سے زیادہ نہیں۔

ٹائپنگ کی غلطیوں کے علاوہ میں نے انگلش الفاظ کی پاکستانی اور ہندوستانی املا کا ذکر کیا تھا۔ اس میں پرانی اور نئی املا کا بھی اضافہ کر لیں۔ پرانی املا میں بہت سے انگلش الفاظ جن میں s کا اصل تلفظ ز تھا، س سے لکھے جاتے تھے۔ اب زیادہ تر (خصوصاً نوجوان) افراد ان میں ز استعمال کرتے ہیں۔ ان دوہری املا والے الفاظ کا کیا کیا جائے؟ اردو ویکیپیڈیا پر بھی بعض ناموں میں ایسا ہوا ہے۔ برازیل کے دارالحکومت برازیلیا(Brasília) کو براسیلیا لکھا گیا ہے۔ وجہ پرتگالی/پرتگیزی زبان کی املا میں s کی موجودگی ہے، کیونکہ یہ بھی اسلام آباد کی طرح جدید شہر ہے اس لئے اس کے نام کی انگلش املا رائج نہیں ہو سکی۔

غیرملکی افراد کے ناموں کی بھی کوئی معیاری فہرست ہونی چاہیے، دنیا میں صرف انگلش نام ہی نہیں ہوتے۔ فی الحال آئنسٹائن جیسے نام کئی طریقوں سے لکھے جاتے ہیں۔ ناموں کے لئے کوئی اصول بھی بنانا چاہیے۔ جب تک میں نے Angela Merkel(اَنگِلا میرکِل)* کا درست تلفظ نہیں سنا تھا میں اسے انجیلا مرکل سمجھتا تھا اور شاہ ہوان کارلوس(Juan Carlos) کو تو لوگ اب تک جوان کارلوس کہتے ہیں۔ اردو ٹی وی چینلز پر موٹو جی پی کی خبریں سنیں تو ہر چینل ہورہے لورنزو(Jorge Lorenzo) کا نیا تلفظ سنا رہا ہوتا ہے۔ بہتر اصول تو یہی ہو گا کہ ناموں کا اپنی زبان کا اصل (یا اس سے قریب ترین) تلفظ استعمال کیا جائے۔
*: ابھی دیکھا ہے تو اردو ویکیپیڈیا پر 'انگیلا میرکل' کا یک سطری صفحہ موجود ہے۔
فی الوقت میں کئی منصوبوں میں کام کر رہا ہوں۔ تاہم اگر پروسیسنگ یا کوئی ایسی مدد چاہئے ہو جو میں کر سکوں تو بلا تکلف بتا دیجئے گا کہ میں ہر منصوبے کو ایک خاص وقت ہی دیتا ہوں اور ان منصوبوں کی اکثریت فار ایور کی سی ہے کہ انہیں سے عارضی طور پر وقت نکالا جا سکتا ہے :)
 

سید ذیشان

محفلین
اپنی اپلیکیشن کے لئے سابقوں میں صرف ”ال“ استعمال کرتا ہوں۔ جو اکثر عربی الفاظ میں ہی استعمال ہوتا ہے، اگرچہ کچھ استثنائی الفاظ بھی ہیں مثلاً ”الماس“۔

لاحقوں کی فہرست کچھ لمبی ہے۔ وہ سب میں نے کوڈ کی ہوئی ہے۔ کل اگر وقت ملا تو وہ فہرست یہاں شیئر کر دوں گا۔ اور جمع وغیرہ بنانے کے جو اصول میں استعمال کر رہا ہوں ان کو بھی شامل کر دوں گا۔ اس سے آپ کو درست سمت کا اندازہ ہو جائے گا۔ اور اس فہرست میں مزید اضافہ بھی کرنا چاہیں تو کر سکتے ہیں۔
 
ٹائپنگ کی غلطیوں کے علاوہ میں نے انگلش الفاظ کی پاکستانی اور ہندوستانی املا کا ذکر کیا تھا۔ اس میں پرانی اور نئی املا کا بھی اضافہ کر لیں۔ پرانی املا میں بہت سے انگلش الفاظ جن میں s کا اصل تلفظ ز تھا، س سے لکھے جاتے تھے۔ اب زیادہ تر (خصوصاً نوجوان) افراد ان میں ز استعمال کرتے ہیں۔ ان دوہری املا والے الفاظ کا کیا کیا جائے؟ اردو ویکیپیڈیا پر بھی بعض ناموں میں ایسا ہوا ہے۔ برازیل کے دارالحکومت برازیلیا(Brasília) کو براسیلیا لکھا گیا ہے۔ وجہ پرتگالی/پرتگیزی زبان کی املا میں s کی موجودگی ہے، کیونکہ یہ بھی اسلام آباد کی طرح جدید شہر ہے اس لئے اس کے نام کی انگلش املا رائج نہیں ہو سکی۔

غیرملکی افراد کے ناموں کی بھی کوئی معیاری فہرست ہونی چاہیے، دنیا میں صرف انگلش نام ہی نہیں ہوتے۔ فی الحال آئنسٹائن جیسے نام کئی طریقوں سے لکھے جاتے ہیں۔ ناموں کے لئے کوئی اصول بھی بنانا چاہیے۔ جب تک میں نے Angela Merkel(اَنگِلا میرکِل)* کا درست تلفظ نہیں سنا تھا میں اسے انجیلا مرکل سمجھتا تھا اور شاہ ہوان کارلوس(Juan Carlos) کو تو لوگ اب تک جوان کارلوس کہتے ہیں۔ اردو ٹی وی چینلز پر موٹو جی پی کی خبریں سنیں تو ہر چینل ہورہے لورنزو(Jorge Lorenzo) کا نیا تلفظ سنا رہا ہوتا ہے۔ بہتر اصول تو یہی ہو گا کہ ناموں کا اپنی زبان کا اصل (یا اس سے قریب ترین) تلفظ استعمال کیا جائے۔
*: ابھی دیکھا ہے تو اردو ویکیپیڈیا پر 'انگیلا میرکل' کا یک سطری صفحہ موجود ہے۔
انگریزی الفاظ کی جمع کے لیے جو ایس s لگایا جاتا ہے اس کے لیے تو ز ہی کا استعمال بہتر ہے۔ لیکن دوسری زبانوں کے الفاظ کے ذیل میں آپ سے اتفاق ہے کہ اصل زبان کا تلفظ استعمال کیا جانا چاہیے جیسے Leipzig کو لائپزگ نہیں بلکہ لائپزش، لیکن جن ناموں کے انگریزی تلفظ رائج ہوچکے ہیں تو انہیں ویسے ہی استعمال کرلیا جائے، جیسے پاغی کے بجائے پیرس۔ :) :)
 

سید ذیشان

محفلین
سب سے پہلے تو یہ بتا دوں کہ میں اردو انسائکلوپیڈیا والی لغت استعمال کرتا ہوں الفاظ تلاش کرنے کے لئے۔ اس میں واحد اور جمع الفاط دئیے گئے ہیں تو ان سب کو لغت میں شامل کیا گیا ہے۔

لغت میں الفاظ عام طور پر مصادر کی شکل میں یعنی 'کھانا'، 'پینا'، وغیرہ۔ اگر کوئی 'کھا'، 'پی' یا پھر 'کھایا'، 'پیا' لکھے گا تو یہ الفاظ لغت میں نہیں ملیں گے۔ اس کے لئے میں نے کچھ لاحقوں کی لسٹ بنائی ہے جو کہ عام طور پر استعمال ہوتے ہیں
اس لسٹ میں سے اگر کچھ لاحقے ملیں گے، تو پروگرام ان لاحقوں کو الفاظ کے آخر میں سے ہٹا دے گا اور پھر ڈکشنری میں وہ لفظ تلاش کرے گا، اس کے علاوہ اس لفظ کی کچھ اور شکلیں تلاش کرے گا۔ اس طرح سے اس لٖفظ کا روٹ اس کو مل جائے گا۔
ذیل میں لاحقوں کو لسٹ کیا ہوا ہے اور الفاظ کی مختلف شکلیں بنانے کے طریقے بھی درج ہیں ہر ایک لاحقے کے لئے۔
1۔ 'ں'
نون غنہ اگر کسی لفظ کے آخر میں آئے تو اس لفظ میں نون غنہ کو 'ن' سے تبدیل کر کے ڈکشنری میں تلاش کریں۔ مثالیں: مہماں، قرآں، ایراں، وغیرہ
2۔ اضافت: 'ئے'
آخر میں 'ئے' آئے تو لاحقے کو ہٹا کر باقی لفظ کو تلاش کریں، آخر میں 'نا' لگا کر تلاش کریں۔ مثالیں:کوئے، جوئے، کھائے (اگرچہ کھائے اضافت نہیں لیکن اس کا لاحقہ اصافت والے کیس سے ملتا جلتا ہے)
3- 'تا'،'تے'،'تی'،تیں'،'نا'،'نے''نی'،'ئیں'،'ا'،'ی'،'ے'،'و'،'ہ'،'ان'،'ئی'
ان سب کیسز میں لاحقے ہٹا کر لفظ تلاش کرنا ہے اور لاحقے ہٹا کر 'نا' لگانے کے بعد لفظ تلاش کرنا ہے۔ مثالیں: 'کھا'،'کھاتا'،'کھائیں'،'کھانے'، وغیرہ
4۔ 'ات'،'یات'،'ئیات'
اس میں تین طرح کی شکلیں بنتی ہیں:
ا: لاحقہ ہٹا دینے سے۔ مثالیں: 'تصورات' سے 'ات' ہٹا کر یعنی 'تصور'
ب: لاحقہ ہٹا کر آخر میں 'ہ' لگا دینے سے۔ مثالیں: 'نظریات' سے 'نظریہ'، 'کلیات' سے 'کلیہ'، وغیرہ
ج: آخر سے پہلے والا حرف ہٹا دینے سے۔ مثالیں: 'آیات' سے 'آیت'، 'صفات' سے 'صفت'، وغیرہ

5: 'وں'، 'اں'، 'ایں'
اس میں چار شکلیں بنتی ہیں:
ا: لاحقہ ہٹا دینے سے۔ مثال: 'لڑکیاں' سے 'لڑکی'
ب: لاحقہ ہٹا کر 'ہ' کا اضافہ کرنے سے۔ مثال: 'رستوں' سے 'رستہ'
ج: لاحقہ ہٹا کر 'ا' لگا دینے سے۔ مثال: 'سودوں' سے 'سودا'
د: لاحقہ ہٹا کر آخر میں 'نا' لگانے سے: 'دکھاوں' سے 'دکھانا'


یہ سب تو الفاظ کی مختلف شکلیں، جمع وغیرہ بنانے کے اصول ہو گئے۔ کچھ لاحقے بھی ہیں جو کہ کافی استعمال ہوتے ہیں۔ مثلاً 'ستان'۔ گلستان، شبنمستان جیسے الفاظ میں۔
چونکہ میری اپلیکیشن الفاظ کے وزن نکالتی ہے نہ کہ سپیل چیکر ہے تو ایسے لاحقے بھی میں الفاظ کی فہرست میں شامل کر دیتا ہوں۔ اور پھر یہ چیک کرتا ہوں کہ کوئی لفظ کمپاونڈ ورڈ تو نہیں ہے، یعنی دو الفاظ سے مل کر تو نہیں بنا۔ اس سے ایسے الفاظ کا بھی معلوم ہو جاتا ہے جو لوگوں نے غلطی سے سپیس کے بغیر ٹائپ کئے ہوتے ہیں۔

اس طرح کے لاحقوں کی فہرست اس پیپر میں موجود ہے جس کا میں نے اوپر ایک پوسٹ میں ذکر کیا تھا۔ نمونے کے طور پر اس فہرست میں سے چند سابقے اور لاحقے یہاں لکھ لیتا ہوں:
سابقے:
نا، پا، برائے، بازی، انڈر، نو، ادا، روئے، گراں، دل، باد، غم، گلو، شہ، نیل، صد، مابعد، بد، دم، ابو، ام، اشک، ناز، تنگ، بن، برائے، روبہ، آن، پر، غیر، تہ، مے، صاحب، بال، قبل، خرد، ظالع، آرام۔
لاحقے:
سوزی، نمائی، نفسی، انگیزی، نامی، تھانی، دلی، پوشی، بیانی، برادری، اتی، خوری، نگاہی، چاری، سنجی، فشانی، آرائی، رنگی، فروشی، سرائی، گردانی، رسانی، پروری، آمیزی، نشینی، ستانی، آزاری، گردی، بندی، آفرینی، سوز، آمیز، گرافر، اندوز، آموز، نواز، راز، پرداز، گاہی، دست، نامے، خانے، کدے، بندی، پروریاں، نوازیاں، نوازیوں، خیزیوں، گاہئیں، نوازیاں، بیانیاں، فشانیاں، اندوزوں، بریوں، گوئیوں، تراشیاں، نگیں، سراؤں، کاریوں، ریزیوں
 
میرا مقصد عام لوگوں کے لئے ایک ڈکشنری تیار کرنا ہے، جو زیادہ تر انٹرنیٹ پر استعمال ہو گی۔ اس میں وقت کے ساتھ اضافہ کیا جا سکے گا۔ زیادہ تر لوگ اعراب استعمال نہیں کرتے، انہیں اس سے مسئلہ نہیں ہونا چاہیے۔
ایک بہت بڑا مسئلہ نستعلیق فونٹس میں سپیس کی چوڑائی کا ہے، چاہے ان‌پیج ہو یا براؤزر یا ورڈ‌پروسیسرز، سب میں سپیس نظر ہی نہیں آتی۔ لوگوں کو محض خوبصورتی چاہیے، چاہے وہ املا کی غلطیوں سے پر ہو، وہ بدشکل مونو سپیسڈ فونٹس برداشت نہیں کرتے۔

میں نے آپ کی فہرست سے فائرفوکس کے لئے ڈکشنری تیار کی ہے جو یہاں سے ڈاؤنلوڈ/انسٹال کی جا سکتی ہے۔ میں اس کے لئے علیحدہ لڑی کہیں اور شروع کرتا ہوں(ایڈٹ: یہاں نئی لڑی شروع کی ہے)۔ فائرفوکس میں کھولیں گے تو انسٹال کرنے کے لئے اجازت مانگے گا۔
ذیل میں آپ کی ڈکشنری کا نتیجہ فائرفوکس میں نستعلیق فونٹ اور نوٹ‌پیڈ++ میں مونو سپیسڈ فونٹ میں موجود ہے:
Dict-IN-err1.png

اور وہی عبارت میری زیر تعمیر ڈکشنری میں۔
Dict-IN-err2.png

چاہے سپیل چیکر غلطی نہ پکڑ سکے پھر بھی مونو سپیسڈ فونٹ میں فالتو سپیس واضح نظر آتی ہے۔ آپ کی فہرست میں م بطور لفظ شامل ہے اس لئے سرخ انڈرلائن نہیں ہوا۔

آپ کی فہرست پر مندرجہ ذیل کام کیے تھے:
کل 46916 الفاظ۔
1 - تمام اعداد ختم کر دیے۔ : 0-9: 2، اردو ۰-۹: 248، عربی ٠-٩: 524
کل 46692 الفاظ۔
2 - عربی ي کو اردو ی سے تبدیل کیا۔ : 22
3 - عربی ك کو اردو ک سے تبدیل کیا۔ : 157
4 - جن الفاظ کے آخر میں ئی کی جگہ ئ استعمال ہو رہا تھا انہیں تبدیل کیا۔
کل 46192 الفاظ۔
5 - جن الفاظ کے آخر میں ئے کی جگہ ئے استعمال ہو رہا تھا انہیں تبدیل کیا۔
کل 45640 الفاظ۔

افیکس فائل میں ان حروف کو نظرانداز کیا ہے (اعراب چیک ہوں گے):
۰۱۲۳۴۵۶۷۸۹۔،؟!؛abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ
بہت بہت شکریہ، میں آفس 2007 میں اردو کا کام کرتا ہوں، آپ بتائیں کہ وہاں پر کس طرح یہ خود کار اسپل چیکر کام کرسکتا ہے۔ میں نے آپ کی دی ہوئی فائل کو ڈاون لوڈ کیالیکن وہ کس طرح کام کرے گا مجھے سمجھ میں نہیں آرہا ہے۔
 

اسد

محفلین
بہت بہت شکریہ، میں آفس 2007 میں اردو کا کام کرتا ہوں، آپ بتائیں کہ وہاں پر کس طرح یہ خود کار اسپل چیکر کام کرسکتا ہے۔ میں نے آپ کی دی ہوئی فائل کو ڈاون لوڈ کیالیکن وہ کس طرح کام کرے گا مجھے سمجھ میں نہیں آرہا ہے۔
میرا سپیل چیکر فائرفوکس کے لئے ہے۔ مائکروسوفٹ آفس کا اردو سپیل چیکر تو پہلے سے موجود ہے اور لوگ استعمال کر رہے ہیں۔
آفس 2007 کا زبان مواجہ پیک یہاں سے ڈاؤنلوڈ کریں۔
 
آخری تدوین:
سب سے پہلے تو یہ بتا دوں کہ میں اردو انسائکلوپیڈیا والی لغت استعمال کرتا ہوں الفاظ تلاش کرنے کے لئے۔ اس میں واحد اور جمع الفاط دئیے گئے ہیں تو ان سب کو لغت میں شامل کیا گیا ہے۔

لغت میں الفاظ عام طور پر مصادر کی شکل میں یعنی 'کھانا'، 'پینا'، وغیرہ۔ اگر کوئی 'کھا'، 'پی' یا پھر 'کھایا'، 'پیا' لکھے گا تو یہ الفاظ لغت میں نہیں ملیں گے۔ اس کے لئے میں نے کچھ لاحقوں کی لسٹ بنائی ہے جو کہ عام طور پر استعمال ہوتے ہیں
اس لسٹ میں سے اگر کچھ لاحقے ملیں گے، تو پروگرام ان لاحقوں کو الفاظ کے آخر میں سے ہٹا دے گا اور پھر ڈکشنری میں وہ لفظ تلاش کرے گا، اس کے علاوہ اس لفظ کی کچھ اور شکلیں تلاش کرے گا۔ اس طرح سے اس لٖفظ کا روٹ اس کو مل جائے گا۔
ذیل میں لاحقوں کو لسٹ کیا ہوا ہے اور الفاظ کی مختلف شکلیں بنانے کے طریقے بھی درج ہیں ہر ایک لاحقے کے لئے۔
1۔ 'ں'
نون غنہ اگر کسی لفظ کے آخر میں آئے تو اس لفظ میں نون غنہ کو 'ن' سے تبدیل کر کے ڈکشنری میں تلاش کریں۔ مثالیں: مہماں، قرآں، ایراں، وغیرہ
2۔ اضافت: 'ئے'
آخر میں 'ئے' آئے تو لاحقے کو ہٹا کر باقی لفظ کو تلاش کریں، آخر میں 'نا' لگا کر تلاش کریں۔ مثالیں:کوئے، جوئے، کھائے (اگرچہ کھائے اضافت نہیں لیکن اس کا لاحقہ اصافت والے کیس سے ملتا جلتا ہے)
3- 'تا'،'تے'،'تی'،تیں'،'نا'،'نے''نی'،'ئیں'،'ا'،'ی'،'ے'،'و'،'ہ'،'ان'،'ئی'
ان سب کیسز میں لاحقے ہٹا کر لفظ تلاش کرنا ہے اور لاحقے ہٹا کر 'نا' لگانے کے بعد لفظ تلاش کرنا ہے۔ مثالیں: 'کھا'،'کھاتا'،'کھائیں'،'کھانے'، وغیرہ
4۔ 'ات'،'یات'،'ئیات'
اس میں تین طرح کی شکلیں بنتی ہیں:
ا: لاحقہ ہٹا دینے سے۔ مثالیں: 'تصورات' سے 'ات' ہٹا کر یعنی 'تصور'
ب: لاحقہ ہٹا کر آخر میں 'ہ' لگا دینے سے۔ مثالیں: 'نظریات' سے 'نظریہ'، 'کلیات' سے 'کلیہ'، وغیرہ
ج: آخر سے پہلے والا حرف ہٹا دینے سے۔ مثالیں: 'آیات' سے 'آیت'، 'صفات' سے 'صفت'، وغیرہ

5: 'وں'، 'اں'، 'ایں'
اس میں چار شکلیں بنتی ہیں:
ا: لاحقہ ہٹا دینے سے۔ مثال: 'لڑکیاں' سے 'لڑکی'
ب: لاحقہ ہٹا کر 'ہ' کا اضافہ کرنے سے۔ مثال: 'رستوں' سے 'رستہ'
ج: لاحقہ ہٹا کر 'ا' لگا دینے سے۔ مثال: 'سودوں' سے 'سودا'
د: لاحقہ ہٹا کر آخر میں 'نا' لگانے سے: 'دکھاوں' سے 'دکھانا'


یہ سب تو الفاظ کی مختلف شکلیں، جمع وغیرہ بنانے کے اصول ہو گئے۔ کچھ لاحقے بھی ہیں جو کہ کافی استعمال ہوتے ہیں۔ مثلاً 'ستان'۔ گلستان، شبنمستان جیسے الفاظ میں۔
چونکہ میری اپلیکیشن الفاظ کے وزن نکالتی ہے نہ کہ سپیل چیکر ہے تو ایسے لاحقے بھی میں الفاظ کی فہرست میں شامل کر دیتا ہوں۔ اور پھر یہ چیک کرتا ہوں کہ کوئی لفظ کمپاونڈ ورڈ تو نہیں ہے، یعنی دو الفاظ سے مل کر تو نہیں بنا۔ اس سے ایسے الفاظ کا بھی معلوم ہو جاتا ہے جو لوگوں نے غلطی سے سپیس کے بغیر ٹائپ کئے ہوتے ہیں۔

اس طرح کے لاحقوں کی فہرست اس پیپر میں موجود ہے جس کا میں نے اوپر ایک پوسٹ میں ذکر کیا تھا۔ نمونے کے طور پر اس فہرست میں سے چند سابقے اور لاحقے یہاں لکھ لیتا ہوں:
سابقے:
نا، پا، برائے، بازی، انڈر، نو، ادا، روئے، گراں، دل، باد، غم، گلو، شہ، نیل، صد، مابعد، بد، دم، ابو، ام، اشک، ناز، تنگ، بن، برائے، روبہ، آن، پر، غیر، تہ، مے، صاحب، بال، قبل، خرد، ظالع، آرام۔
لاحقے:
سوزی، نمائی، نفسی، انگیزی، نامی، تھانی، دلی، پوشی، بیانی، برادری، اتی، خوری، نگاہی، چاری، سنجی، فشانی، آرائی، رنگی، فروشی، سرائی، گردانی، رسانی، پروری، آمیزی، نشینی، ستانی، آزاری، گردی، بندی، آفرینی، سوز، آمیز، گرافر، اندوز، آموز، نواز، راز، پرداز، گاہی، دست، نامے، خانے، کدے، بندی، پروریاں، نوازیاں، نوازیوں، خیزیوں، گاہئیں، نوازیاں، بیانیاں، فشانیاں، اندوزوں، بریوں، گوئیوں، تراشیاں، نگیں، سراؤں، کاریوں، ریزیوں
آپ جو کام کر رہے ہیں اس عمل کو تکنیکی اصطلاح میں "اسٹیمنگ" کہا جاتا ہے۔ انگریزی اور کچھ دیگر زبانوں کے لیے پورٹر اسٹیمر اور اسنو بال اسٹیمر کافی مقبول ہیں۔ :) :) :)
عربی نما زبانوں میں کئی صورتوں میں مادے کا وزن سلامت نہیں رہتا اور حروف زائدہ درمیان میں شامل ہو جاتے ہیں اس لیے ان کو اسٹیم کرنا بہت مشکل کام ہوتا ہے۔ لیکن اس کا یہ مطلب نہیں کہ اسٹیمنگ نہ کی جائے، کیوں کہ موجودہ حالت میں بھی اسٹیمنگ سے اچھا خاصہ فائدہ مل جاتا ہے۔ :) :) :)
 

سید ذیشان

محفلین
آپ جو کام کر رہے ہیں اس عمل کو تکنیکی اصطلاح میں "اسٹیمنگ" کہا جاتا ہے۔ انگریزی اور کچھ دیگر زبانوں کے لیے پورٹر اسٹیمر اور اسنو بال اسٹیمر کافی مقبول ہیں۔ :) :) :)
عربی نما زبانوں میں کئی صورتوں میں مادے کا وزن سلامت نہیں رہتا اور حروف زائدہ درمیان میں شامل ہو جاتے ہیں اس لیے ان کو اسٹیم کرنا بہت مشکل کام ہوتا ہے۔ لیکن اس کا یہ مطلب نہیں کہ اسٹیمنگ نہ کی جائے، کیوں کہ موجودہ حالت میں بھی اسٹیمنگ سے اچھا خاصہ فائدہ مل جاتا ہے۔ :) :) :)

جی ہاں،ایک عدد سٹیمر کا حوالہ میں اس پوسٹ میں اوپر دے چکا ہوں۔ :)
 
Top