ایک بنیادی اردو اور رومن اردو فہرستِ الفاظ کی تیاری

دوست

محفلین
مندرجہ بالا کام کے لیے انٹرنیٹ سے جھاڑو پھیر کر ایک فہرست تیار کر رہا ہوں بذریعہ سافٹویئر۔ اس دوران مختلف مراحل پر نظرثانی کی ضرورت ہو گی، اگر احباب وقت دے سکیں تو بسم اللہ۔
تعداد الفاظ: اندازاً بیس ہزار پلس
نظرثانی کی نوعیت: اسی تا نوے فیصد کام پروگرام کرے گا، حتمی صورت دینے کے لیے سیمی سپرویژن کی طرز پر نظرثانی درکار ہو گی۔
ممکنہ مسائل: تعداد کافی کم ہے۔ الفاظ ڈکشنری سے ہیں، نادرالاستعمال الفاظ کی کثرت۔ گردان کی صورتوں کی کمی، لیا، لی، لینے، کی بجائے صرف لینا یعنی بیس فارم کی کثرت اور تکرار۔
 

نبیل

تکنیکی معاون
جزاک اللہ شاکر۔ تم نے بہت اہم کام کا بیڑا اٹھایا ہے۔ یقینا ایک طویل عرصے سے اس انتہائی اہمیت کے پراجیکٹ کو نظر انداز کیا جاتا رہا ہے۔ میں حتی المقدور اس سلسلے میں تمہارا ساتھ دینے کی کوشش کروں گا۔ ایک مرتبہ طریقہ کار مدون ہو جائے تو فورم پر یقینا مزید لوگ اس میں شریک ہونے کو تیار ہو جائیں گے۔

بیس ہزار الفاظ کی ڈکشنری اگر کارآمد ثابت ہو سکتی ہے لیکن تعداد کچھ بڑھ سکے تو بہتر رہے گا۔ اسی فورم کے ہی ایک رکن شمزا فطامی نے ذکر کیا تھا کہ انہوں نے ایک لاکھ الفاظ کے قریب ڈکشنری تیار کر لی تھی۔ میرے خیال میں یہ اب بھی ممکن ہونا چاہیے۔ یہ شمزا ہی تھے جنہوں نے اردو سپیچ ریکگنیشن کی یہ راہ دریافت کی تھی۔ اگر مینول طریقے اور کچھ سوفٹویر کے ذریعے آٹومیشن کا استعمال کیا جائے تو کچھ عرصے میں اچھے نتائج سامنے آ سکتے ہیں۔

حوالہ جات:

آپ اردو بولیے یہ سافٹ وئر لکھتا جائے گا ۔ ڈریگن نیچرلی سپیکنگ

اردو حروف والفاظ کے رومن متبادل بنانے میں اپنا حصہ ڈالیے


کسی زمانے میں میں نے اسی کام کے لیے ایک طریقہ وضع کیا تھا، اگرچہ اس پر عمدرآمد کی نوبت نہیں آ سکی تھی۔ سب سے پہلے تو ایک اردو مفردات کی ایک فہرست درکار ہے۔ میں نے ایک زمانے میں میں فاتح اور ابن سعید سے اس بارے میں گزارش بھی کی تھی لیکن وہ اس جانب توجہ نہیں دے سکے۔ ایک مرتبہ پھر اس جانب توجہ دلا رہا ہوں۔ اگر مجھے درست یاد پڑ رہا ہے تو 90 ہزار سے ایک لاکھ مفردات کی لسٹ ان کی پاس جمع ہو گئی تھی۔ دروغ بر گردن راوی۔ :)

الفاظ یا مفردات کی لسٹ ایک مرتبہ حاصل ہو جائے تو اس کے بعد رومن کنورژن کے لیے بنیادی طریقہ تو مینول ہی رہے گا۔ میرے ذہن میں اس کو سپیڈ اپ کرنے کا ایک طریقہ موجود ہے۔ انٹرنیٹ پر رومن اردو مواد پر کئی سائٹس موجود ہیں۔ اگر ان سائٹس کا ڈیٹا ویب سکریپنگ کے ذریعے حاصل کر لیا جائے تو رومن سے اردو کنورژن قدرے آسان پراسیس ہے اور اس کے لیے کچھ ٹولز موجود ہیں۔ سعود نے اس کے لیے ایک سکرپٹ تیار کی ہوئی ہے اور میں نے بھی اس کا ایک طریقہ دریافت کیا تھا۔
حوالہ جات:

رومن اردو سے تحریری اردو میں تبدیلی کے لیے ایک ٹول

رومن سے اردو مبدل


اگر بالا کا طریقہ کارآمد ثابت ہو جائے تو اس سے ایک صحت مند سائز کی رومن ٹو اردو ڈکشنری حاصل کی جا سکتی ہے۔ اور اگر ایسا ممکن ہو جائے تو اسی ڈکشنری کو دوسری سمت میں، یعنی اردو ٹو رومن کنورژن میں مدد کے لیے استعمال کیا جا سکتا ہے اور اس طرح یہ پورا پراسیس کافی تیز رفتار ہو سکتا ہے۔ اس طریقے کو رو بہ عمل لانے کے لیے ذیل کی ضرورت پیش آئے گی:

1۔ رومن اردو پر مبنی ویب سائٹس کی فہرست
2۔ ویب سکریپنگ کے لیے ٹول یا کسٹم سکرپٹس جن سے ان ویب سائٹس سے ڈیٹا حاصل کیا جا سکے۔
3۔ حاصل کردہ ڈیٹا کو پراسیس کرنے کے لیے پروگرام/سکرپٹس
4۔ حاصل کردہ ڈکشنری کی درستگی کے لیے اس پر نظرثانی کا مرحلہ
 

ٹرومین

محفلین
کسی زمانے میں میں نے اسی کام کے لیے ایک طریقہ وضع کیا تھا، اگرچہ اس پر عمدرآمد کی نوبت نہیں آ سکی تھی۔ سب سے پہلے تو ایک اردو مفردات کی ایک فہرست درکار ہے۔ میں نے ایک زمانے میں میں فاتح اور ابن سعید سے اس بارے میں گزارش بھی کی تھی لیکن وہ اس جانب توجہ نہیں دے سکے۔ ایک مرتبہ پھر اس جانب توجہ دلا رہا ہوں۔ اگر مجھے درست یاد پڑ رہا ہے تو 90 ہزار سے ایک لاکھ مفردات کی لسٹ ان کی پاس جمع ہو گئی تھی۔ دروغ بر گردن راوی۔ :)

الفاظ یا مفردات کی لسٹ ایک مرتبہ حاصل ہو جائے تو اس کے بعد رومن کنورژن کے لیے بنیادی طریقہ تو مینول ہی رہے گا۔ میرے ذہن میں اس کو سپیڈ اپ کرنے کا ایک طریقہ موجود ہے۔ انٹرنیٹ پر رومن اردو مواد پر کئی سائٹس موجود ہیں۔ اگر ان سائٹس کا ڈیٹا ویب سکریپنگ کے ذریعے حاصل کر لیا جائے تو رومن سے اردو کنورژن قدرے آسان پراسیس ہے اور اس کے لیے کچھ ٹولز موجود ہیں۔ سعود نے اس کے لیے ایک سکرپٹ تیار کی ہوئی ہے اور میں نے بھی اس کا ایک طریقہ دریافت کیا تھا۔
یہاں اس پر تجمل حسین کی تحریک پر کچھ کام ہوا ہے اور اس کے لنک بھی ابتدائی مراسلہ میں دیے گئے ہیں۔:)
 

دوست

محفلین
آئی جنون، اردو ورڈ اور ہماری ویب سے سکریپ ہو گا۔
اردو اور رومن کلمات کو سپیس کی بنیاد پر الگ کر کے مفرد ترسیموں یا الفاظ کی فہرست تیار ہوگی۔
جہاں دونوں کالمز میں الفاظ کی تعداد برابر نہ ہوئی، اس فہرست پر زیادہ توجہ دینی ہوگی۔ حل: پائپ سائن سے اردو کلمات کی حدود متعین کی جائیں اور سافٹویئر اسے سپلٹ کر کے پرانی فہرست اپڈیٹ کر دے۔
 

نبیل

تکنیکی معاون
آئی جنون، اردو ورڈ اور ہماری ویب سے سکریپ ہو گا۔
اردو اور رومن کلمات کو سپیس کی بنیاد پر الگ کر کے مفرد ترسیموں یا الفاظ کی فہرست تیار ہوگی۔
جہاں دونوں کالمز میں الفاظ کی تعداد برابر نہ ہوئی، اس فہرست پر زیادہ توجہ دینی ہوگی۔ حل: پائپ سائن سے اردو کلمات کی حدود متعین کی جائیں اور سافٹویئر اسے سپلٹ کر کے پرانی فہرست اپڈیٹ کر دے۔

اسی بارے میں عرض کر رہا تھا کہ پہلے پتا کر لیں۔ میری معلومات کے مطابق کئی سائٹس سے ڈیٹا پہلے ہی حاصل کیا جا چکا ہے۔
 

دوست

محفلین
اس وقت کوئی بھی فہرست چند سو الفاظ سے زیادہ نہیں۔ ڈیٹا کہاں ہے، اتنی ادھوری کاوشوں کے دوران سامنے کیوں نہیں لایا گیا؟
میرا کام کا طریقہ یہ ہے کہ کوئی ساتھ نہ بھی دے تو خود کر لیتا ہوں۔ اس سے کمیونٹی کا فائدہ اضافی چیز ہے، اصلاً میری اپنی ضرورت سے مسئلہ شروع ہوتا ہے۔
 

نبیل

تکنیکی معاون
یہ ڈیٹا اکٹھا کرنے والے ہی بہتر بتا سکتے ہیں۔
اپنی ضرورت اچھی motivation ہوتی ہے، اس سے کام کی پیشرفت جاری رہتی ہے۔
 

دوست

محفلین
چلیں مزید پیش رفت اور ابتدائی فہرست تیار کر کے مہیا کرتا ہوں، مزید پر تب گفتگو ہو گی.
 

محمد اسلم

محفلین
ان دنوں میں نے جو فائل اپلوڈ کی تھی،،،، بس وہیں رکا ہوا ہوں۔۔۔ بعد میں فرصت ہی نہیں ملی۔
لیکن ایسا ہی کچھ اپلوڈ کرنے جیسا سسٹم ہو تو میں پھر کچھ کروں گا۔
 

دوست

محفلین
پہلی قسط کا سورس کافی گندا تھا۔ اردو ورڈ، تقریباً پانچ ہزار الفاظ اور املاء کی غلطیاں۔ لیکن مرکبات ہیں، جملے نہیں، جیسا کہ اگلی قسط میں نظر آئے گا۔
لنک
ڈراپ باکس لاگن مانگ سکتا ہے۔
 

دوست

محفلین
دو سورسز کو جمع کر کے تین فہرستیں تیار کی ہیں۔
انفرادی الفاظ، ترسیمے۔ تقریباً اڑتیس ہزار مندرجات۔ زیادہ تر املاء کی غلطیوں اور اردو رومن جوڑے کی درستگی (رومن لفظ کسی اور اردو لفظ کا متبادل تو نہیں وغیرہ) کے لیے نظرثانی درکار ہو گی۔ رومن املاء جہاں ہے جیسے ہے کی بنیاد پر تسلیم کر لی جائے (تجویز)، ماسوائے جہاں آر بمقابلہ ڑ جیسے مسائل ہیں۔ ایسے جوڑے پروگرام سے الگ اور درست کیے جا سکتے ہیں۔ تاہم ایسے تمام کیسز کا تعین کرنا ہو گا (مزید کون سا جوڑا ڈریگن کے لیے مسئلہ پیدا کرتا ہے)۔ پہلے جو فہرست تیار کی جا چکی اسے اس فہرست سے ملایا جا سکتا ہے تاکہ ڈپلی کیشن سے بچا جا سکے، بہتر تجویز ہو تو مطلع کریں۔
اردو لفظ طویل ہے۔ تقریباً ساڑھے بارہ سو مندرجات۔ کچھ املاء یا رموز اوقاف کی غلطیاں۔ اور کچھ اردو مرکبات جنہیں زیر بمقابلہ انگریزی ہایفن ای ہایفن سے لکھا گیا ہے۔ اردو مرکبات الگ کیے جائیں۔ لمبائی میں فرق کی وجہ بننے والا اردو لفظ نشان زد کیا جائے۔ کیسے اور اس کی درستگی کیا ہو گی، اس پر ابھی غور نہیں کیا۔
رومن لفظ طویل ہے۔ تقریباً پانچ ہزار مندرجات۔ غالب اکثریت اردو مرکبات یا دو ترسیمہ الفاظ کی ہے۔ بہر صورت املاء کی غلطیوں کی نشاندہی، مرکبات الگ کرنا (ای والے مرکبات کے لیے ہائفن ای ہائفن کی تجویز ہے، اور یہ پروگرام سے باآسانی تبدیل ہو سکتا ہے بس مرکبات کی نشاندہی کرنا ہو گی)، اکلوتے اردو لفظ کے لیے انگریزی میں سپیس سے الگ دو یا زیادہ کے مرکبات کو بھی ہائفن سے ملانے کی تجویز ہے۔
کرنا، بھرنا، آنا جیسے مصادر سے حال اور ماضی کی گردانیں (کرتے، کرتیں، کرتا، کرنے، کیا، کی، کیں۔۔۔) پروگرام سے بنائی جا سکتی ہیں، تاہم مصادر کی نشاندہی ضروری ہے۔ نا سے ختم ہونے والے تمام الفاظ کی فہرست بن جائے گی، لیکن اس پر نظرثانی درکار ہو گی۔
 

دوست

محفلین
سکریپنگ کے لیے انگریزی الفاظ کی چھ گُنا بڑی فہرست لگا کر دوبارہ سے ڈاؤنلوڈ کر رہا ہوں۔ پچھلی اسی ہزار کی فہرست سے جو کچھ نکلا ہے، اس نئی سے دس پندرہ ہزار الفاظ کے اضافے کی توقع ہے۔ شاید دو تین دن ڈاؤنلوڈنگ میں لگ جائیں۔ ویب سائٹ آفلائن ہو جاتی ہے، کام رک جاتا ہے۔ اور ملٹی تھریڈنگ بھی ممکن نہیں، اس لیے پروگرام پیدل مسافت طے کر رہا ہے۔
 
دو سورسز کو جمع کر کے تین فہرستیں تیار کی ہیں۔
انفرادی الفاظ، ترسیمے۔ تقریباً اڑتیس ہزار مندرجات۔ زیادہ تر املاء کی غلطیوں اور اردو رومن جوڑے کی درستگی (رومن لفظ کسی اور اردو لفظ کا متبادل تو نہیں وغیرہ) کے لیے نظرثانی درکار ہو گی۔ رومن املاء جہاں ہے جیسے ہے کی بنیاد پر تسلیم کر لی جائے (تجویز)، ماسوائے جہاں آر بمقابلہ ڑ جیسے مسائل ہیں۔ ایسے جوڑے پروگرام سے الگ اور درست کیے جا سکتے ہیں۔ تاہم ایسے تمام کیسز کا تعین کرنا ہو گا (مزید کون سا جوڑا ڈریگن کے لیے مسئلہ پیدا کرتا ہے)۔ پہلے جو فہرست تیار کی جا چکی اسے اس فہرست سے ملایا جا سکتا ہے تاکہ ڈپلی کیشن سے بچا جا سکے، بہتر تجویز ہو تو مطلع کریں۔
اردو لفظ طویل ہے۔ تقریباً ساڑھے بارہ سو مندرجات۔ کچھ املاء یا رموز اوقاف کی غلطیاں۔ اور کچھ اردو مرکبات جنہیں زیر بمقابلہ انگریزی ہایفن ای ہایفن سے لکھا گیا ہے۔ اردو مرکبات الگ کیے جائیں۔ لمبائی میں فرق کی وجہ بننے والا اردو لفظ نشان زد کیا جائے۔ کیسے اور اس کی درستگی کیا ہو گی، اس پر ابھی غور نہیں کیا۔
رومن لفظ طویل ہے۔ تقریباً پانچ ہزار مندرجات۔ غالب اکثریت اردو مرکبات یا دو ترسیمہ الفاظ کی ہے۔ بہر صورت املاء کی غلطیوں کی نشاندہی، مرکبات الگ کرنا (ای والے مرکبات کے لیے ہائفن ای ہائفن کی تجویز ہے، اور یہ پروگرام سے باآسانی تبدیل ہو سکتا ہے بس مرکبات کی نشاندہی کرنا ہو گی)، اکلوتے اردو لفظ کے لیے انگریزی میں سپیس سے الگ دو یا زیادہ کے مرکبات کو بھی ہائفن سے ملانے کی تجویز ہے۔
کرنا، بھرنا، آنا جیسے مصادر سے حال اور ماضی کی گردانیں (کرتے، کرتیں، کرتا، کرنے، کیا، کی، کیں۔۔۔) پروگرام سے بنائی جا سکتی ہیں، تاہم مصادر کی نشاندہی ضروری ہے۔ نا سے ختم ہونے والے تمام الفاظ کی فہرست بن جائے گی، لیکن اس پر نظرثانی درکار ہو گی۔

دوست اگر 38000 سے زائد رومن اردو الفاظ کی فائل تیار ہے یا مل جائے تو اردو کرنے والا کام میں شروع کر دیتا ہوں۔

رومن الفاظ کی فہرست ملتی رہی تو سست روی سے ہی سہی مگر ایک فہرست بنتی چلی جائے گی اور یہ پراجیکٹ بھی زندہ رہے گا۔
 

دوست

محفلین
انفرادی الفاظ و ترسیمے والی لسٹ پر نظرثانی شروع کریں. میں مزید ڈاؤنلوڈ کر رہا ہوں، شاید کل تک حتمی فہرست تیار ہو جائے، یعنی میرے بس میں بذریعہ پروگرامنگ جو کچھ ہے. اس کے بعد نظرثانی اور فائنلائز کر دیں گے.
 

دوست

محفلین
آئی جنون ہی بہتر لگی ہے۔ اردو ورڈ سے پانچ ہزار مندرجات جن میں غلطیاں بھی تھیں۔
 
Top