اردو رومن ڈکشنری کی ضرورت

نبیل

تکنیکی معاون
السلام علیکم،
اس موضوع پر پہلے بھی متعدد بات ہو چکی ہے۔

روابط:
اردو حروف والفاظ کے رومن متبادل بنانے میں اپنا حصہ ڈالیے
اردو سپیچ پراسیسنگ پر تحقیق کے لیے نیا زمرہ

یونیکوڈ اردو کو اس کے رومن متبادل میں کنورٹ کرنے کی ضرورت کئی پراجیکٹس میں ہے اور یہ پراجیکٹ اسی وجہ سے رکے ہوئے ہیں۔ اس کی مثال اردو سپیچ ریکگنیشن ہے۔ شروع میں ہمارا خیال تھا کہ گوگل ٹرانسلٹریشن یا گوگل سکرپٹ کنورٹر کو استعمال کرکے ایسی کوئی لغت تیار کر لیں گے لیکن بدقسمتی سے گوگل کی یہ دونوں سروسز بند ہو گئی ہیں۔ ضرورت اس بار کی ہے کہ زیادہ استعمال ہونے والے کچھ ہزار الفاظ کے رومن متبادلات کی ایک لغت تیار کر لی جائے۔ یہ کام مشترکہ کاوش کے ذریعے ممکن ہو سکتا ہے۔ یعنی کچھ لوگ الفاظ کی فہرست کو آپس میں تقسیم کرکے اس پر کام کریں اور بعد میں ان نتائج کو اکٹھا کر لیا جائے۔

اس کام کے لیے ضروری ہے کہ صوتی متبادلات کا ایک معیار وضع کیا جائے۔ اس پر پہلے بھی بات ہو چکی ہے۔ لیکن سب سے پہلے اہمیت اس چیز کی ہے کہ معلوم کیا جائے کہ پہلے سے اس ضمن میں کیا کام کیا جا چکا ہے تاکہ اس پر پھر سے وقت صرف نہ کیا جائے۔ اگر کسی کے پاس پہلے سے اردو ٹو رومن کنورژن کے سلسلے میں کوئی لسٹ موجود ہے یا کوئی الگورتھم وضع کیا گیا ہے تو اس کے بارے میں براہ مہربانی اطلاع فرمائیں۔

برائے اطلاع: ابن سعید ، دوست ، سید ذیشان ، arifkarim ، hackerspk
 
ہم نے کہیں پہلے بھی عرض کیا تھا کہ یہ کام گوگل ٹرانسلیٹ کی مدد سے اب بھی کرنا کسی حد تک ممکن ہے۔ کسی حد تک اس لیے کیوں کہ اس میں اتنی ایکیوریسی نہیں ہوگی۔ طریقہ کار یہ ہے کہ ویب سے کافی سارا رومن مواد اکٹھا کیا جائے اور اس سے رومن وقرڈ لسٹ بنا لی جائے، پھر اس لسٹ کو ہمارے رومن سے اردو کنورٹر کی مدد سے اردو میں تبدیل کر لیا جائے اور پھر اس فہرست کو الٹ دیا جائے یعنی حاصل شدہ اردو سے رومن میں میپ کر دیا جائے۔ اس طریقہ کار میں کافی ساری ڈپلیکیٹ اینٹریز ہوں گی اور کئی ساری تو درست بھی نہیں ہوں گی لیگن اس کا ایک فائدہ یہ ہوگا کہ ایک ہی لفظ کو لوگ رومن میں کئی طریقوں سے لکھتے ہیں، ان کا احاطہ ہو جائے گا نیز یہ کہ ہمیں بلینک سلیٹ سے کام نہیں کرنا ہوگا، بلکہ پروف ریڈنگ کرنی ہوگی۔ :) :) :)
 

arifkarim

معطل
اس کام کے لیے ضروری ہے کہ صوتی متبادلات کا ایک معیار وضع کیا جائے۔
صوتی متبادالات کا نظام ترسیمہ جات کے ناموں کیلئےتو پہلے سے موجود ہے اور کام بھی کر رہا ہے البتہ رومن اردو لوگ اپنے اپنے انداز سے لکھتے ہیں جسکی وجہ سے انکو ایک اسٹینڈرڈ پر لیکر آنا کم از کم مجھے تو ناممکن نظر آتا۔ جیسے عارف کو لوگ Arif بھی لکھتے ہیں اور Areef بھی۔ اسی طرح شاہین کو Shaheen اور Shahin بھی۔ ابن سعید بھائی کے طریقہ کے مطابق اس قسم کے متبادالات کو ڈھونڈ کرصحیح اردو لفظ سے میپ کیا جا سکے گا۔
 

نبیل

تکنیکی معاون
ہم نے کہیں پہلے بھی عرض کیا تھا کہ یہ کام گوگل ٹرانسلیٹ کی مدد سے اب بھی کرنا کسی حد تک ممکن ہے۔ کسی حد تک اس لیے کیوں کہ اس میں اتنی ایکیوریسی نہیں ہوگی۔ طریقہ کار یہ ہے کہ ویب سے کافی سارا رومن مواد اکٹھا کیا جائے اور اس سے رومن وقرڈ لسٹ بنا لی جائے، پھر اس لسٹ کو ہمارے رومن سے اردو کنورٹر کی مدد سے اردو میں تبدیل کر لیا جائے اور پھر اس فہرست کو الٹ دیا جائے یعنی حاصل شدہ اردو سے رومن میں میپ کر دیا جائے۔ اس طریقہ کار میں کافی ساری ڈپلیکیٹ اینٹریز ہوں گی اور کئی ساری تو درست بھی نہیں ہوں گی لیگن اس کا ایک فائدہ یہ ہوگا کہ ایک ہی لفظ کو لوگ رومن میں کئی طریقوں سے لکھتے ہیں، ان کا احاطہ ہو جائے گا نیز یہ کہ ہمیں بلینک سلیٹ سے کام نہیں کرنا ہوگا، بلکہ پروف ریڈنگ کرنی ہوگی۔ :) :) :)

کیا آپ کا بتایا ہوا طریقہ قابل عمل ہے؟ ویب سے رومن اردو مواد کہاں سے حاصل ہوگا؟ نیز آپ کا رومن ٹو اردو کنورٹر کہاں دستیاب ہے؟
 

نبیل

تکنیکی معاون
صوتی متبادالات کا نظام ترسیمہ جات کے ناموں کیلئےتو پہلے سے موجود ہے اور کام بھی کر رہا ہے البتہ رومن اردو لوگ اپنے اپنے انداز سے لکھتے ہیں جسکی وجہ سے انکو ایک اسٹینڈرڈ پر لیکر آنا کم از کم مجھے تو ناممکن نظر آتا۔ جیسے عارف کو لوگ Arif بھی لکھتے ہیں اور Areef بھی۔ اسی طرح شاہین کو Shaheen اور Shahin بھی۔ ابن سعید بھائی کے طریقہ کے مطابق اس قسم کے متبادالات کو ڈھونڈ کرصحیح اردو لفظ سے میپ کیا جا سکے گا۔

ترسیمہ جات کے ناموں کے لیے صرف صوتی متبادلات فراہم کیے جاتے ہیں۔ رومن اردو صوتی متبادل سے مختلف بھی ہو سکتی ہے۔ میرا مقصد رومن اردو کا سٹینڈرڈ وضع کرکے ویب پر اس کو رائج کرنا نہیں ہے بلکہ اس کے ذریعے ایک اردو ٹو رومن ڈکشنری تیار کرنا ہے۔ کئی سال سے کئی پراجیکٹ اسی ڈکشنری کے انتظار میں رکے ہوئے ہیں۔
 
کیا آپ کا بتایا ہوا طریقہ قابل عمل ہے؟ ویب سے رومن اردو مواد کہاں سے حاصل ہوگا؟ نیز آپ کا رومن ٹو اردو کنورٹر کہاں دستیاب ہے؟
سو فیصد کوریج اور ایکیوریسی مقصود نہ ہو تو ہمارا طریقہ کا یقیناً قابل عمل ہے اور اسکیلبل بھی۔ :) :) :)
رومن اردو مواد ان تمام فورموں، گانوں کی لرکس کی سائٹوں، اور دیگر ویب پورٹلز کی اسکرین اسکریپنگ سے حاصل ہو سکے گا جن کو ہم اردو پورٹلز میں شمار نہیں کرتے۔ :) :) :)
گوگل ٹرانسلیٹ انجن کی اجاکس سروس کو استعمال کرتے ہوئے ہمارا ایک ابتدائی نوعیت کا رومن سے اردو مبدل اس ربط پر موجود ہے۔ یہ ایک سیلف کنٹینڈ فائل ہے لہٰذا اس کو لوکل ڈسک پر محفوظ کر کے استعمال کر سکتے ہیں۔ اگر بڑے اسکیل پر کام کرنا ہو تو شاید اس میں موجود جاوا اسکرپٹ کو نوڈ جے ایس میں کمانڈ لائن سے چلانا بہتر رہے گا، یا بھی کسی بھی دوسری زبان میں کوڈ لکھا جا سکتا ہے۔ نیز یہ کہ گوگل ایک سے زیاد متبادل فراہم کرتا ہے جس میں سے ہم صرف اولین کو منتخب کرتے ہیں لیکن دوسرے مقاصد کے لیے وہاں سے حاصل شدہ پوری ارے محفوظ کی جا سکتی ہے۔ :) :) :)
 

نبیل

تکنیکی معاون
جی میں اسی بارے میں دریافت کر رہا ہوں۔ کیا ان کی سکرین سکریپنگ کا کوئی سہل طریقہ موجود ہے؟ یا کیا یہ کام پہلے کیا جا چکا ہے؟ سکرین سکریپنگ اکثر سائٹس پر ڈینائل آف سروس اٹیک تصور کیا جاتا ہے۔
 
جی میں اسی بارے میں دریافت کر رہا ہوں۔ کیا ان کی سکرین سکریپنگ کا کوئی سہل طریقہ موجود ہے؟ یا کیا یہ کام پہلے کیا جا چکا ہے؟ سکرین سکریپنگ اکثر سائٹس پر ڈینائل آف سروس اٹیک تصور کیا جاتا ہے۔
اگر کسی سائٹ نے براہ راست اس سے منع نہیں کیا ہے تو اسکرین اسکریپنگ میں کوئی حرج نہیں۔ بے شمار سرچ انجنز ان سائٹوں کو روزآنہ کرال کرتے ہیں۔ ڈینائل آف سروس اٹیک نہ ہو اس کے لیے کئی طریقے موجود ہیں جس میں سے بنیادی طریقہ یہ ہوگا کہ ایک ہی سرور پر یکے بعد دیگرے ریکوئیسٹ بھیجنے کے دوران تھورا سا ریلیکس پیرئیڈ دیا جائے۔ ڈبلیو گیٹ اور اس طرح کی دیگر سائٹ ڈمپ کرنے والی یوٹلیٹیز میں اس مقصد کے لیے کنفیگیوریشن پیرامیٹرز موجود ہوتی ہیں۔ ایک اور بات اہم ہوتی ہے کہ ان ٹولز کو استعمال کرتے ہوئے کسی مشہور ویب براؤزر کا یوزر ایجینٹ استعمال کیا جائے تاکہ سرور عام حالات میں اسکرپٹ کو روموٹ قرار دے کر بلاک نہ کرے۔ :) :) :)
اسکرین اسکریپنگ کا عمل سائٹیں ڈمپ کرنے کے بعد کیا جانا چاہیے تاکہ ایک ہی کام کے لیے بار بار لائیو سائٹ کو تکلیف نہ دینی پڑے۔ ہمارے علم میں ایسا کچھ نہیں کہ کسی محفلین نے رومن سائٹوں کو اسکریپ کیا ہو۔ اگر ایسا کچھ کرنا ہے تو ایک لڑی شروع کر کے لوگوں سے ایسی سائٹوں کے روابط جمع کرانے ہوں گے۔ :) :) :)
 

نبیل

تکنیکی معاون
علیحدہ لڑی کی بجائے یہاں ہی یہ کام کرنے میں کیا مضائقہ ہے؟ خود میں رومن اردو سائٹس سے زیادہ واقف نہیں ہوں لیکن کئی محفلین پہلے کثرت سے رومن اردو فورمز کا استعمال کر چکے ہیں۔ وہ اس بارے میں بتا سکتے ہیں۔ علاوہ ازیں رومن اردو میں لکھے گئے بلاگز کا بھی پتا لگانا چاہیے۔

فی الحال یہاں چند روابط پوسٹ کر رہا ہوں:

ہلاگلا
اردو پیجز

مزید روابط کے لیے گزارش ہے arifkarim ، شمشاد ، زیک سے۔
اگر باقی احباب میں سے بھی کسی کو رومن اردو سائٹس کا علم ہو تو یہاں ان کے روابط فراہم کر سکتے ہیں۔ میرے خیال میں درجن بھر سائٹس کے روبط اکٹھے ہو جائیں جہاں سے کافی مواد سکریپ کیا جا سکے تو اس کام کا آغاز کر دیا جانا چاہیے۔
 

زیک

مسافر
اگر اردو رومن ڈکشنری کا مقصد سپیچ ریکگنیشن اور ٹیکسٹ ٹو سپیچ ہے تو پھر رومن اردو سائٹس سے ڈیٹا اکٹھا کرنا اور رومن اردو ڈکشنری بنانا میرے خیال میں زیادہ فائدہ مند نہیں۔

اس کی ایک وجہ یہ ہے کہ اردو اور انگریزی دونوں میں سپیلنگ سے تلفظ کا اندازہ لگانا مشکل ہے۔ دوسری بات یہ ہے کہ اردو والوں کی رومن اردو کو ایک انگریزی کا اہل زبان پڑھتا ہے تو بالکل غلط تلفظ ہوتا ہے۔ اگر ہم انگریزی کے سپیچ ٹولز استعمال کریں گے تو وہ بھی رومن اردو کا یہی حشر کریں گے۔

کیا اردو کے لئے کوئی معروف فونیٹک ایلفابٹ استعمال ہوتی ہے؟
 

سید ذیشان

محفلین
speech recognition اور رومن کنورژن کے لئے الفاط کے تلفظ کی زیادہ اہمیت ہے۔ پہلا قدم تو الفاظ کا درست تلفظ معلوم کرنا اور الفاظ کے سیلیبل نکالنا ہے۔
مثلاً لفظ وقت کو کچھ لوگ waqt اور کچھ لوگ waqat لکھتے ہیں۔ درست waqt ہے۔ (اصولاً تو یہ بھی درست نہیں لیکن یہ قریب ترین آواز ہے رومن حروف میں) انٹرنیٹ پر آپ کو یہ دونوں صورتوں میں ملے گا، لیکن ایک ہی صورت درست ہے۔ تو ہم غلط الفاظ کو ڈکشنری میں شامل نہیں کر سکتے ہیں۔ اسطرح صرف الفاظ کی فہرست بنانے سے کام نہیں بنے گا بلکہ بگڑے گا۔
تو اگر رومن ڈکشنری بنانی ہی ہے تو میرے خیال میں یہی بہترین طریقہ ہے۔
 

زیک

مسافر
speech recognition اور رومن کنورژن کے لئے الفاط کے تلفظ کی زیادہ اہمیت ہے۔ پہلا قدم تو الفاظ کا درست تلفظ معلوم کرنا اور الفاظ کے سیلیبل نکالنا ہے۔
مثلاً لفظ وقت کو کچھ لوگ waqt اور کچھ لوگ waqat لکھتے ہیں۔ درست waqt ہے۔ (اصولاً تو یہ بھی درست نہیں لیکن یہ قریب ترین آواز ہے رومن حروف میں) انٹرنیٹ پر آپ کو یہ دونوں صورتوں میں ملے گا، لیکن ایک ہی صورت درست ہے۔ تو ہم غلط الفاظ کو ڈکشنری میں شامل نہیں کر سکتے ہیں۔ اسطرح صرف الفاظ کی فہرست بنانے سے کام نہیں بنے گا بلکہ بگڑے گا۔
تو اگر رومن ڈکشنری بنانی ہی ہے تو میرے خیال میں یہی بہترین طریقہ ہے۔
اگر آپ کسی انگریز کو waqt بولنے کو کہیں گے تو 90 فیصد چانس ہے وہ واقٹ یا واقت کہے گا۔
 

سید ذیشان

محفلین
اگر آپ کسی انگریز کو waqt بولنے کو کہیں گے تو 90 فیصد چانس ہے وہ واقٹ یا واقت کہے گا۔

اسی لئے میں نے کہا تھا کہ یہ قریب ترین ہے۔ پاکستان کو بھی انگریز پاک از ٹین بولتے ہیں۔ یہ فرق تو بحرحال قبول کرنا پڑے گا۔ دوسرا حل ہے کہ ہم diacritic marks لگائیں جس سے تلفظ واضح ہوگا لیکن اس کے لئے کسی standard کو impose کرنا پڑے گا جو کہ ظاہر ہے ہمارے اختیار میں نہیں ہے۔
 

نبیل

تکنیکی معاون
اگر اردو رومن ڈکشنری کا مقصد سپیچ ریکگنیشن اور ٹیکسٹ ٹو سپیچ ہے تو پھر رومن اردو سائٹس سے ڈیٹا اکٹھا کرنا اور رومن اردو ڈکشنری بنانا میرے خیال میں زیادہ فائدہ مند نہیں۔

اس کی ایک وجہ یہ ہے کہ اردو اور انگریزی دونوں میں سپیلنگ سے تلفظ کا اندازہ لگانا مشکل ہے۔ دوسری بات یہ ہے کہ اردو والوں کی رومن اردو کو ایک انگریزی کا اہل زبان پڑھتا ہے تو بالکل غلط تلفظ ہوتا ہے۔ اگر ہم انگریزی کے سپیچ ٹولز استعمال کریں گے تو وہ بھی رومن اردو کا یہی حشر کریں گے۔

کیا اردو کے لئے کوئی معروف فونیٹک ایلفابٹ استعمال ہوتی ہے؟

speech recognition اور رومن کنورژن کے لئے الفاط کے تلفظ کی زیادہ اہمیت ہے۔ پہلا قدم تو الفاظ کا درست تلفظ معلوم کرنا اور الفاظ کے سیلیبل نکالنا ہے۔
مثلاً لفظ وقت کو کچھ لوگ waqt اور کچھ لوگ waqat لکھتے ہیں۔ درست waqt ہے۔ (اصولاً تو یہ بھی درست نہیں لیکن یہ قریب ترین آواز ہے رومن حروف میں) انٹرنیٹ پر آپ کو یہ دونوں صورتوں میں ملے گا، لیکن ایک ہی صورت درست ہے۔ تو ہم غلط الفاظ کو ڈکشنری میں شامل نہیں کر سکتے ہیں۔ اسطرح صرف الفاظ کی فہرست بنانے سے کام نہیں بنے گا بلکہ بگڑے گا۔
تو اگر رومن ڈکشنری بنانی ہی ہے تو میرے خیال میں یہی بہترین طریقہ ہے۔

رومن اردو سائٹس سے ڈیٹا حاصل کرنا پہلا مرحلہ ہوگا۔ فی الحال Speech Synthesis پر کام کا خیال نہیں ہے۔ فی الحال سپیچ ریکگنیشن پر کام کئی سال سے اسی لیے رکا ہوا ہے کہ مناسب رومن اردو الفاظ کی فہرست دستیاب نہیں ہے۔ یہ درست ہے کہ ویب پر لوگ ایک ہی لفظ کو مختلف انداز سے رومن اردو میں لکھتے آئے ہیں لیکن ڈیٹا سکریپنگ یا ہارویسٹنگ کے مرحلے کے دوران کسی ایک معیار کو اپنانا درست نہیں ہوگا۔ اس طرح ایک ہی اردو لفظ کے ایک سے زیادہ رومن متبادلات سامنے آئیں گے لیکن یہ بھی بعد میں مفید ثابت ہو سکتا ہے۔ ہم بعد میں اگر ایک ٹرانسلٹریشن ٹول لکھنا چاہیں گے تو مختلف متبادلات کو ایک ہی اردو لفظ میں کنورٹ کرنا آسان رہے گا۔ جہاں تک سپیچ ٹو ٹو ٹیکسٹ کا تعلق ہے تو اس کی ضروریات یہاں بیان ہو چکی ہیں۔
 

نبیل

تکنیکی معاون
کچھ سائٹس اردو ٹو رومن ترجمہ کی سہولت بھی فراہم کر رہی ہیں۔ کیا ان کو سکریپ کرنا ممکن ہے؟
 

الف عین

لائبریرین
Top