وہ تو نہیں البتہ اس ملتی جلتی کچھ دیگر دستیاب لغات کو میں نے گولڈن ڈکشنری میں آف لائن استعمال کے قابل بنایا ہے۔وہی جتھوں اے مسئلہ شروع ہویا. اردو ڈکشنری بورڈ والی تریخی اصول پر.
گولڈن ڈکشنری یا کلر ڈکشنری کے لیے اردو سے اردو لغات ڈاؤن لوڈ کی جا سکتی ہیں!
یہ گولڈن ڈکشنری نامی ایک سافٹ ویئر کے اندر استعمال ہوتی ہیں۔ لنکاردو سے اردو لغات ڈاٶن لوڈ کیا ہے لیکن مجھے نہیں معلوم اسے کیسے استعمال کرنا ہے۔ لیپ ٹاپ میں ایکسٹینشن نامعلوم بتا رہاہے۔
پنجابی میں بھی اب فٹے منہ ہی لکھتے ہیں۔
مذکورہ لغت میں تاریخی حوالوں کی وجہ سے املا کے اختلافات ہیں۔
خیر ہمیں تو انتظار ہے کوئی اللہ کا بندہ اسے سکریپ کر کے ڈیٹا مہیا کر دے تاکہ آفلائن استعمال بھی ہو سکے۔
اچھے والا دیں نا۔ چاہے دیر سے دیں۔ میں تو ٹیب ڈی لمیٹڈ والا اساتعمال کرتا ہوں تاکہ گولڈن ڈکشنری کے فارمیٹ میں بدلا جا سکے۔
ہر لائن میں پہلے لفظ لکھا ہو، پھر ٹیب ہو اور اس کے بعد لفظ کے معنی اور اسی طرح اگلی لائن میں اگلا لفظ اور ٹیب کے بعد اس کے معنی یا جو بھی تفصیلات ہیں! ویسے آپ سیکول لائٹ میں ہی کنورٹ کر کے دیں تو باقی میں کر لوں گا۔ آپ نے ڈیٹا کے ناقابل استعمال ہونے کا تذکرہ کیا ہے، اس کی کیا وجوہات ہیں اور ڈیٹا میں کس قسم کی خامیاں موجود ہیں؟اگر ٹیب ڈیلی میٹڈ فائل کی ایک مثال مل جائے تو میں کوشش کر سکتا ہوں۔
ہر لائن میں پہلے لفظ لکھا ہو، پھر ٹیب ہو اور اس کے بعد لفظ کے معنی اور اسی طرح اگلی لائن میں اگلا لفظ اور ٹیب کے بعد اس کے معنی یا جو بھی تفصیلات ہیں! ویسے آپ سیکول لائٹ میں ہی کنورٹ کر کے دیں تو باقی میں کر لوں گا۔ آپ نے ڈیٹا کے ناقابل استعمال ہونے کا تذکرہ کیا ہے، اس کی کیا وجوہات ہیں اور ڈیٹا میں کس قسم کی خامیاں موجود ہیں؟
یہ ڈیٹا اردو لغت بورڈ کی سائٹ سے لیا ہے یا دوسری؟معیاری ایچ ٹی ایم ایل کے نہ ہونے کی وجہ سے کافی الفاظ کے ساتھ سابقے اور لاحقے موجود ہیں۔ کچھ تو وائٹ سپیس کیریکٹر ہیں۔ باقی کچھ سمبل ہیں اور جو کافی الفاظ میں موجو د ہیں۔ اس کی وجہ سے الفاظ کی تلاش اور ترتیب میں مشکل آتی ہے۔ میں نے جو لنک دیا تھا اسے دیکھیں تو شاید آپ کو بہتر اندازہ ہو سکے۔
میں کوشش کرتا ہوں کہ آپ کو چند دن کے اندر کچھ قابل استعمال ڈیٹا دے سکوں۔
جی بھائی شکریہ! آپ کے دیے گئے لنک سے ڈیٹا ڈاؤن لوڈ کر لیا ہے اور مطلوبہ فارمیٹ میں کنورٹ کرنے پر بھی کچھ کام کیا ہے۔۔۔معیاری ایچ ٹی ایم ایل کے نہ ہونے کی وجہ سے کافی الفاظ کے ساتھ سابقے اور لاحقے موجود ہیں۔ کچھ تو وائٹ سپیس کیریکٹر ہیں۔ باقی کچھ سمبل ہیں اور جو کافی الفاظ میں موجو د ہیں۔ اس کی وجہ سے الفاظ کی تلاش اور ترتیب میں مشکل آتی ہے۔ میں نے جو لنک دیا تھا اسے دیکھیں تو شاید آپ کو بہتر اندازہ ہو سکے۔
متفق ! ساڑھے چھ مہینے بعدبھی کوئی پیش رفت سامنے نہ آنے کا مطلب تو یہی بنتا ہے۔ ویسے کچھ الفاظ تلاش کرنے پر پتہ چلا کہ اس کا ایک بڑا حصہ تو وہی ہے برسوں سے آن لائن دستیاب ہے۔ اور جو اضافی الفاظ ہیں ان میں سے بہت سے ٹائپنگ کی غلطیوں کی وجہ سے ناقابل تلاش ہیں!یہ پرائیویٹ کنٹریکٹر سے کروایا گیا کام تھا اور لگتا ہے کہ ادھ پکا ہی جاری کر دیا گیا ہے
اردو لغت کبیر( تاریخی اصول پر) کی بات ہو رہی ہے، اور سکریپ کرنے سے مراد آن لائن لغت سے ڈیٹا اخذ کر کے آف لائن استعمال کے قابل بنانا ہے۔یہ کس ڈکشنری کی بات ہو رہی ہے اور سکریپ کرنا کیا ہوتا ہے ؟
اتنے اچھے لوگوں کی کمی ہے۔زبردست! بہت اچھا کام ہے۔
ویسے اردو لغت بورڈ کو ہی اسے نیٹ پر ڈاؤنلوڈ کرنے کے لیے رکھ دینا چاہیے تھا
الفاظ کو قابل تلاش بنانے کے لیے آپ کے ڈیٹا پر یہ کام کیا ہے:معیاری ایچ ٹی ایم ایل کے نہ ہونے کی وجہ سے کافی الفاظ کے ساتھ سابقے اور لاحقے موجود ہیں۔ کچھ تو وائٹ سپیس کیریکٹر ہیں۔ باقی کچھ سمبل ہیں اور جو کافی الفاظ میں موجو د ہیں۔ اس کی وجہ سے الفاظ کی تلاش اور ترتیب میں مشکل آتی ہے۔ میں نے جو لنک دیا تھا اسے دیکھیں تو شاید آپ کو بہتر اندازہ ہو سکے۔
#!/usr/bin/python3
import json
import re
f = open('udb_test.txt','a')
with open('words.json', encoding='utf-8') as data_file:
data = json.loads(data_file.read())
rows=[list(data['Word'])]
n=0
words = [[]]
for row in rows[0]:
print(n)
words.append([])
words[n].append(row['TitleWithMovements'])
words[n][0]=words[n][0].replace('\t',' ')
words[n][0]=words[n][0].replace('ِ','')
words[n][0]=words[n][0].replace('َ','')
words[n][0]=words[n][0].replace('ُ','')
words[n][0]=words[n][0].replace('ّ','')
words[n][0]=words[n][0].replace('ً','')
words[n][0]=words[n][0].replace('ٍ','')
words[n][0]=words[n][0].replace('ْ','')
words[n][0]=words[n][0].replace('۔','')
words[n][0]=words[n][0].replace('-','')
words[n][0]=words[n][0].replace('.','')
words[n][0]=words[n][0].replace('ٓ','')
words[n][0]=words[n][0].replace('(','')
words[n][0]=words[n][0].replace(')','')
words[n][0]=words[n][0].replace('','')
words[n][0]=words[n][0].replace('ؑ','')
words[n][0]=words[n][0].replace('٘','')
words[n][0]=words[n][0].replace('۱','')
words[n][0]=words[n][0].replace('۲','')
words[n][0]=words[n][0].replace('۵','')
words[n][0]=words[n][0].replace('۳','')
words[n][0]=words[n][0].replace('۴','')
words[n][0]=words[n][0].replace('۶','')
words[n][0]=words[n][0].replace('۷','')
words[n][0]=words[n][0].replace('۸','')
words[n][0]=words[n][0].replace('۹','')
words[n][0]=words[n][0].replace('۰','')
words[n][0]=words[n][0].replace(' ب ',' ')
words[n][0]=words[n][0].replace(' د ',' ')
words[n][0]=words[n][0].replace(' ہ ',' ')
words[n][0]=words[n][0].replace(' ء ',' ')
words[n][0]=words[n][0].replace(' ج ',' ')
words[n][0]=words[n][0].replace(' الف ',' ')
while ' ' in words[n][0]:
words[n][0]=words[n][0].replace(' ',' ')
words[n][0]=words[n][0].strip()
words[n][0] = re.sub(' الف$', '', words[n][0])
words[n][0] = re.sub(' ب$', '', words[n][0])
words[n][0] = re.sub(' ج$', '', words[n][0])
words[n][0] = re.sub(' و$', '', words[n][0])
words[n][0] = re.sub(' د$', '', words[n][0])
words[n][0] = re.sub(' ہ$', '', words[n][0])
x=row['Meaning']
words[n].append([])
for y in x:
words[n][1].append(y['Value'])
n=n+1
words.sort()
prev="start"
for wdata in words:
if wdata:
if wdata[0]!=prev:
print("",file=f)
print(wdata[0]+"\t",end="", file=f)
for mdata in wdata[1]:
if mdata:
mdata=mdata.replace("\r"," ")
mdata=mdata.replace("\t"," ")
mdata=mdata.replace("\n"," ")
while ' ' in mdata:
mdata=mdata.replace(' ',' ')
print(mdata+"\\n",end="", file=f)
prev=wdata[0]