اردو میں کوئی شناخت برائے بصری الفاظ Ocr کا سوفٹویئر موجود ہے؟؟؟

نبیل

تکنیکی معاون
شکریہ جواد۔ اگرچہ یہ کافی بنیادی نوعیت کی بصری شناخت ہے، لیکن یہ بطور ایک پروف آف کانسپٹ کے استعمال کی جا سکتی ہے۔ آپ نے جو تصویری متن استعمال کیا ہے، اس میں ترسیمے واضح طور پر الگ الگ ہیں اور نسبتاً سادہ ہیں۔غالبا اسی وجہ سے ان کی شناخت ممکن ہوئی ہے۔ میں نے کچھ عرصہ قبل امیج پراسیسنگ کے ماہرین سے اس سلسلے میں بات کی تھی اور انہوں نے کافی مفید باتیں بھی بتائی تھیں۔ اگر اس فیلڈ میں کچھ کام کرنے والے سامنے آ جائیں تو کچھہی عرصے میں حوصلہ افزا نتائج سامنے آ سکتے ہیں۔

میں نے یہ تھیسس ڈیویلپ کیا تھا کہ اگر لگیچرز کی ایک ڈیٹابیس بن جائے تو تصویری متن کو پہلے افقی (horizontal) سمت میں پروسیسنگ کرکے اس کی سطور کو علیحدہ کیا جا سکتا ہے اور اس کے بعد ان سطور کو عمودی (vertical) سکیننگ کے ذریعے ترسیموں میں علیحدہ کیا جا سکتا ہے۔ اس طرح تصویری متن کے ترسیمہ جات تصویری شکل میں ہو جائیں گے جنہیں بصری شناخت کے مرحلے سے گزارا جا سکتا ہے۔ اس تھیسس کا سب سے بڑا مسئلہ یہ assumption ہے کہ تصویری متن کی سطور اور ہر سطر میں ترسیمہ جات کے مابین کچھ نہ کچھ سپیس ہے جس کی بدولت انہیں سادہ پروسیسنگ سے علیحدہ کرنا ممکن ہو سکتا ہے۔ لیکن جب میں نے تصویری اردو کے نمونے دیکھے تو معلوم ہوا کہ اکثر صورتوں میں یہ مفروضہ غلط ثابت ہوتا ہے۔ عام طور پر تصویری اردو کے نمونوں میں عبارت کافی تنگ نظر آتی ہے جس کی وجہ سے ک کی کشش پچھلے لفظ کے اوپر آ رہی ہوتی ہے اور اسی طرح سطور کے درمیان بھی سپیس نہیں ملتی۔ اس طرح اگرچہ تصویری متن سے ترسمیہ جات کا حاصل کرنا ناممکن نہیں ہو جاتا لیکن کم از کم سادہ پیٹرن ریکگنیشن سے ان کا حصول ممکن نہیں رہتا۔ اس کے لیے edge detection جیسے پروسیجر ہی کام دے سکتے ہیں جس پر کوئی امیج پراسیسنگ کے ماہر ہی کام کر سکتے ہیں۔

ایک طریقہ یہ اپنایا جا سکتا ہے کہ شروع میں ایسے ہی تصویری متن پر کام کیا جائے جو کہ مذکورہ بالا مفروضے پر پورا اترتا ہو، یعنی کہ اس کی سطور اور الفاظ کے درمیان کچھ نہ کچھ سپیس ضرور ہو۔ اس طرح کم از کم تحقیق آگے ضرور بڑھتی رہے گی۔ اگر اس میں کامیابی حاصل ہو جاتی ہے تو مزید پیچیدہ پرابلمز کو حل کرنے پر بھی غور کیا جا سکتا ہے۔
 

زیک

مسافر
امیج پراسسنگ کے ماہر ہونے کا دعوٰی کرتے ہوئے مجھے اس موضوع پر بہت کچھ کہنا اور کرنا ہے مگر ابھی کچھ ماہ میں شدید مصروف ہوں۔ :(
 

قیصرانی

لائبریرین
سلام: چند ہفتے پہلے بھی میں نے Tesseract OCR کے متعلق بتایا تھا۔ اس میں لگیچر استعمال ہوتے ہیں۔اس میں ابھی اردو /عربی کی سپورٹ تو نہیں ہے۔ لیکن اگر آپ اپنا دل خوش کرنا چاہتے ہیں تو یہ رزلٹ دیکھیں۔
tesseract.jpg

اور میرا کام اس فائل میں ہے۔
2.8mb Tesseract.rar
ّ(اس لنک کو ڈاون لوڈ منیجر سے ڈاون لوڈ کر سکتے ہیں۔resume کے ساتھ)
http://www.fileden.com/files/2008/2/13/1757067/Tesseract.rar
abc1.bat کی فائل کو چلاہیں گے تو وہ abc1.tif کو سکین کر کے abc1.txt کی فائل بنائے گا۔
اس کا لگیچر کو شامل کرنے کا طریقہ کچھ مشکل ہے، لیکن اگر کہیں گے توتمام طریقہ بھی بتا دوں گا۔
جواد

لیگیچر شامل کرنے کا طریقہ بتا دیں
 

jawad101

محفلین
سلام:اس پروگرام میں ocrکے لیے سب سے پہلے الفاظ کا ڈیٹا بیس بنانا پڑتا ہے۔ اور ان کی تربیت کرنی پڑتی ہے۔
ان پیج میں کچھ الفاظ سپیس دے کر لکھیں۔ اور پھر ان الفاظ کو ایک bmp فائل میں save کر لیں، اب کسی پروگرام سے bmp فائل کو uncompress TIF میں کنورٹ کر لیں۔ آپ صرف ان پیج ہی نہیں، بلکہ پاک نستعلیق یا اور فونٹس بھی استعمال کر سکتے ہیں، ہاتھ کی لکھائی کا بھی یہی طریقہ ہے۔
اب اُس tif فائل کو abc.tif سے rename کر کے Tesseract کے فولڈر میں رکھ دیں۔ اور 1.bat فائل چلا ئیں ۔ اس فائل کو چلانے کے بعد آپ کو ایک نئی فائل ملے گی abc.txt ۔ جو اس طرح سے نظر آئے گی
J 28 164 43 187
a 80 162 123 187
y 161 147 204 178
l 242 163 246 195
y 298 152 330 192
w 382 162 421 200
/ 419 198 440 213
Q 506 148 522 198
اب ایک اور پروگرام bbTesseract.exe چلائیں (یہ پروگرام نیٹ فریم ورک میں بنا ہے)اور abc.txt فائل کو لوڈ کریں ۔ آپ دیکھ سکھتے ہیں کہ Tesseract OCR نے اردو الفاظ کو کس طرح detect کرنے کی کوشیش کی ہے۔ کستا اور پا کے الفاظ صحیح طرح سے استعمال نہیں کر سکا۔ آپ کو ان الفاظ کو ٹھیک کر نا پڑے گا۔ جیسےپا کے لیے bottom کی ولیو زیادہ کرنی پڑے گی۔ کستا کو دو لگیچر میں detect کیا گیا ہے۔ اسے ٹھیک کرنے کے لیے کستا کی ڈنڈی کو ڈلیٹ کر دیں، اور پھر کستاکے top اور right ولیوز کو زیادہ کر کے پورے باکس میں کستا کا لفظ لائیں۔ تمام الفاظ ٹھیک کرنے کے بعد ان تبدیلوں کو Save txtfile سےدوبارہ محفوظ کریں، اور Save Box کے آپشن سے ایک نئی فائل abc.box میں بھی محفوظ کر لیں۔
Tesseract نے اردو الفاظ کی جگہ اپنی طرف سے انگلش الفاظ لگائے ہیں۔ آپ کو ان انگلش الفاظ کی جگہ اردو الفاظ شامل کرنے ہوں گے۔ notepad میں abc.box فائل کو لوڈ کر یں،اور انگلش لفظ کو ڈلیٹ کر کے اس کی جگہ اردو لفظ لکھیں۔ یہ بات ذہن میں رکھیں کہ جب آپ اردو لفظ لکھیں گے تو اردو لفظ، لائن کے آخر میں نظر آئے گا، لیکن حقیقت میں یہ لفظ شروع میں ہی ہے۔ اس طرح تمام اردو لفظ لکھ دیں۔ ایک اور بات، یہ فائل utf-8 کے فارمیٹ میں ہونی چاہیے۔
د 28 164 43 187
ت 80 162 123 187
ب 161 147 204 178
ا 242 163 246 195
ن 298 152 330 192
کستا 382 162 441 212
پا 506 139 522 199
abc.box میں اردو الفاظ شامل کرنے کے بعد اس فائل کو محفوظ کر لیں۔ اسی فولڈرمیں کو دو txt فائلیز بھی نظر آئیں گئیں۔
frequent_words_list.txt
words_list.txt
آپ کو یہ کرنا ہو گا کہ آپ نے جن اردو الفاظ کو abc.box میں شامل کیا ہے۔ انہیں الفاظ کو ان دونوں فائلز میں لکھ دیں۔ہر لائن میں ایک اردو لفظ لکھیں گے،اور صرف اردو لفظ۔ یہ دونوں فائلز بھی utf-8 فارمیٹ میں ہونی چاہیے۔
د
ت
ب
ا
ن
کستا
پا
اب 2.bat فائل چلائیں۔ اس فائل میں دو پروگرامزwordlist2dawg.exe اور wordlist2dawg.exe بہت زیادہ وقت اور میموری لیں گے۔
اب آپ نے اپنے الفاظ کی ایک ڈیٹا بیس بنا لی ہے۔ abc.bat اور abc1.bat کی فائلز چلا کر دیکھیں ، کہ کیا آپ کے الفاظ ocr نے سکین کیے ہیں۔ ان دونوںch bat فائلز کے رزلٹ abcc.txt اور abc1.txt میں محفوظ ہوں گے۔
اس پروگرام کو استعمال کرنے کے طریقہ کی یہ swf ویڈیو بھی ڈاون لوڈ کر کے دیکھیں
Tesseract.swf 8mb
http://www.mediafire.com/?ezkws5saijb
 

دوست

محفلین
نوری نستعلیق کے لگیچرز کی ڈیٹابیس کے لیے ڈیٹا تو کرلپ والوں کے ہاں موجود ہے۔ انھوں نے ان بیس ہزار یا کم و بیش ان لگیچرز کو یونیکوڈ میں لکھ کر لسٹ جاری کردی ہے۔
 

الف نظامی

لائبریرین
ان پیج میں کچھ الفاظ سپیس دے کر لکھیں۔ اور پھر ان الفاظ کو ایک bmp فائل میں save کر لیں، اب کسی پروگرام سے bmp فائل کو uncompress TIF میں کنورٹ کر لیں۔ آپ صرف ان پیج ہی نہیں، بلکہ پاک نستعلیق یا اور فونٹس بھی استعمال کر سکتے ہیں، ہاتھ کی لکھائی کا بھی یہی طریقہ ہے۔
ایک اطلاقیہ بناتا ہوں جو کرلپ کے مہیا کردہ تمام ترسیمہ جات کو تصویری شکل میں منتقل کردے۔
 

دوست

محفلین
یہ کیا چیز ہے کچھ اس کے بارے میں پڑھا ہے آپ نے؟
http://www.abbyy.com/sdk/

والسلام علیکم ورحمۃ اللہ وبارکۃ۔
یہ ان کی سافٹویر ڈویلپمنٹ کٹ ہے۔ جس کو استعمال کرکے لینکس اور میکنٹوش میں او سی آر بنائے جاسکتے ہیں۔ لیکن یہ قیمتًا دستیاب ہوگی لازمًا۔۔۔ورنہ لینکس والے اس کو اٹھا کر او سی آر نہ بنا ڈالتے۔ اردو کے لیے نہیں ہے یہ۔
 
یہ ان کی سافٹویر ڈویلپمنٹ کٹ ہے۔ جس کو استعمال کرکے لینکس اور میکنٹوش میں او سی آر بنائے جاسکتے ہیں۔ لیکن یہ قیمتًا دستیاب ہوگی لازمًا۔۔۔ورنہ لینکس والے اس کو اٹھا کر او سی آر نہ بنا ڈالتے۔ اردو کے لیے نہیں ہے یہ۔
ہممممم۔ بہت بہت شکریہ ۔ میں سمجھا شاید اس کی مدد سے ہم ocr پروگرام کو Customize کر سکتے ہے ۔ تو کچھ اردو کا بھی کام بن جائے ۔ لیکن یہ تو کچھ اور ہی چیز نکلی ۔
شکریہ والسلام
والصلوۃ والسلام علیک یارسول اللہ
 

الف نظامی

لائبریرین
Top