اردو ٹیکسٹ آرکائیو کی طرف پہلا قدم

دوست

محفلین
ایک عرصے سے خواہش تھی کہ اردو کی ٹیکسٹ آرکائیو بنائی جائے تاکہ اردو پر بنیادی ابتدائی تحقیق کے لیے تو کوئی ڈیٹا بیس موجود ہو۔ اس سلسلے میں آج خاموشی توڑ کر کچھ کام کیا ہے۔ اصل کام تو اعجاز اختر صاحب کا تھا، ہم نے ان کی ویب سائٹ سے بس ٹیکسٹ فارمیٹ میں کتابیں اتار لیں اور ان میں موجود لفظ گن ڈالے۔ ماشاءاللہ خام حالت میں یہ ٹیکسٹ اٹھارہ ملین الفاظ پر مشتمل ہے۔ ابھی اس کو شاعری اور نثر میں تقسیم کرنا ہے، تاکہ مستقبل میں تحقیق میں آسانی رہے۔ اس کے علاوہ نثر میں بھی مذہب، ادب وغیرہ سے زمرے بنانے ہیں۔ لیکن یہ کام ہوتا رہے گا۔
اس کام کے ساتھ ساتھ نیوز اردو ڈاٹ نیٹ پر ڈاکہ مارا ہے اور اس کی 2007، 2010 اور 2011 کی آرکائیو کو ایچ ٹی ایم ایل کرالر سے اتارا ہے۔ کل انشاءاللہ اس میں سے بھی ڈیٹا ٹیکسٹ فارمیٹ میں نکل آئے گا۔
اور اس کے بعد اردو بلاگرز کے ڈیٹا پر ڈاکے پڑیں گے۔ ویب سائٹ ڈاؤنلوڈر سے سارے سارے بلاگ اتار کر پوسٹس کو الگ کرلیا جائے گا۔
اور آخری ڈاکہ اردو فورمز پر پڑے گا۔ یہ کام ذرا اوکھا ہے لیکن کوشش ہے کہ یہ ڈیٹا بھی شامل ہو ساتھ میں۔ اردو پر تحقیق کے لیے اس وقت کوئی کاپی راٹ فری ٹیکسٹ آرکائیو دستیاب نہیں ہے۔ چناچہ یہ پہلا قدم ہوگا۔ اگلے قدم کے طور پر اس آرکائیو کی گرامر ٹیگنگ کرکے اسے اردو کارپس میں بدلا جاسکتا ہے۔ اللہ وہ وقت جلدی لائے۔
وسلام
 
ما شاء اللہ۔ بہت بہت مبارک ہو شاکر بھائی۔ ویسے ہم بھی ڈیجیٹل لائبریریز، ویب آرکائیونگ اور سیمینٹک ویب کے شعبے سے جڑے ہوئے ہیں۔ بلکہ ہم اپنا ماسٹرز تھیسیس بھی اردو آرکائیونگ کے حوالے سے تیار کرنے کا ارادہ رکھتے ہیں، اگر پروفیسر کی سمجھ میں بات آ جائے۔

آپ اس ربط کو بھی ملاحظہ فرما لیں۔ اردو اسپیچ ریکگنیشن کے حوالے سے اس ربط تک پہونچے تھے۔

ہمارا ارادہ ہے کہ اردو محفل کا پبلک ڈاٹا ریسرچ کے لئے جاری کر دیا جائے۔ اور اس پر کئی ماہ سے گفتگو چل رہی ہے۔ اس طرح ریسرچرز کو کرالنگ کی زحمت سے بچایا جا سکے گا۔

ممکن ہے آپ کو پہلے سے علم ہو پھر بھی ریسرچرز کے استعمال میں آنے والا سب سے مشہور اوپن سورس ویب کرالر ہریٹرکس ضرور آزمائیں۔ یوں تو یہ چھوٹا سا ایپلیکیشن ہے پر اس میں ترتیبات کی بھرمار ہے۔ :)
 

نبیل

تکنیکی معاون
زبردست شاکر، اور شکریہ ابن سعید۔
میں نے ابن سعید سے کئی مرتبہ ذکر کیا ہے کہ محفل فورم کے پبلک زمرہ جات کے مراسلات کا ڈیٹا ڈمپ کرکے تحقیقی مقاصد کے لیے جاری کر دیا جانا چاہیے۔
 

دوست

محفلین
ابن سعید میں وِن ویب سائٹ ڈاؤنلوڈر استعمال کررہا ہوں۔ پانچ سال پرانا یہ پروگرام بہترین کام کررہا ہے۔ نبیل بھائی یہ بہت اچھا ہوجائے گا کہ اردو محفل کا ڈیٹا آنلائن دستیاب ہو۔
میں تو آج پھاوا ہوگیا ہوں ریگولر ایکسپریشن بنا بنا کر، صرف پوسٹس کے ٹائٹل میچ کروانے تھے اور لگ پتے گئے، خیر ٹائٹل نکل آئے۔ کل انشاءاللہ نیوز سٹوریز نکال کر دیکھتا ہوں کتنے الفاظ بنتے ہیں۔ امید تو ہے دس ملین کے قریب الفاظ ہونگے۔
 

الف عین

لائبریرین
مبارک ہو شاکر اس نیک کام کا بیڑا اٹھانے کا۔ اور شکریہ میری لائبریری کا متن لینے کا۔ اس کو تم بنا جھجھک استعمال کر سکتے ہو کارپس کے لئے، لیکن محفل اور دوسری فورمس میں گارنٹی نہیں دے سکتا۔ سب لوگوں کو دو الفاظ کے درمیان اس صورت میں سپیس نہ دینے کی عادت ہے جس میں لفظ پڑھنے میں آتا ہو۔ اس طرح بہت سے Non words بھی اس لسٹ میں شامل ہو جاتے ہیں۔ کرلپ کی لسٹ دیکھو، آکر اور آآکر سے شروع ہوتی ہے!! گارنٹی تو میں بھی نہیں دے سکتا کہ میں نے ساری اغلاط سدھاری ہیں، لیکن 90% تک کم از کم ان کی پروف ریڈنگ کے بعد اصلاح ہو چکی ہے۔
ویسے کرلپ کی لسٹ بھی تو بن چکی ہے، اور اس کا اصلاح شدہ ورژن میرے ای سنپس Miscellany فولڈر میں ہے۔ جسے آج ہی اپ ڈیٹ کیا ہے۔ اس کو بھی استعمال کرنے کی سوچو۔
 
شاکر بھائی آپ جو ایپلیکیشن استعمال کر رہے ہیں وہ شاید ویب سائٹ داؤنلوڈر ہے اور ونڈوز فرینڈلی ہے۔ جبکہ ہم نے جس کرالر ہیریٹرکس کے بارے میں بتایا تھا وہ اسٹینڈرڈ لینکس فرینڈلی اوپن سورس پروجیکٹ ہے جو آرکائیو داٹ آرگ کے ذریعہ سورس فورج پر مینٹین کیا جاتا ہے۔ نیز یہ کہ بیشتر ریسرچ اسکالر اور خود آرکائیو ڈاٹ آرگ ویب کرالنگ کے لئے اسی کا استعمال کرتے ہیں۔ اس میں ایڈوانسڈ ایچ ٹی ٹی پی ہیڈرس اور روبوٹ ڈاٹ ٹی ایکس ٹی فائلس وغیرہ کا خیال رکھا جاتا ہے۔ اس کے علاوہ ہیریٹرکس ڈاؤنلوڈ کردہ داٹا کو آن دی فلائی کمپریس کرتا رہتا ہے جسے ایکسپلور کرنے کے لئے آرکائیو ڈاٹ آرگ کا ہی وے بیک نامی ٹول استعمال کیا جا سکتا ہے۔ آپ کو جلد یا بدیر ڈسک کا مسئلہ ضرور در پیش ہوگا۔ ویسے بھی ہمارا مشورہ ہے کہ ڈاؤنلوڈ کیئے گئے داٹا کا آف سائٹ بیک اپ مثلاً ایکسٹرنل ۃارڈ ڈسک وغیرہ میں کاپیاں ضرور رکھیئے۔ اور بینڈ وڈتھ کا مسئلہ نہ ہو تو اردو ویب کے سرور پر بھی اپنے اکاؤنٹ میں ایس ایف ٹی پی وغیرہ کی مدد سے اس کی ایک کاپی منتقل کر دیا کیجئے۔

آپ اردو وکیپیڈیا کا ڈاٹا ایک فائل کی شکل میں یہاں سے حاصل کر سکتے ہیں۔ اس میں محض ٹائٹل یا مکمل متن حاصل کرنے کی سہولت موجود ہے۔ کچھ عرصہ قبل ہم نے اس ڈاٹا سے منفردات اخذ کرنے کی کوشش کی تھی اور خوب لطف اندوز ہوئے تھے۔ حالانکہ ہماری توقع یہ تھی کہ یہاں املا کی غلطیاں نا کے برابر ہوں گی لیکن خدا کی پناہ جو کبھی دوبارہ ایسا کچھ سوچنے کی غلطی بھی کریں۔ :)

اردو محفل کا ڈاٹا ڈمپ تو ہمارے پاس موجود ہوتا ہے لیکن اس کو پبلک کرنے سے پہلے اس کی کلیننگ اور فلٹرنگ انتہائی ضروری ہے۔ در اصل ڈاٹا بیس ڈمپ کرنے کے لئے ایس کیو ایل ڈمپ کمانڈ تمام ٹیبلز کی اسکیما اور ڈاٹا کو ایک فائل میں پیک کر دیتا ہے جس میں دنیا بھر کی کنفیگیوریشن، تمام فورم کا مواد، احباب کے ذاتی پیغامات غرض کہ سبھی کچھ شامل ہوتے ہیں۔ بہر کیف اس مقصد کے لئے ہم محض فورم پوسٹس کا ٹیبل ڈمپ کر سکتے ہیں پھر بھی اس کی فلٹرنگ ضروری ہوگی جس کے تحت تمام نان پبلک فورمز سے متعلقہ پیغامات کی فلٹر کرنا ہوگا، صاحب مضمون کی آئیڈینٹٹی کو اینونیمائز کرنا ہوگا نیز ضروری ہوا تو ٹائٹل اور پوسٹ ڈیٹ کو بھی رینڈملی مکس کرنے کے بارے میں سوچا جا سکتا ہے۔ اس کے علاوہ کئی غیر ضروری فیلڈس کو حذف کرنا ہوگا۔ اردو سیارہ کی کیشے میں بھی کافی کچھ پبلک مواد موجود ہے۔

اس کے علاوہ ہمارے پاس کچھ اور مواد بھی موجود ہے جو نسبتاً زیادہ ریفائنڈ سورسیز سے اخذ کیا گیا ہے۔ اس کے لئے ذاتی چینلز پر رابطہ کر سکتے ہیں۔
 

دوست

محفلین
اعجاز اختر صاحب کتابوں کا ڈیٹا واقعی شاندار ہے۔ اس میں سے بس ابواب کی فہرست وغیرہ اڑانی پڑے گی، اگر اس ڈیٹا کو ٹیگنگ وغیرہ سے گزارنا ہے تو۔ چونکہ پورے جملے کو لیا جاتا ہے وہاں۔ خیر ابھی یہ خام حالت میں بن جائے تو مزید کام ہوتا رہے گا۔
جی ابن سعید ہارڈ ڈسک کا مسئلہ تو درپیش ہورہا ہے۔ میں ڈیٹا کی بیک اپ لے رہا ہوں فورشئیرڈ پر ساتھ ساتھ۔7 زپ میں الٹرا پر زپ کرکے کل کتابیں اپلوڈ کردی تھیں۔ کل ریگولر ایکسپریشن سے کھپنے کے بعد اب یہ نصیحت ہوئی کہ اردو پر ریگولر ایکسپریشن ہی ہر بار ٹھیک نہیں چلتے۔ چناچہ اب سٹرنگ سپلٹ میتھڈز استعمال کرکے پوسٹ کا ڈیٹا حاصل کرنے کی کوشش کررہا ہوں۔ شکر ہے کہ یہ ورڈپریس میں بنی ویب سائٹ ہے چناچہ ہر صفحہ ایک ہی طرح کا ہے، ورنہ بعض اخبارات کی ویب سائٹس نہ پوچھیں کس طرح وہاں سے ڈیٹا نکالا تھا۔
ویب سائٹ ڈاؤنلوڈ سے کام نہ چلا تو اس پر آؤں گا تب تک وہی۔چونکہ مجھے ایچ ٹی ایم ایل وغیرہ کا کوئی زیادہ آئیڈیا نہیں۔ میں نے تو ایک ڈاؤنلوڈ شدہ ایچ ٹی ایم ایل فائل پر ریجیکس چلا کر مطلوبہ ڈیٹا حاصل کرنا ہوتا ہے۔
اردو وکی پیڈیا پر جو زبان موجود ہے وہ نیچرل نہیں مصنوعی ہے چناچہ اس کو لینا بے کار ہی ہوگا۔ اردو ویب کے ڈیٹا کو فلٹر کنے کا انتظام کیا جاسکتا ہے، ریگولر ایکسپریشن زندہ باد۔ یہ آرکائیو اصل میں تفسیر احمد سے ایک گفتگو کے بعد بنا رہا ہوں۔ ان کو اپنی کسی ریسرچ کے لیے اردو کے دو لفظی مرکبات چاہیے تھے، اور ڈیٹا وہی کرلپ والا ہی تھا بس۔ میں نے درخواست کی کہ مجھے بھی کچھ کام دیں تو یہ کام پھر مجھے مل گیا۔ اگرچہ عرصے سے اس پر اپنی بھی نظر تھی۔
وسلام
 
ایک دفعہ محفل میں ترکیب اضافی اور ترکیب توصیفی وغیرہ پر مشتمل ایک کھیل بھی شروع کیا گیا تھا جس کا دیرنہ مقصد یہی تھا کہ کبھی اس ڈاٹا کو پارس کر کے ان شاء اللہ کام میں لایا جا سکے گا۔ :)

ریگیولر ایکسپریشنز سے کھیلتے رہیں بہت ہی دلچسپ شئے ہے۔ ایک زبان میں کام نہ بلے تو دوسری کسی پروگرامنگ زبان کے ریگیولر ایکسپریشنز آزما لیں۔ ویسے پرل کا ریگ ایکس اسٹینڈرڈ ہے۔ :)
 

دوست

محفلین
سی شارپ کے ریگولر ایکسپریشن نے کبھی مایوس نہیں کیا۔ عرصہ تین سال سے استعمال کررہا ہوں۔ نان انگلش کریکٹرز کے لیے ابھی ریگ ایکس بنانے کا تجربہ نہیں ہے لیکن آہستہ آہستہ تجربہ ہوجائے گا۔ ریگ ایکس مزے دار چیز ہے جی۔ مجھے جس چیز میں سب سے زیادہ کانفیڈنس ہوتا ہے وہ ریگ ایکس بنانا ہے، اور کچھ آوے نہ آوے۔
اور تین دن، یعنی مل ملا کے کوئی 8 گھنٹے کی محنت کے بعد پانچ ہزار چھ سو ستائیس فائلز، اور ایک اعشاریہ سات ملین الفاظ کا ڈیٹا حاصل ہوا ہے۔ لیکن یہ پروف ریڈ شدہ نہیں ہے، املاء کی غلطیاں بھی ہونگی۔ لیکن مجھے خوشی ہورہی ہے کہ عرصے کہ بعد اردو کے لیے کوئی کام کیا ہے۔
 

دوست

محفلین
3 ہفتے کے بعد پھر تھوڑا سا کام کیا ہے۔ نیوز اردو ڈاٹ نیٹ کے آرٹیکلز کو ایچ ٹی ایم ایل سے پاک کرنا کوئی مشکل کام نہیں تھا۔ کوئی ایک اعشاریہ آٹھ ملین الفاظ ہیں اس میں، بغیر کسی پروف ریڈنگ کیے ہوئے۔
فور شئیرڈ پر
 

arifkarim

معطل
بہتر ہوگا اس قسم کا کام سورس فورج یا ڈراپ باکس پر منتقل کیا جائے۔ 4 شیئرڈ جیسی اشتہاراتی سائٹس سے دور ہی رہئے۔ کوئی گیرینٹی نہیں کب لنک ایکسپائر ہو جائے!
 

دوست

محفلین
عارف بھائی کوئی دو تین سال سے کھاتا ہے فور شئیرڈ پر۔ وہیں پر ایک پبلک فولڈر بنا کر یہ اپلوڈ کردی تھیں۔ اسے بیک اپ کے طور پر استعمال کرتا ہوں میں۔
 

دوست

محفلین
اس حوالے سے بعد میں کوئی پیش رفت نہیں ہوئی۔ آپ سی ایل ای (ڈاکٹر سرمد کا ادارہ) سے اردو کارپس حاصل کر سکتے ہیں۔ ان کے پاس اردو ڈائجسٹ کا پروفیشنل لیول کا کارپس قیمتاً دستیاب ہے۔
 
شکر ہے اس موضوع پر ایک دھاگہ تو موجود ہے۔
ایک پائتھون سکرپٹ میرے ہاتھ بھی لگا ہے جو اردو ٹیکسٹ سے جملے کشید کرتا ہے۔
دلچسپ بات یہ ہے کہ اسے ایک امریکی نے لکھا ہے جو بروکلین میں ہی رہتا ہے اور اردو نہیں جانتا بلکہ کوڈ لکھ کر متفسر بھی ہے کہ اردو جملے کے اختتام کے لیے کیا واضح کلیہ ہے۔

بنیادی طور پر موصوف نے ایک پرل کوڈ کو پائتھون میں ڈھالا ہے جسے MIT کے کسی مسلم طالب علم نے لکھا تھا مگر پبلک نہیں کیا۔

کوڈ کا جائزہ لے لیا ہے اور دھاگے کو زندہ کرنے کی خاطر شیئر بھی کروں، کچھ سوالات بھی ہیں جن کا جواب چاہوں گا اور امید ہے کہ تحقیق کسی قدر آگے بڑھے گی۔
 
Top