دوست
محفلین
ایک عرصے سے خواہش تھی کہ اردو کی ٹیکسٹ آرکائیو بنائی جائے تاکہ اردو پر بنیادی ابتدائی تحقیق کے لیے تو کوئی ڈیٹا بیس موجود ہو۔ اس سلسلے میں آج خاموشی توڑ کر کچھ کام کیا ہے۔ اصل کام تو اعجاز اختر صاحب کا تھا، ہم نے ان کی ویب سائٹ سے بس ٹیکسٹ فارمیٹ میں کتابیں اتار لیں اور ان میں موجود لفظ گن ڈالے۔ ماشاءاللہ خام حالت میں یہ ٹیکسٹ اٹھارہ ملین الفاظ پر مشتمل ہے۔ ابھی اس کو شاعری اور نثر میں تقسیم کرنا ہے، تاکہ مستقبل میں تحقیق میں آسانی رہے۔ اس کے علاوہ نثر میں بھی مذہب، ادب وغیرہ سے زمرے بنانے ہیں۔ لیکن یہ کام ہوتا رہے گا۔
اس کام کے ساتھ ساتھ نیوز اردو ڈاٹ نیٹ پر ڈاکہ مارا ہے اور اس کی 2007، 2010 اور 2011 کی آرکائیو کو ایچ ٹی ایم ایل کرالر سے اتارا ہے۔ کل انشاءاللہ اس میں سے بھی ڈیٹا ٹیکسٹ فارمیٹ میں نکل آئے گا۔
اور اس کے بعد اردو بلاگرز کے ڈیٹا پر ڈاکے پڑیں گے۔ ویب سائٹ ڈاؤنلوڈر سے سارے سارے بلاگ اتار کر پوسٹس کو الگ کرلیا جائے گا۔
اور آخری ڈاکہ اردو فورمز پر پڑے گا۔ یہ کام ذرا اوکھا ہے لیکن کوشش ہے کہ یہ ڈیٹا بھی شامل ہو ساتھ میں۔ اردو پر تحقیق کے لیے اس وقت کوئی کاپی راٹ فری ٹیکسٹ آرکائیو دستیاب نہیں ہے۔ چناچہ یہ پہلا قدم ہوگا۔ اگلے قدم کے طور پر اس آرکائیو کی گرامر ٹیگنگ کرکے اسے اردو کارپس میں بدلا جاسکتا ہے۔ اللہ وہ وقت جلدی لائے۔
وسلام
اس کام کے ساتھ ساتھ نیوز اردو ڈاٹ نیٹ پر ڈاکہ مارا ہے اور اس کی 2007، 2010 اور 2011 کی آرکائیو کو ایچ ٹی ایم ایل کرالر سے اتارا ہے۔ کل انشاءاللہ اس میں سے بھی ڈیٹا ٹیکسٹ فارمیٹ میں نکل آئے گا۔
اور اس کے بعد اردو بلاگرز کے ڈیٹا پر ڈاکے پڑیں گے۔ ویب سائٹ ڈاؤنلوڈر سے سارے سارے بلاگ اتار کر پوسٹس کو الگ کرلیا جائے گا۔
اور آخری ڈاکہ اردو فورمز پر پڑے گا۔ یہ کام ذرا اوکھا ہے لیکن کوشش ہے کہ یہ ڈیٹا بھی شامل ہو ساتھ میں۔ اردو پر تحقیق کے لیے اس وقت کوئی کاپی راٹ فری ٹیکسٹ آرکائیو دستیاب نہیں ہے۔ چناچہ یہ پہلا قدم ہوگا۔ اگلے قدم کے طور پر اس آرکائیو کی گرامر ٹیگنگ کرکے اسے اردو کارپس میں بدلا جاسکتا ہے۔ اللہ وہ وقت جلدی لائے۔
وسلام