ڈاکٹر حافظ صفوان محمد چوہان
hafiz.safwan@gmail.com
سید ذوالکفل بخاری
syed.zulkifl@gmail.com
ڈاکٹر ظہیر احمد
zaheer.ahmad@surrey.co.uk
مزید معلومات، مقالے کی سافٹ کاپی اور مقالہ نگاران سے رابطے کے لیے:
1. ڈاکٹر حافظ صفوان محمد چوہان : hafiz.safwan@gmail.com
2. ڈاکٹر ظہیر احمد : zaheer.ahmad@surrey.co.uk
3. سید محمد ذوالکفل بخاری : syed.zulkifl@gmail.com
Dr Hafiz Safwan Muhammad Chohan,
Sr Lecturer/ Manager Data Network, Head of Computer & Data Services Department,
Telecommunication Staff College, Haripur, Pakistan.
Dr Zaheer Ahmad, Research Fellow, Centre for Communications and Research (CCSR) ILab, University of Surrey, UK.
Syed Zulkifl Bukhari, Lecturer Deptt of English, Ummul Qura University, Makkah, KSA.
This article emphasizes the need of Urdu corpus on the example of The Bank of English and the Corpus of Contemporary American English (COCA) which are serving as the backbone of English language engineering, discourse analysis, corpus & lexicon development and works of the same fiber. This proposed Urdu corpus, namely The Bank of Urdu (TBU), will be a repository of Urdu texts of both written and spoken language gathered in platform-independent & machine-readable Indo-Perso-Arabic script. Since the mentioned English corpora have exactly the same architecture and interface so while comparing the TBU with the structure of English corpora, the name "English Corpus" will refer to both these repositories in this document.
Add to devising its scope, technical and design issues of the architecture & interface of TBU are discussed in this introductory paper. Issues like those of code-mixing, false friends and homonyms in Urdu are addressed. Together, solution is given to standardize the Urdu orthograph for this work. Exemplary web view of the user interface is provided. Available Urdu written texts are mostly literature-oriented, so from the data gathering standpoint the proposed TBU must deviate from standard roadways of the English corpora at many instances. This fact is specially dealt with. A study of word-count and of lexicalizing high-frequency Urdu words in Urdu dictionaries of note is made part of this thesis. Aimed at discourse analysis, language engineering and natural language processing in Urdu, and of course, providing vital base for contemporary Urdu lexicon development, this proposed portal will not only separate Urdu language from Urdu literature but will also cast regional Pakistani languages in stationing their scholarly resources in their own scripts for such researches.
This paper on TBU is a proposal of Dr Hafiz Safwan Muhammad Chohan for giving initial shape to the idea of Urdu Data Bank (UDB) of the Center of Excellence for Urdu Informatics (CEUI), National Language Authority (NLA) Islamabad. Due to homonymy of UDB with the Urdu Data Base, UDB was renamed as TBU at the CEUI in a consensus with the scholars of Urdu, IT professionals and representatives of the GoP from Cabinet Division & Planning Division. In this national workshop viz. "Urdu Informatics- Today & Tomorrow" held on 7-8 June 2008 in the NLA, Dr Chohan also coined the Urdu equivalent of TBU as اردو مثال گھر which was accepted by the participants.
Acknowledgement & Dedication: Dr Hafiz Safwan Muhammad Chohan has been in contact with Prof John McHardy Sinclair (June 14, 1933 - March 13, 2007), Emeritus Professor of Modern English Language at Birmingham University, 1965-2000. He pioneered work in corpus linguistics, discourse analysis, lexicography, and language teaching, and was the man behind the machine gun of British National Corpus (BNC) and the Collins COBUILD dictionaries. There is no trend of dedicating research papers to any person but with high regret that this paper (both in Urdu & in English) was not written when he was alive, this effort is being dedicated to him.
کلیدی الفاظ: مشین ریڈایبل اردو، اردو لسانیات، لسانی انجینئرنگ، پلیٹ فارم سے ناوابستگی، زبان، استعمالی زبان (Functional Language)، عام بول چال (Informal Spoken Language)، الفاظ شماری، تعددِ استعمال، لغتیاتی تجزیہ، انگریزی کارپس، اردو کارپس۔
مخففات:
اردو ڈیٹا بیس/ اردو ڈیٹا بینک :UDB: Urdu Data Base/ Urdu Data Bank
اردو مثال گھر : TBU: The Bank of Urdu
امریکن انگریزی کارپس : COCA: Corpus of Contemporary American English
برٹش نیشنل کارپس : BNC: British National Corpus
بصری حروف شناسی : OCR: Optical Character Recognition
پرانی انگریزی کے نظائر : LEME: Lexicons of Early Modern English
ٹسکن ورڈ سنٹر : TWC: The Tuscan Word Centre
رک: رجوع کیجیے۔
کوبِلڈ : COBUILD: Collins Birmingham University International Language Database
کولن فوقانی لغت : CCED: Collins COBUILD Advanced Learner's English Dictionary
مرکزِ تحقیقاتِ اردو : CRULP: Centre of Research in Urdu Language Processing
مرکزِ فضیلت برائے اردو اِطلاعیات : CEUI: Centre of Excellence for Urdu Informatics
مقتدرہٴ قومی زبان پاکستان : NLA: National Language Authority, Islamabad, Pakistan
اِصطلاحات:
اردو کارپس: اردو مثال گھر : The Bank of Urdu
الفاظ شماری : Word Count
امریکن انگریزی کارپس : Corpus of Contemporary American English
اِطلاعیاتی ٹیکنالوجی : Information Technology
اِطلاعیات : Informatics
بالائے لغت معنی : Ultra-dictionary meaning
پرانی انگریزی کے نظائر : Lexicons of Early Modern English
پلیٹ فارم سے ناوابستہ : Platform-Independent
تعددِ استعمال : Word Frequency
دخیل ہم صورت لفظ : False Friend
ذخیرہٴ الفاظ/ متراکمہ : Wordbank/Wordlist
روزمرہ زبان/ بول چال : Contemporary [use of] Language
فطری زبان : Natural Language
کارپس/ مثال گھر/ قاموس الامثال : Corpus
کولن فوقانی لغت : Collins COBUILD Advanced Learner's English Dictionary
کولن ورڈ ویب : Collin Word Web
لغتیاتی تجزیہ : Lexical Analysis
لغوی اندراج : Headword
مال خانہ : Repository
معاصر زبان کے نظائر : Examples of Contemporary use of Language
مواجہ : (Internet) Site
[مواد کی] جمع آوری : Data Gathering
# تجارتی نشانات: اِس مقالے میں Collins، COBUILD، Collin Word Web اور The Bank of English کے الفاظ باربار استعمال کیے گئے ہیں؛ یہ الفاظ تجارتی نشانات (ٹریڈ مارک) ہیں۔ کولن فوقانی لغت ایک برطانوی اشاعتی ادارہ Harper Collins Publishers Ltd شائع کررہا ہے۔
0: تعارف
دنیا بھر میں زبانوں پر تحقیق کا کام اِس وقت زوروں پر ہے۔ زبان پر تحقیق سے مراد زبان کی ساخت پرداخت کا مطالَعہ بھی ہے اور بین اللسانی تعلقات کا مطالَعہ بھی۔ کمپیوٹر کی آمد کے ساتھ ہی زبانوں پر تحقیق کے علم میں نئی اور وسیع تر جہتیں سامنے آنا شروع ہوئیں اور خالص سائنسی انداز میں زبانوں کی ساخت اور اثرات کا جائزہ لیا جانا شروع ہوا۔ اِس مطالعے اور تحقیق کے لیے زبان کے معاصر نظائر کی بنیادی اہمیت ہے۔ چنانچہ مشین ریڈایبل حالت میں دنیا کی کئی زبانوں کے متون اِس مقصد کے لیے کارپس کی صورت میں جمع کیے گئے اور کمپیوٹر/ اِنٹرنیٹ پر محققینِ زبان و لسانیات کے لیے مہیا کیے گئے ہیں۔[1] یہ متون وقت گزرنے کے ساتھ کمیت میں بڑھ رہے اور کیفیت میں بہتر ہورہے ہیں۔ لسانی انجینئرنگ (Language Engineering) اور لسانیات (Linguistics) کے سبھی شعبوں میں تحقیق کے لیے ایسے متون کی بنیادی ضرورت ہے۔
"دی بینک آف انگلش" کے نام سے انگریزی زبان کا ایک بڑا مال خانہ (Repository) جس کے روح و رواں آنجہانی پروفیسر جان میک ہارڈی سنکلیئر (John McHardy Sinclair) تھے، اِس وقت برمنگھم یونیورسٹی برطانیہ میں قائم ہے اور دنیا بھر میں جاری لسانیاتی تحقیقات کے لیے موزوں لسانی متون محققین اور تحقیقی اداروں کو فراہم کررہا ہے۔ اِسی طرح کا ایک بڑا مواجہ "امریکن انگریزی کارپس" (COCA: Corpus of Contemporary American English) ہے۔ زیرِ نظر مقالے میں اِنھی کارپسوں کے ڈھب پر اردو کارپس بنانے کی ضرورت اور لائحہٴ عمل کے بارے میں بتایا گیا ہے اور اِس اردو کارپس کو "دی بینک آف اردو" کا نام دیا گیا ہے۔
ڈاکٹر حافظ صفوان محمد چوہان کی جانب سے مرکزِ فضیلت برائے اردو اِطلاعیات، مقتدرہٴ قومی زبان اسلام آباد میں ”دی بینک آف اردو“ کے موضوع پر کام شروع کرنے کی تجویز دی گئی ہے۔ ڈاکٹر عطش درانی کی سربراہی میں یہاں پر ”اردو ڈیٹا بینک“ کے نام سے ایک شعبہ پہلے سے قائم ہے، لیکن یہیں پر کام کررہے ایک دوسرے شعبے "اردو ڈیٹابیس" کے مخفف کے ہم آواز اور ہم صورت ہونے (Homonymous) کی وجہ سے اِلتباس (اِن دونوں شعبوں کا انگریزی مخفف UDB ہے) اور "دی بینک آف انگلش" کے نام سے بہت دور ہونے کی وجہ سے اِس کا نام بدلنے کی تجویز دی گئی، جسے "اردو اِطلاعیات: آج اور کل" کے عنوان سے 7-8 جون 2008ء کو ہونے والی ایک قومی ورکشاپ میں ماہرینِ اردو و اِطلاعیات اور حکومتِ پاکستان کے نمائندہ حکامِ بالا نے قبول کیا؛ ڈاکٹر حافظ صفوان ہی کی تجویز پر اردو کارپس کے لیے "دی بینک آف اردو" اور اِس کی متبادل اردو اِصطلاح "اردو مثال گھر" بھی قبول کی گئی۔
متذکَّرہٴ بالا انگریزی کارپس اپنی ساخت اور استعمال (architecture and interface) میں چونکہ بالکل یکساں ہیں اِس لیے اِس مقالے میں جہاں "دی بینک آف اردو" سے تقابل کے لیے انگریزی کارپس کی بات کی جائے گی وہاں سہولت کے لیے "انگریزی کارپس" کا ایک ہی نام اِن دونوں مواجہات (Sites) کے لیے استعمال کیا جائے گا۔ اِسی طرح اِصطلاحات: دی بینک آف اردو/ اردو مثال گھر/ اردو کارپس بھی باہم مترادف ہیں۔
یہ سفارش بھی کی جاتی ہے کہ لفظِ کارپس کے لیے کوئی متبادل اردو اِصطلاح نہ بنائی جائے کیوں کہ دنیا بھر میں یہ لفظ اپنے مخصوص معنی میں استعمال میں ہے۔ "کارپس" کا لفظ بھی اُسی طرح اُردوالیا جائے جیسے مثلًا کمپیوٹر، اِنٹرنیٹ اور ٹیلی فون وغیرہ الفاظ زبانِ اردو کے جسم کا حصہ بن چکے ہیں۔
مجوزہ اردو کارپس بوجوہ انگریزی کارپس سے مختلف ذرائع سے بھی مواد لے گا۔ اِن وجوہ اور اِن ذرائع کے بارے میں تفصیلات بھی اِس ابتدائی/ تعارفی مقالے میں پیش کی گئی ہیں۔
1: کارپس: مختصر تعارف
کارپس کیا ہوتے ہیں؟ مختصر جواب یہ ہے کہ یہ مشین ریڈایبل متن ہوتے ہیں جنھیں لسانیاتی تحقیقات کے لیے اِکٹھا اور جمع کیا گیا ہو۔ ملاحَظہ کیجیے اوکسفرڈ کی تعریف:
A corpus is a collection of written material in machine-readable form that has been put together for linguistic research.[2]
دی بینک آف انگلش، کولن ورڈ ویب کا حصہ ہے جو تقریبًا 645 ملین بولے اور لکھے جانے والے الفاظ کا مجموعہ ہے جسے کمپیوٹر میں زبان کے لغتیاتی تجزیے اور تحقیقی استعمال کے لیے اِکٹھا کیا گیا ہے۔ یہ مواد 1990ء سے اب تک کے استعمال ہونے والے، ذخیرہ کردہ متون سے لیا گیا ہے۔ یہ مواد ہمہ وقت اَپ ڈیٹ رکھا جاتا ہے۔ اس مال خانے میں موجود متون کا تقریبًا 40٪ حصہ برطانوی انگریزی پر مشتمل ہے جب کہ امریکن انگریزی کے متون 30٪ ہیں؛ بقیہ 30٪ متون آسٹریلیائی، نیوزی لینڈی اور کنیڈیائی انگریزی کے ہیں۔[3]
امریکن انگریزی کارپس (COCA) میں 385 ملین سے زیادہ الفاظ ذخیرہ ہیں اور یہ امریکی انگریزی اور علاقائی لہجوں کے انگریزی متون کو ہمدست کیے ہوئے ہے۔ ہر سال اِس مقدار میں کم سے کم دو مرتبہ الفاظ کا اضافہ کیا جاتا ہے جو 20 ملین الفاظ پر مشتمل ہوتا ہے۔ اِس مال خانے میں 1990ء سے دورِ حاضر تک کے متون موجود ہیں۔[4]
انگریزی کارپس میں صرف مشین ریڈایبل انگریزی متون ہیں جو پلیٹ فارم سے ناوابستہ (Platform Independent) حالت میں ہیں اور کسی بھی کمپیوٹر پروگرام کے لیے استعمال ہونے کی صلاحیت رکھتے ہیں۔
انگریزی کارپس میں صرف آج کی بولی اور لکھی جانے والی یعنی معاصر، استعمالی انگریزی زبان کے نظائر جمع ہیں؛ زبان کے کلاسیکل استعمال اور یابسات سے اِسے واسطہ نہیں۔ کلاسیکی انگریزی اور مختلف شعبہ ہائے زندگی کی مخصوص زبانوں کے لیے علیحدہ مواجہات مہیا ہیں۔
1.1: انگریزی کارپس کے مآخذ
"دی بینک آف انگلش" میں رکھا مواد اخبارات، میگزین، فکشن اور نان فکشن کتب، ویب سائٹوں، بروشروں، پمفلٹ، رپورٹوں اور خطوط وغیرہ سے لیا گیا ہے۔[5] مختلف موضوعات کی ہزاروں کتب کے علاوہ اِس مواد کا قریب قریب آدھا حصہ میڈیا کی زبان پر مشتمل ہے، یعنی اخبارات اور میگزینوں کے ساتھ ساتھ ریڈیو اور ٹی وی کی زبان۔[6] اِس مواد میں تقریبًا 40 ملین الفاظ ایسے ہیں جو عام بول چال پر مشتمل ہیں۔ یہ متن غیر رسمی ملاقاتوں، انٹرویوز، مباحثوں اور ریڈیو و ٹی وی پروگراموں کو ریکارڈ کرکے لکھا گیا ہے۔[7] یہ حصہ انگریزی زبان کے زندہ استعمال اور الفاظ و مرکبات کے مصادیق میں در آنے والے تازہ ترین رجحانات سے باخبر رکھتا ہے۔
1.2: انگریزی کارپس میں کہاں سے متن نہیں لیا جارہا؟
انگریزی کارپس میں ادَبی زبان کو شامل نہیں کیا گیا، یعنی ناول اور شاعری کو بینک کا حصہ نہیں بنایا گیا۔ اِسی طرح یہ کارپس سائنسی مقالات اور مختلف شعبوں کی مخصوص زبان (Jargon; slang) کو بھی محفوظ نہیں کرتے۔ وجہ یہ ہے کہ اِن سب جہات کی زبان عام زبان نہیں ہوتی بلکہ اہلِ علم یا مخصوص لوگوں/ شعبوں کی زبان ہوتی ہے۔ یہ کارپس اِن پگڈنڈیوں کی نہیں بلکہ شاہراہ کی زبان پر وقت اور صلاحیتیں خرچ کرنے اور کرانے سے متعلق ہیں۔
hafiz.safwan@gmail.com
سید ذوالکفل بخاری
syed.zulkifl@gmail.com
ڈاکٹر ظہیر احمد
zaheer.ahmad@surrey.co.uk
مزید معلومات، مقالے کی سافٹ کاپی اور مقالہ نگاران سے رابطے کے لیے:
1. ڈاکٹر حافظ صفوان محمد چوہان : hafiz.safwan@gmail.com
2. ڈاکٹر ظہیر احمد : zaheer.ahmad@surrey.co.uk
3. سید محمد ذوالکفل بخاری : syed.zulkifl@gmail.com
اردو کارپس: تکنیکی تعارف، اہمیت، ضرورت اور دائرہ و لائحہٴ عمل
Urdu Corpus: Technical Introduction, Design & ScopeDr Hafiz Safwan Muhammad Chohan,
Sr Lecturer/ Manager Data Network, Head of Computer & Data Services Department,
Telecommunication Staff College, Haripur, Pakistan.
Dr Zaheer Ahmad, Research Fellow, Centre for Communications and Research (CCSR) ILab, University of Surrey, UK.
Syed Zulkifl Bukhari, Lecturer Deptt of English, Ummul Qura University, Makkah, KSA.
This article emphasizes the need of Urdu corpus on the example of The Bank of English and the Corpus of Contemporary American English (COCA) which are serving as the backbone of English language engineering, discourse analysis, corpus & lexicon development and works of the same fiber. This proposed Urdu corpus, namely The Bank of Urdu (TBU), will be a repository of Urdu texts of both written and spoken language gathered in platform-independent & machine-readable Indo-Perso-Arabic script. Since the mentioned English corpora have exactly the same architecture and interface so while comparing the TBU with the structure of English corpora, the name "English Corpus" will refer to both these repositories in this document.
Add to devising its scope, technical and design issues of the architecture & interface of TBU are discussed in this introductory paper. Issues like those of code-mixing, false friends and homonyms in Urdu are addressed. Together, solution is given to standardize the Urdu orthograph for this work. Exemplary web view of the user interface is provided. Available Urdu written texts are mostly literature-oriented, so from the data gathering standpoint the proposed TBU must deviate from standard roadways of the English corpora at many instances. This fact is specially dealt with. A study of word-count and of lexicalizing high-frequency Urdu words in Urdu dictionaries of note is made part of this thesis. Aimed at discourse analysis, language engineering and natural language processing in Urdu, and of course, providing vital base for contemporary Urdu lexicon development, this proposed portal will not only separate Urdu language from Urdu literature but will also cast regional Pakistani languages in stationing their scholarly resources in their own scripts for such researches.
This paper on TBU is a proposal of Dr Hafiz Safwan Muhammad Chohan for giving initial shape to the idea of Urdu Data Bank (UDB) of the Center of Excellence for Urdu Informatics (CEUI), National Language Authority (NLA) Islamabad. Due to homonymy of UDB with the Urdu Data Base, UDB was renamed as TBU at the CEUI in a consensus with the scholars of Urdu, IT professionals and representatives of the GoP from Cabinet Division & Planning Division. In this national workshop viz. "Urdu Informatics- Today & Tomorrow" held on 7-8 June 2008 in the NLA, Dr Chohan also coined the Urdu equivalent of TBU as اردو مثال گھر which was accepted by the participants.
Acknowledgement & Dedication: Dr Hafiz Safwan Muhammad Chohan has been in contact with Prof John McHardy Sinclair (June 14, 1933 - March 13, 2007), Emeritus Professor of Modern English Language at Birmingham University, 1965-2000. He pioneered work in corpus linguistics, discourse analysis, lexicography, and language teaching, and was the man behind the machine gun of British National Corpus (BNC) and the Collins COBUILD dictionaries. There is no trend of dedicating research papers to any person but with high regret that this paper (both in Urdu & in English) was not written when he was alive, this effort is being dedicated to him.
کلیدی الفاظ: مشین ریڈایبل اردو، اردو لسانیات، لسانی انجینئرنگ، پلیٹ فارم سے ناوابستگی، زبان، استعمالی زبان (Functional Language)، عام بول چال (Informal Spoken Language)، الفاظ شماری، تعددِ استعمال، لغتیاتی تجزیہ، انگریزی کارپس، اردو کارپس۔
مخففات:
اردو ڈیٹا بیس/ اردو ڈیٹا بینک :UDB: Urdu Data Base/ Urdu Data Bank
اردو مثال گھر : TBU: The Bank of Urdu
امریکن انگریزی کارپس : COCA: Corpus of Contemporary American English
برٹش نیشنل کارپس : BNC: British National Corpus
بصری حروف شناسی : OCR: Optical Character Recognition
پرانی انگریزی کے نظائر : LEME: Lexicons of Early Modern English
ٹسکن ورڈ سنٹر : TWC: The Tuscan Word Centre
رک: رجوع کیجیے۔
کوبِلڈ : COBUILD: Collins Birmingham University International Language Database
کولن فوقانی لغت : CCED: Collins COBUILD Advanced Learner's English Dictionary
مرکزِ تحقیقاتِ اردو : CRULP: Centre of Research in Urdu Language Processing
مرکزِ فضیلت برائے اردو اِطلاعیات : CEUI: Centre of Excellence for Urdu Informatics
مقتدرہٴ قومی زبان پاکستان : NLA: National Language Authority, Islamabad, Pakistan
اِصطلاحات:
اردو کارپس: اردو مثال گھر : The Bank of Urdu
الفاظ شماری : Word Count
امریکن انگریزی کارپس : Corpus of Contemporary American English
اِطلاعیاتی ٹیکنالوجی : Information Technology
اِطلاعیات : Informatics
بالائے لغت معنی : Ultra-dictionary meaning
پرانی انگریزی کے نظائر : Lexicons of Early Modern English
پلیٹ فارم سے ناوابستہ : Platform-Independent
تعددِ استعمال : Word Frequency
دخیل ہم صورت لفظ : False Friend
ذخیرہٴ الفاظ/ متراکمہ : Wordbank/Wordlist
روزمرہ زبان/ بول چال : Contemporary [use of] Language
فطری زبان : Natural Language
کارپس/ مثال گھر/ قاموس الامثال : Corpus
کولن فوقانی لغت : Collins COBUILD Advanced Learner's English Dictionary
کولن ورڈ ویب : Collin Word Web
لغتیاتی تجزیہ : Lexical Analysis
لغوی اندراج : Headword
مال خانہ : Repository
معاصر زبان کے نظائر : Examples of Contemporary use of Language
مواجہ : (Internet) Site
[مواد کی] جمع آوری : Data Gathering
# تجارتی نشانات: اِس مقالے میں Collins، COBUILD، Collin Word Web اور The Bank of English کے الفاظ باربار استعمال کیے گئے ہیں؛ یہ الفاظ تجارتی نشانات (ٹریڈ مارک) ہیں۔ کولن فوقانی لغت ایک برطانوی اشاعتی ادارہ Harper Collins Publishers Ltd شائع کررہا ہے۔
0: تعارف
دنیا بھر میں زبانوں پر تحقیق کا کام اِس وقت زوروں پر ہے۔ زبان پر تحقیق سے مراد زبان کی ساخت پرداخت کا مطالَعہ بھی ہے اور بین اللسانی تعلقات کا مطالَعہ بھی۔ کمپیوٹر کی آمد کے ساتھ ہی زبانوں پر تحقیق کے علم میں نئی اور وسیع تر جہتیں سامنے آنا شروع ہوئیں اور خالص سائنسی انداز میں زبانوں کی ساخت اور اثرات کا جائزہ لیا جانا شروع ہوا۔ اِس مطالعے اور تحقیق کے لیے زبان کے معاصر نظائر کی بنیادی اہمیت ہے۔ چنانچہ مشین ریڈایبل حالت میں دنیا کی کئی زبانوں کے متون اِس مقصد کے لیے کارپس کی صورت میں جمع کیے گئے اور کمپیوٹر/ اِنٹرنیٹ پر محققینِ زبان و لسانیات کے لیے مہیا کیے گئے ہیں۔[1] یہ متون وقت گزرنے کے ساتھ کمیت میں بڑھ رہے اور کیفیت میں بہتر ہورہے ہیں۔ لسانی انجینئرنگ (Language Engineering) اور لسانیات (Linguistics) کے سبھی شعبوں میں تحقیق کے لیے ایسے متون کی بنیادی ضرورت ہے۔
"دی بینک آف انگلش" کے نام سے انگریزی زبان کا ایک بڑا مال خانہ (Repository) جس کے روح و رواں آنجہانی پروفیسر جان میک ہارڈی سنکلیئر (John McHardy Sinclair) تھے، اِس وقت برمنگھم یونیورسٹی برطانیہ میں قائم ہے اور دنیا بھر میں جاری لسانیاتی تحقیقات کے لیے موزوں لسانی متون محققین اور تحقیقی اداروں کو فراہم کررہا ہے۔ اِسی طرح کا ایک بڑا مواجہ "امریکن انگریزی کارپس" (COCA: Corpus of Contemporary American English) ہے۔ زیرِ نظر مقالے میں اِنھی کارپسوں کے ڈھب پر اردو کارپس بنانے کی ضرورت اور لائحہٴ عمل کے بارے میں بتایا گیا ہے اور اِس اردو کارپس کو "دی بینک آف اردو" کا نام دیا گیا ہے۔
ڈاکٹر حافظ صفوان محمد چوہان کی جانب سے مرکزِ فضیلت برائے اردو اِطلاعیات، مقتدرہٴ قومی زبان اسلام آباد میں ”دی بینک آف اردو“ کے موضوع پر کام شروع کرنے کی تجویز دی گئی ہے۔ ڈاکٹر عطش درانی کی سربراہی میں یہاں پر ”اردو ڈیٹا بینک“ کے نام سے ایک شعبہ پہلے سے قائم ہے، لیکن یہیں پر کام کررہے ایک دوسرے شعبے "اردو ڈیٹابیس" کے مخفف کے ہم آواز اور ہم صورت ہونے (Homonymous) کی وجہ سے اِلتباس (اِن دونوں شعبوں کا انگریزی مخفف UDB ہے) اور "دی بینک آف انگلش" کے نام سے بہت دور ہونے کی وجہ سے اِس کا نام بدلنے کی تجویز دی گئی، جسے "اردو اِطلاعیات: آج اور کل" کے عنوان سے 7-8 جون 2008ء کو ہونے والی ایک قومی ورکشاپ میں ماہرینِ اردو و اِطلاعیات اور حکومتِ پاکستان کے نمائندہ حکامِ بالا نے قبول کیا؛ ڈاکٹر حافظ صفوان ہی کی تجویز پر اردو کارپس کے لیے "دی بینک آف اردو" اور اِس کی متبادل اردو اِصطلاح "اردو مثال گھر" بھی قبول کی گئی۔
متذکَّرہٴ بالا انگریزی کارپس اپنی ساخت اور استعمال (architecture and interface) میں چونکہ بالکل یکساں ہیں اِس لیے اِس مقالے میں جہاں "دی بینک آف اردو" سے تقابل کے لیے انگریزی کارپس کی بات کی جائے گی وہاں سہولت کے لیے "انگریزی کارپس" کا ایک ہی نام اِن دونوں مواجہات (Sites) کے لیے استعمال کیا جائے گا۔ اِسی طرح اِصطلاحات: دی بینک آف اردو/ اردو مثال گھر/ اردو کارپس بھی باہم مترادف ہیں۔
یہ سفارش بھی کی جاتی ہے کہ لفظِ کارپس کے لیے کوئی متبادل اردو اِصطلاح نہ بنائی جائے کیوں کہ دنیا بھر میں یہ لفظ اپنے مخصوص معنی میں استعمال میں ہے۔ "کارپس" کا لفظ بھی اُسی طرح اُردوالیا جائے جیسے مثلًا کمپیوٹر، اِنٹرنیٹ اور ٹیلی فون وغیرہ الفاظ زبانِ اردو کے جسم کا حصہ بن چکے ہیں۔
مجوزہ اردو کارپس بوجوہ انگریزی کارپس سے مختلف ذرائع سے بھی مواد لے گا۔ اِن وجوہ اور اِن ذرائع کے بارے میں تفصیلات بھی اِس ابتدائی/ تعارفی مقالے میں پیش کی گئی ہیں۔
1: کارپس: مختصر تعارف
کارپس کیا ہوتے ہیں؟ مختصر جواب یہ ہے کہ یہ مشین ریڈایبل متن ہوتے ہیں جنھیں لسانیاتی تحقیقات کے لیے اِکٹھا اور جمع کیا گیا ہو۔ ملاحَظہ کیجیے اوکسفرڈ کی تعریف:
A corpus is a collection of written material in machine-readable form that has been put together for linguistic research.[2]
دی بینک آف انگلش، کولن ورڈ ویب کا حصہ ہے جو تقریبًا 645 ملین بولے اور لکھے جانے والے الفاظ کا مجموعہ ہے جسے کمپیوٹر میں زبان کے لغتیاتی تجزیے اور تحقیقی استعمال کے لیے اِکٹھا کیا گیا ہے۔ یہ مواد 1990ء سے اب تک کے استعمال ہونے والے، ذخیرہ کردہ متون سے لیا گیا ہے۔ یہ مواد ہمہ وقت اَپ ڈیٹ رکھا جاتا ہے۔ اس مال خانے میں موجود متون کا تقریبًا 40٪ حصہ برطانوی انگریزی پر مشتمل ہے جب کہ امریکن انگریزی کے متون 30٪ ہیں؛ بقیہ 30٪ متون آسٹریلیائی، نیوزی لینڈی اور کنیڈیائی انگریزی کے ہیں۔[3]
امریکن انگریزی کارپس (COCA) میں 385 ملین سے زیادہ الفاظ ذخیرہ ہیں اور یہ امریکی انگریزی اور علاقائی لہجوں کے انگریزی متون کو ہمدست کیے ہوئے ہے۔ ہر سال اِس مقدار میں کم سے کم دو مرتبہ الفاظ کا اضافہ کیا جاتا ہے جو 20 ملین الفاظ پر مشتمل ہوتا ہے۔ اِس مال خانے میں 1990ء سے دورِ حاضر تک کے متون موجود ہیں۔[4]
انگریزی کارپس میں صرف مشین ریڈایبل انگریزی متون ہیں جو پلیٹ فارم سے ناوابستہ (Platform Independent) حالت میں ہیں اور کسی بھی کمپیوٹر پروگرام کے لیے استعمال ہونے کی صلاحیت رکھتے ہیں۔
انگریزی کارپس میں صرف آج کی بولی اور لکھی جانے والی یعنی معاصر، استعمالی انگریزی زبان کے نظائر جمع ہیں؛ زبان کے کلاسیکل استعمال اور یابسات سے اِسے واسطہ نہیں۔ کلاسیکی انگریزی اور مختلف شعبہ ہائے زندگی کی مخصوص زبانوں کے لیے علیحدہ مواجہات مہیا ہیں۔
1.1: انگریزی کارپس کے مآخذ
"دی بینک آف انگلش" میں رکھا مواد اخبارات، میگزین، فکشن اور نان فکشن کتب، ویب سائٹوں، بروشروں، پمفلٹ، رپورٹوں اور خطوط وغیرہ سے لیا گیا ہے۔[5] مختلف موضوعات کی ہزاروں کتب کے علاوہ اِس مواد کا قریب قریب آدھا حصہ میڈیا کی زبان پر مشتمل ہے، یعنی اخبارات اور میگزینوں کے ساتھ ساتھ ریڈیو اور ٹی وی کی زبان۔[6] اِس مواد میں تقریبًا 40 ملین الفاظ ایسے ہیں جو عام بول چال پر مشتمل ہیں۔ یہ متن غیر رسمی ملاقاتوں، انٹرویوز، مباحثوں اور ریڈیو و ٹی وی پروگراموں کو ریکارڈ کرکے لکھا گیا ہے۔[7] یہ حصہ انگریزی زبان کے زندہ استعمال اور الفاظ و مرکبات کے مصادیق میں در آنے والے تازہ ترین رجحانات سے باخبر رکھتا ہے۔
1.2: انگریزی کارپس میں کہاں سے متن نہیں لیا جارہا؟
انگریزی کارپس میں ادَبی زبان کو شامل نہیں کیا گیا، یعنی ناول اور شاعری کو بینک کا حصہ نہیں بنایا گیا۔ اِسی طرح یہ کارپس سائنسی مقالات اور مختلف شعبوں کی مخصوص زبان (Jargon; slang) کو بھی محفوظ نہیں کرتے۔ وجہ یہ ہے کہ اِن سب جہات کی زبان عام زبان نہیں ہوتی بلکہ اہلِ علم یا مخصوص لوگوں/ شعبوں کی زبان ہوتی ہے۔ یہ کارپس اِن پگڈنڈیوں کی نہیں بلکہ شاہراہ کی زبان پر وقت اور صلاحیتیں خرچ کرنے اور کرانے سے متعلق ہیں۔