top of page
aramhayr

Կորպուսային Լեզվաբանություն

Updated: Aug 27





Ի՞նչ է կորպուսը

Տեքստային կորպուսը գրավոր կամ բանավոր, նախապես թվայնացված խոսքի շտեմարան է, որն օգտագործվում է լեզվի (եւ խոսքի) ուսումնասիրության` կորպուսային լեզվաբանության, եւ լեզվի ուսուցման համար: Այն ոչ թե սոսկ շտեմարան կամ տեքստադարան է (հմմտ. մատենա-դարան, գրադարան), այլ քե­րա­կա­նո­րեն վերլուծված նախադասությունների ծառադարան: Խոսքի այսպիսի կառուցվածքային ներ­կայացումը հարմար է լեզվական օրինաչափություննե-րի, բառերի հա­ճա­խա­կա­նու­թյուն­նե­րի, եւ լեզվական այլ երեւույթների ուսումնասիրության եւ ուսուցողական նպատակներով ար­տա­պատկերման համար:

Կորպուսը լեզվաբանի եւ բանասերի աշխատանոց (լաբորատորիա) է [Բնական խոսքի ընդհանրական ներկայացման մի տարբերակի մասին, էջ` 222-223] եւ ուսանման գործիք:


Կորպուսների տեսակները

Ըստ լեզուների կորպուսները լինում են միալեզու կամ բազմալեզու` հիմնականում երկլեզու-հավասարված: Վերջինները գործածվում են համեմատական լեզվաբանական ու­սում­նա­սի­րու­թյունների հա­մար եւ մեքենական թարգմանիչների ուսուցման համար: Ըստ բո­վան­դա­կու­թյան նրանք կա­րող են ընդհանրական կամ մասնագիտացված` գրական, գիտական, տեխ­նի­կա­կան, ի­րա­վա­բա­նական, ևն: Կորպուսները կարող են պարունակել հատուկ դարաշրջանի կամ բարբառի տեքս­տեր, կենցաղային, տարբեր շրջաններին կամ խավերին հատուկ կամ տարբեր ժանրերի խոսք:

Կորպուսները մշակույթի պահպանման, հետազոտական եւ ուսուցողական արժեքից բացի ու­նեն նաեւ կիրառական արժեք: Միալեզուները հիմք են համդիսանում արհեստական բա­նա­կա­նության համակարգերի ուսուցման ոլորտում: Մասնավորապես, ընդհանրական կամ մաս­նա­գիտացված զրուցակից-ռոբոտներ (chatbot) կամ անձնական օգնականներ, փորձագետ հա­մակարգեր, ևն:

Երկլեզու կորպուսների կիրառման ոլորտը մեքենական թարգմանիչների ուսուցումն է:

Տես նաեւ

Հայերեն կորպուսների իրացումները

  1. Eastern Armenian National Corpus - Արևելահայերենի ազգային կորպուսը (ԱՐԵՎԱԿ) բազմաթիվ արևելահայերեն տեքստեր պարունակող լեզվաբանական որոնման համակարգ է:

  2. Հայ մատենագրութեան թուանշանային գրադարան-ը (Digilib) հայ գրաւոր մշակոյթի յուշարձանների թուանշային շտեմարան է

Կորպուսների կառուցման քայլերը

Եթե կորպուսում ընդգրկվող խոսքը դեռ թվայնացված չէ, ապա խոսքի գրավոր կամ ձայնային պատկերները ձեւափոխվում են թվանշային տեքստի: Կորպուսների կառուցման գործըն­թաց­նե­րում ընդգրկված տեխնոլոգիաները եւ նրանց կիրառման հաջորդականությունը բերված է Թվանշային հումանիտար գիտություններ կայքէջի Հումանիտար թվանշային տեխնոլոգիաներ հատվածում:

Հայոց լեզվի համար իրացված են`

  1. a1 -> a2 -> b2 -> c2 -> d2  երթուղին - Corpus Data Pipeline 

  2. d2 -> e1  երթուղին - Text Processor.

  3. մնացած երթուղիները իրացման մասին տես` Հումանիտար տեխնոլոգիաների կայքէջեր

Տեքստերի աղբյուր կարող են հանդիսանալ տպագիր կամ ձեռագիր խոսքը (մա­տե­նա­դա­րան­ներում, գրադարաններում, արխիվներում, թանգարաններում, դատարաններում, ևն), հատուկ կատարված կամ հրապարակավ մատչելի հարցազրույցները, ռադիո-հեռուստատեսային հա­ղոր­դումները, եւ ­­ի ծնե թվանշային` համցանցի կայքէջեր, էլեկտրոնային գրքեր, ևն, խոսքը:

Հաջորդ քայլը տվյալների զտումն է: Այս քալում ուղղվում են հիմնականում թվայ­նաց­ման ժա­մա­նակ ներմուծված վրիպակները: [Դիտարկում. Առանձին դեպքերում լեզվաբանները կարող են նաեւ բնագրերի վրիպակները ուղղել կամ ոճը շտկել, երբ դրանք հե­տա­զոտ­ման նյութը չեն:]

Զտումից հետո ձեւավորվում են տեքստի մակարդակի մետատվյալները, ինչպիսիք են հե­ղի­նա­կը, վերնագիրը, ամսաթիվը, աղբյուրը, ևն, որոնք կարող են օգտագործվել կորպուսի օրի­նա­չափություններն ու միտումները վերլուծելու համար: Աղբյուրագիտական այս մե­տա­տվյալ­նե­րին զու­գահեռ պահվում են տեխնիկական մետատվյալներ` մուտքագրման մեթոդը (օրի-նակ գրե­րի մեքենական ճանաչում, ձայն-տեքստ, ևն), ծրագրային համակարգի տարբերակը, փո­փոխ­ման պա­տա­հույթ­նե­րի պատմությունը, ևն:

Զտված տեքստը մեքենացված պիտակավորման է ենթարկվում, որից հետո լեզվաբանը մաք­րա­գրում է մուտքագրման եւ պիտակավորման արդյունքները: Բառաձեւերի պիտակները հատկանշում են նա­խա­դասության կառուցվածքը` նախադասության ծառը (ՆԾ): Պիտակավորված տեքստն ու­ղարկ­վում է ծառադարան եւ ինդեքսավորվում է:

Կորպուսների ճարտարապետությունը նույնական է Գանձարանների ճարտարապետու-թյանը: Վերջին հաշվով էլեկտրոնաին Գանձարանը բառարանների (բառերի) կորպուս է:

Սպասարկող ծրագրային համակարգը

Ծառադարանը ձեւավորելու համար համակարգի թիկունքում (backend) իրացվում են պի­տա­կա­վորման (Text Processor), ինդեքսավորման, որոնման, վիճակագրային, եւ պահեստավոր-ման հա­մա­կար­գե­րը, իսկ համակարգի ճակատում (frontend) լեզվաբանի աշխատանոցը: Վերջինս գործածողի մի­ջերես (ԳՄ` User Interface) է, որն ապահովում է տեքստի խմբագրում եւ թիկունքային պի­տա­կա­վորման, վի­ճակագրային, եւ տեղեկաքաղ ծառայությունների գործար-կում: Մի այլ` հիմ­նա­կան ԳՄ-ն հե­տա­զոտողներին եւ ուսանողներին հնարավորություն է տալիս օգտվել վի­ճա­կա­գրա­յին եւ տե­ղե­կաքաղ ծառայություններից:

Թիկունքային համակարգի տեղեկաքաղ ծառայությունները հասանելի են կիրառման ծրա­գրա­յին միջերեսի (API) միջոցով:

Կորպուսը «ապրող» համակարգ է` այն մշատապես ենթարկվում է ընդլայնման եւ բա­րե­լավ­ման: Սպասարկող ծրագրային համակարգը պետք է ապահովի գործընթացների կրկնո­ղա­կա­նությունը` նյութի ավելացումը եւ փոփոխումը (խմբագրումը), եւ ճկունությունը` նոր գործ-ընթացների եւ տեխնոլոգիաների ընդգրկումը:

Տեխնոլոգիաների մասին մանրամասները տես`

  1. Բնական խոսքի ընդհանրական ներկայացման մի տարբերակի մասին - հատվածներ` 3.4. Կաղապարում, 9. Եզրերի բառադարան, 10 Տեքստային բառաձեւերի սերում , 11 Բառաձեւերի վերլուծում, 15 Իրացում, 16 Կիրառումներ

  2. Գանձարան

  3. Corpus Data Pipeline 

  4. Text Processor.

-------------------------------------------------------------------------------


Հայագիտական կորպուսներ

Գրականության ցանկ

Yavrumyan, Marat. (2019). Tokenization and Word Segmentation in the UD_ARMENIAN- ArmTDP Treebank (in Armenian). 3. 52-65.

Abstract. Word segmentation and sentence splitting are a necessary initial stage of natural language processing. The subsequent stages of the analysis essentially depend on the decisions made about splitting the text into tokens and the detection of sentence boundaries. In the project of UD_Armenian-ArmTDP treebank a tokenization module was developed based on a small set of basic rules, then more than 36K text forms were tokenized, the results were checked manually, and the data was used as a training set for tokenization and word segmentation in the framework of the task of creating a syntactic parser for Eastern Armenian.


Yavrumyan, Marat & Danielyan, Anna. (2019). Formal Ontology as a Conceptualization Tool in Natural Language Processing Systems (in Armenian). ՊՐԱԿ Ա. 124-138.

Abstract. This article views formal ontology as an enabling framework, modality or tool that may foster the systematization of domain-specific terminology and vocabulary. This approach has led to the design of HyMorph ontology for the expressions and phrases of Modern Eastern Armenian through the use of Protégé editor. Its taxonomic hierarchy enables the annotation of multiword expressions (MWEs, Multiword Expressions) in the UD_Armenian-ArmTDP Treebank project.


Abstract. Creating a digital corpus enriched by full linguistic annotations is a work which classically integrates several manual steps of acquisition, processing, and data display. Processing presupposes the existence of dedicated and specialised analysis tools, adapted to the state of the language used in the corpus. This paper describes a semi-supervised process for building Armenian corpora from scanned documents. This method is based on a chain of applications pre-trained by Calfa and GREgORI and enabling the complete processing of texts, from their automated input to their linguistic analysis and data display. We provide an assessment of this methodology and benefits of model specialisation, based on digitised copies of a 17th-century manuscript of the Four Gospels (Walters MS W541 = BAL W541, Amida Gospels, ff. 113v-117r: Lk 1:1-78).


Victoria Khurshudyan, Timofey Arkhangelskiy, Misha Daniel, Vladimir Plungian, Dmitri Levonian, Alex Polyakov and Sergei Rubakov. Eastern Armenian National Corpus: State of the Art and Perspectives.

Abstract. Eastern Armenian National Corpus (EANC) is a comprehensive corpus of Modern Eastern Armenian with about 110 million tokens, covering written and oral discourses from the mid-19th century to the present. The corpus is provided with morphological, semantic and metatext annotation, as well as English translations. EANC is open access and available at www.eanc.net.


Chahan Vidal-Gorène, Victoria Khurshudyan, Anaïd Donabédian-Demopoulos. Recycling and Comparing Morphological Annotation Models for Armenian Diachronic-Variational Corpus Processing.

Abstract. Armenian is a language with significant variation and unevenly distributed NLP resources for different varieties. An attempt is made to process an RNN model for morphological annotation on the basis of different Armenian data (provided or not with morphologically annotated corpora), and to compare the annotation results of RNN and rule-based models. Different tests were carried out to evaluate the reuse of an unspecialized model of lemmatization and POS-tagging for under-resourced language varieties. The research focused on three dialects and further extended to Western Armenian with a mean accuracy of 94,00 % in lemmatization and 97,02% in POS-tagging, as well as a possible reusability of models to cover different other Armenian varieties.


Կորպուսների կառուցում

Նախաբանը (որը նաեւ հետագա հոդվածների համար տեսական ներածություն է ) նկարա-գրում է Նոր Կտակարանի թարգմանությունների զուգահեռ կորպուսի հիման վրա տիպաբա-նորեն առնչվող քերականական համատեքստերի տվյալների շտեմարան պատրաստելու ընդհանուր նախագիծը: Հոդվածների կազմի եւ բովանդակության համառոտ ակնարկ է:


Տեսային ճանաչման (OCR) համակարգի կիրառումը

կորպուսների կարուցման համար - Corpus Data Pipeline 


Կայքէջեր, տեսանյութեր, գործիքներ

  1. Հիմնական հասկացությունների մասին chatGPT-ի կարծիքը տես` Interviewing chatGPT: Corpus linguistics.

  2. Հայերենը՝ թվային իրականությանը համահունչ - Հայերենի ծառադարան գիտահետազոտական ծրագրի հիմնական հետազոտող Մարատ Յավրումյանը թվային մշակույթը համեմատում է տպագրության գյուտի հետ՝ գուտենբերգյան տպագրության հաստոցը ժամանակին նոր տեխնոլոգիա էր և իր ժամանկի մեջ փոխեց գրավոր մշակույթի մասին պատկերացումները։

  3. Խոսքի նկարագրությունը համընդհանուր կախվածություններով - Ձեռքով ծանոթագրման (պիտակավորման) Համընդհանուր կախվածություններ կոչված դե ֆակտո ստանդարդի համեմատական վերլուծությունը եւ համապատասխան գրականութայն ցանկը

  4. Corpus Linguistics for Beginners - Յասին Յաբդունանեն, Կիրառական Լեզվաբանության եւ ELT մասնագիտություններով մագիստրատուրայի մարոկկացի շրջանավարտը, ում հետաքրքրության ոլորտներն են՝ Կառույցային քերականություն, Իմացական լեզվաբա-նությունը, Usage Based Linguistics (Գործածական Լեզվաբանություն) եւ Կորպուսային լեզվաբանություն, ներկայացնում է կորպուսային լեզվաբանության հիմունքները: Դա-սախոսությունների (ցանկացած տեսանյութի) տեքստի արտահանման, թարգմանու-թյան, եւ ամփոփման գործիքակազմի կիրառման մանրամասները տես Summarizing the Transcript էջում: Տեսահաղորդաշարի յուրաքանչյլուր դասախոսության ամփոփումը տես Կորպուսային լեզվաբանություն. Ներածություն էջում:

  5. An Introduction to Corpus Linguistics - Կորպուսային լեզվաբանության սկզբունքները շրջանառության մեջ են գրեթե մեկ դար։ Բառագրագետները առնվազն 19-րդ դարի վերջից սկսած օգտագործում են խոսքի օրինակներ բառերը ճշգրիտ սահմանելու համար: Նախքան համակարգիչները, լեզվի այս օրինակները հիմնականում հավաք-վում էին թղթի փոքր կտորների վրա եւ համակարգվում հատուկ պահարանների խցիկներում: Համակարգիչների հայտնվելը հանգեցրեց ժամանակակից կորպուսների ստեղծմանը: Համակարգչի վրա հիմնված առաջին՝ Բրաունի կորպուսը, ստեղծվել է 1961 թվականին եւ բաղկացած է մոտ 1 միլիոն բառից: Այսօր ընդհանրացված կորպուսները ունեն հարյուր միլիոնավոր բառեր, եւ կորպուսային լեզվաբանությունը մեծ ներդրում ունի երկրորդ լեզվի հետազոտության եւ ուսուցման ոլորտներում:

  6. MOOC - Corpus linguistics: method, analysis, interpretation -

  7. (Very) Practical Applications of Corpus Linguistics by Daniel Zuchowski

  8. LancsBox (Lancaster University) - Լեզվի` միլիոնավոր եւ միլիարդավոր բառերի, վերլուծության հզոր գործիք .

  9. AntConc - Համաձայնեցման և տեքստի վերլուծության անվճար գործիքակազմ կորպուսներ կառուցելու համար

  10. Corpus Data Pipeline - ծրագրային համակարգ ցանկացած լեզվով PDF եւ JPEG տեքստերի փոխակերպումը կորպուս կառուցելու համար: Ուղղագրության ստուգումը եւ պիտակավորումը կատարվում է հայերենի (Text Processor) եւ անգլերենի (Stanford Parser - տեսականորեն նաեւ arabic,  spanish, german,   french, chinese` գործնական փորձ չունեմ):




50 views0 comments

Recent Posts

See All

Comments


bottom of page