Ի՞նչ է կորպուսը
Տեքստային կորպուսը գրավոր կամ բանավոր, նախապես թվայնացված խոսքի շտեմարան է, որն օգտագործվում է լեզվի (եւ խոսքի) ուսումնասիրության` կորպուսային լեզվաբանության, եւ լեզվի ուսուցման համար: Այն ոչ թե սոսկ շտեմարան կամ տեքստադարան է (հմմտ. մատենա-դարան, գրադարան), այլ քերականորեն վերլուծված նախադասությունների ծառադարան: Խոսքի այսպիսի կառուցվածքային ներկայացումը հարմար է լեզվական օրինաչափություննե-րի, բառերի հաճախականությունների, եւ լեզվական այլ երեւույթների ուսումնասիրության եւ ուսուցողական նպատակներով արտապատկերման համար:
Կորպուսը լեզվաբանի եւ բանասերի աշխատանոց (լաբորատորիա) է [Բնական խոսքի ընդհանրական ներկայացման մի տարբերակի մասին, էջ` 222-223] եւ ուսանման գործիք:
Կորպուսների տեսակները
Ըստ լեզուների կորպուսները լինում են միալեզու կամ բազմալեզու` հիմնականում երկլեզու-հավասարված: Վերջինները գործածվում են համեմատական լեզվաբանական ուսումնասիրությունների համար եւ մեքենական թարգմանիչների ուսուցման համար: Ըստ բովանդակության նրանք կարող են ընդհանրական կամ մասնագիտացված` գրական, գիտական, տեխնիկական, իրավաբանական, ևն: Կորպուսները կարող են պարունակել հատուկ դարաշրջանի կամ բարբառի տեքստեր, կենցաղային, տարբեր շրջաններին կամ խավերին հատուկ կամ տարբեր ժանրերի խոսք:
Կորպուսները մշակույթի պահպանման, հետազոտական եւ ուսուցողական արժեքից բացի ունեն նաեւ կիրառական արժեք: Միալեզուները հիմք են համդիսանում արհեստական բանականության համակարգերի ուսուցման ոլորտում: Մասնավորապես, ընդհանրական կամ մասնագիտացված զրուցակից-ռոբոտներ (chatbot) կամ անձնական օգնականներ, փորձագետ համակարգեր, ևն:
Երկլեզու կորպուսների կիրառման ոլորտը մեքենական թարգմանիչների ուսուցումն է:
Տես նաեւ
Հայերեն կորպուսների իրացումները
Eastern Armenian National Corpus - Արևելահայերենի ազգային կորպուսը (ԱՐԵՎԱԿ) բազմաթիվ արևելահայերեն տեքստեր պարունակող լեզվաբանական որոնման համակարգ է:
Հայ մատենագրութեան թուանշանային գրադարան-ը (Digilib) հայ գրաւոր մշակոյթի յուշարձանների թուանշային շտեմարան է
Կորպուսների կառուցման քայլերը
Եթե կորպուսում ընդգրկվող խոսքը դեռ թվայնացված չէ, ապա խոսքի գրավոր կամ ձայնային պատկերները ձեւափոխվում են թվանշային տեքստի: Կորպուսների կառուցման գործընթացներում ընդգրկված տեխնոլոգիաները եւ նրանց կիրառման հաջորդականությունը բերված է Թվանշային հումանիտար գիտություններ կայքէջի Հումանիտար թվանշային տեխնոլոգիաներ հատվածում:
Հայոց լեզվի համար իրացված են`
a1 -> a2 -> b2 -> c2 -> d2 երթուղին - Corpus Data Pipeline
d2 -> e1 երթուղին - Text Processor.
մնացած երթուղիները իրացման մասին տես` Հումանիտար տեխնոլոգիաների կայքէջեր
Տեքստերի աղբյուր կարող են հանդիսանալ տպագիր կամ ձեռագիր խոսքը (մատենադարաններում, գրադարաններում, արխիվներում, թանգարաններում, դատարաններում, ևն), հատուկ կատարված կամ հրապարակավ մատչելի հարցազրույցները, ռադիո-հեռուստատեսային հաղորդումները, եւ ի ծնե թվանշային` համցանցի կայքէջեր, էլեկտրոնային գրքեր, ևն, խոսքը:
Հաջորդ քայլը տվյալների զտումն է: Այս քալում ուղղվում են հիմնականում թվայնացման ժամանակ ներմուծված վրիպակները: [Դիտարկում. Առանձին դեպքերում լեզվաբանները կարող են նաեւ բնագրերի վրիպակները ուղղել կամ ոճը շտկել, երբ դրանք հետազոտման նյութը չեն:]
Զտումից հետո ձեւավորվում են տեքստի մակարդակի մետատվյալները, ինչպիսիք են հեղինակը, վերնագիրը, ամսաթիվը, աղբյուրը, ևն, որոնք կարող են օգտագործվել կորպուսի օրինաչափություններն ու միտումները վերլուծելու համար: Աղբյուրագիտական այս մետատվյալներին զուգահեռ պահվում են տեխնիկական մետատվյալներ` մուտքագրման մեթոդը (օրի-նակ գրերի մեքենական ճանաչում, ձայն-տեքստ, ևն), ծրագրային համակարգի տարբերակը, փոփոխման պատահույթների պատմությունը, ևն:
Զտված տեքստը մեքենացված պիտակավորման է ենթարկվում, որից հետո լեզվաբանը մաքրագրում է մուտքագրման եւ պիտակավորման արդյունքները: Բառաձեւերի պիտակները հատկանշում են նախադասության կառուցվածքը` նախադասության ծառը (ՆԾ): Պիտակավորված տեքստն ուղարկվում է ծառադարան եւ ինդեքսավորվում է:
Կորպուսների ճարտարապետությունը նույնական է Գանձարանների ճարտարապետու-թյանը: Վերջին հաշվով էլեկտրոնաին Գանձարանը բառարանների (բառերի) կորպուս է:
Սպասարկող ծրագրային համակարգը
Ծառադարանը ձեւավորելու համար համակարգի թիկունքում (backend) իրացվում են պիտակավորման (Text Processor), ինդեքսավորման, որոնման, վիճակագրային, եւ պահեստավոր-ման համակարգերը, իսկ համակարգի ճակատում (frontend) լեզվաբանի աշխատանոցը: Վերջինս գործածողի միջերես (ԳՄ` User Interface) է, որն ապահովում է տեքստի խմբագրում եւ թիկունքային պիտակավորման, վիճակագրային, եւ տեղեկաքաղ ծառայությունների գործար-կում: Մի այլ` հիմնական ԳՄ-ն հետազոտողներին եւ ուսանողներին հնարավորություն է տալիս օգտվել վիճակագրային եւ տեղեկաքաղ ծառայություններից:
Թիկունքային համակարգի տեղեկաքաղ ծառայությունները հասանելի են կիրառման ծրագրային միջերեսի (API) միջոցով:
Կորպուսը «ապրող» համակարգ է` այն մշատապես ենթարկվում է ընդլայնման եւ բարելավման: Սպասարկող ծրագրային համակարգը պետք է ապահովի գործընթացների կրկնողականությունը` նյութի ավելացումը եւ փոփոխումը (խմբագրումը), եւ ճկունությունը` նոր գործ-ընթացների եւ տեխնոլոգիաների ընդգրկումը:
Տեխնոլոգիաների մասին մանրամասները տես`
Բնական խոսքի ընդհանրական ներկայացման մի տարբերակի մասին - հատվածներ` 3.4. Կաղապարում, 9. Եզրերի բառադարան, 10 Տեքստային բառաձեւերի սերում , 11 Բառաձեւերի վերլուծում, 15 Իրացում, 16 Կիրառումներ
-------------------------------------------------------------------------------
Հայագիտական կորպուսներ
Գրականության ցանկ
Yavrumyan, Marat. (2019). Tokenization and Word Segmentation in the UD_ARMENIAN- ArmTDP Treebank (in Armenian). 3. 52-65.
Abstract. Word segmentation and sentence splitting are a necessary initial stage of natural language processing. The subsequent stages of the analysis essentially depend on the decisions made about splitting the text into tokens and the detection of sentence boundaries. In the project of UD_Armenian-ArmTDP treebank a tokenization module was developed based on a small set of basic rules, then more than 36K text forms were tokenized, the results were checked manually, and the data was used as a training set for tokenization and word segmentation in the framework of the task of creating a syntactic parser for Eastern Armenian.
Yavrumyan, Marat & Danielyan, Anna. (2019). Formal Ontology as a Conceptualization Tool in Natural Language Processing Systems (in Armenian). ՊՐԱԿ Ա. 124-138.
Abstract. This article views formal ontology as an enabling framework, modality or tool that may foster the systematization of domain-specific terminology and vocabulary. This approach has led to the design of HyMorph ontology for the expressions and phrases of Modern Eastern Armenian through the use of Protégé editor. Its taxonomic hierarchy enables the annotation of multiword expressions (MWEs, Multiword Expressions) in the UD_Armenian-ArmTDP Treebank project.
Bastien Kindt, Chahan Vidal-Gorène. From Manuscript to Tagged Corpora An Automated Process for Ancient Armenian or Other Under-Resourced Languages of the Christian East.
Abstract. Creating a digital corpus enriched by full linguistic annotations is a work which classically integrates several manual steps of acquisition, processing, and data display. Processing presupposes the existence of dedicated and specialised analysis tools, adapted to the state of the language used in the corpus. This paper describes a semi-supervised process for building Armenian corpora from scanned documents. This method is based on a chain of applications pre-trained by Calfa and GREgORI and enabling the complete processing of texts, from their automated input to their linguistic analysis and data display. We provide an assessment of this methodology and benefits of model specialisation, based on digitised copies of a 17th-century manuscript of the Four Gospels (Walters MS W541 = BAL W541, Amida Gospels, ff. 113v-117r: Lk 1:1-78).
Victoria Khurshudyan, Timofey Arkhangelskiy, Misha Daniel, Vladimir Plungian, Dmitri Levonian, Alex Polyakov and Sergei Rubakov. Eastern Armenian National Corpus: State of the Art and Perspectives.
Abstract. Eastern Armenian National Corpus (EANC) is a comprehensive corpus of Modern Eastern Armenian with about 110 million tokens, covering written and oral discourses from the mid-19th century to the present. The corpus is provided with morphological, semantic and metatext annotation, as well as English translations. EANC is open access and available at www.eanc.net.
Review: The Eastern Armenian National Corpus: State of the Art and Perspectives: questions, comments
Chahan Vidal-Gorène, Victoria Khurshudyan, Anaïd Donabédian-Demopoulos. Recycling and Comparing Morphological Annotation Models for Armenian Diachronic-Variational Corpus Processing.
Abstract. Armenian is a language with significant variation and unevenly distributed NLP resources for different varieties. An attempt is made to process an RNN model for morphological annotation on the basis of different Armenian data (provided or not with morphologically annotated corpora), and to compare the annotation results of RNN and rule-based models. Different tests were carried out to evaluate the reuse of an unspecialized model of lemmatization and POS-tagging for under-resourced language varieties. The research focused on three dialects and further extended to Western Armenian with a mean accuracy of 94,00 % in lemmatization and 97,02% in POS-tagging, as well as a possible reusability of models to cover different other Armenian varieties.
Կորպուսների կառուցում
В. А. Плунгян. Параллельный корпус как грамматическая база данных и Новый Завет как параллельный корпус (предисловие)
Նախաբանը (որը նաեւ հետագա հոդվածների համար տեսական ներածություն է ) նկարա-գրում է Նոր Կտակարանի թարգմանությունների զուգահեռ կորպուսի հիման վրա տիպաբա-նորեն առնչվող քերականական համատեքստերի տվյալների շտեմարան պատրաստելու ընդհանուր նախագիծը: Հոդվածների կազմի եւ բովանդակության համառոտ ակնարկ է:
Տեսային ճանաչման (OCR) համակարգի կիրառումը
կորպուսների կարուցման համար - Corpus Data Pipeline
Կայքէջեր, տեսանյութեր, գործիքներ
Հիմնական հասկացությունների մասին chatGPT-ի կարծիքը տես` Interviewing chatGPT: Corpus linguistics.
Հայերենը՝ թվային իրականությանը համահունչ - Հայերենի ծառադարան գիտահետազոտական ծրագրի հիմնական հետազոտող Մարատ Յավրումյանը թվային մշակույթը համեմատում է տպագրության գյուտի հետ՝ գուտենբերգյան տպագրության հաստոցը ժամանակին նոր տեխնոլոգիա էր և իր ժամանկի մեջ փոխեց գրավոր մշակույթի մասին պատկերացումները։
Խոսքի նկարագրությունը համընդհանուր կախվածություններով - Ձեռքով ծանոթագրման (պիտակավորման) Համընդհանուր կախվածություններ կոչված դե ֆակտո ստանդարդի համեմատական վերլուծությունը եւ համապատասխան գրականութայն ցանկը
Corpus Linguistics for Beginners - Յասին Յաբդունանեն, Կիրառական Լեզվաբանության եւ ELT մասնագիտություններով մագիստրատուրայի մարոկկացի շրջանավարտը, ում հետաքրքրության ոլորտներն են՝ Կառույցային քերականություն, Իմացական լեզվաբա-նությունը, Usage Based Linguistics (Գործածական Լեզվաբանություն) եւ Կորպուսային լեզվաբանություն, ներկայացնում է կորպուսային լեզվաբանության հիմունքները: Դա-սախոսությունների (ցանկացած տեսանյութի) տեքստի արտահանման, թարգմանու-թյան, եւ ամփոփման գործիքակազմի կիրառման մանրամասները տես Summarizing the Transcript էջում: Տեսահաղորդաշարի յուրաքանչյլուր դասախոսության ամփոփումը տես Կորպուսային լեզվաբանություն. Ներածություն էջում:
An Introduction to Corpus Linguistics - Կորպուսային լեզվաբանության սկզբունքները շրջանառության մեջ են գրեթե մեկ դար։ Բառագրագետները առնվազն 19-րդ դարի վերջից սկսած օգտագործում են խոսքի օրինակներ բառերը ճշգրիտ սահմանելու համար: Նախքան համակարգիչները, լեզվի այս օրինակները հիմնականում հավաք-վում էին թղթի փոքր կտորների վրա եւ համակարգվում հատուկ պահարանների խցիկներում: Համակարգիչների հայտնվելը հանգեցրեց ժամանակակից կորպուսների ստեղծմանը: Համակարգչի վրա հիմնված առաջին՝ Բրաունի կորպուսը, ստեղծվել է 1961 թվականին եւ բաղկացած է մոտ 1 միլիոն բառից: Այսօր ընդհանրացված կորպուսները ունեն հարյուր միլիոնավոր բառեր, եւ կորպուսային լեզվաբանությունը մեծ ներդրում ունի երկրորդ լեզվի հետազոտության եւ ուսուցման ոլորտներում:
MOOC - Corpus linguistics: method, analysis, interpretation -
(Very) Practical Applications of Corpus Linguistics by Daniel Zuchowski
LancsBox (Lancaster University) - Լեզվի` միլիոնավոր եւ միլիարդավոր բառերի, վերլուծության հզոր գործիք .
AntConc - Համաձայնեցման և տեքստի վերլուծության անվճար գործիքակազմ կորպուսներ կառուցելու համար
Corpus Data Pipeline - ծրագրային համակարգ ցանկացած լեզվով PDF եւ JPEG տեքստերի փոխակերպումը կորպուս կառուցելու համար: Ուղղագրության ստուգումը եւ պիտակավորումը կատարվում է հայերենի (Text Processor) եւ անգլերենի (Stanford Parser - տեսականորեն նաեւ arabic, spanish, german, french, chinese` գործնական փորձ չունեմ):
Comments