top of page
Search

Կորպուսների կառուցում

Updated: Mar 30





Տեսություն

Այստեղ կնկարագրենք կորպուսների կառուցման մի ճարտարապետություն, որի հիմքում դրված են ժամանակակից տեղեկատվական եւ հաշվողական տեխնոլոգիաները: Իհարկե, նպատակը ոչ թե այդ տեխնոլոգիաների գործածումն է, այլ նոր տեսակի, նոր սերնդի գործիքների ստեղծումն է լեզվի եւ խոսքի ուսումնասիրության համար:

Այս ճարտարապետությունը չի բացառում նախորդ սերնդի` ստատիկ, կորպուսների կառուցումը` դրանք կարելի է համարել նոր սերնդի` դինամիկ, կորպուսների փակ կամ «քարացած» (կոթողային) տարբերակներ: Վերջիններս հիմնականում բավարար են ոչ գործող (ոչ կենդանի) լեզուների կամ անցյալ ժամանակահատվածի խոսքի (գրականության) ուսումնասիրության համար:

Արդի, գործող բարբառների համար անհրաժեշտ են դինամիկ կորպուսներ (ԴԿ): Բացի այդ շատ կարեվոր է ձայնային աղբյուրներից ստացված տեղեկույթի դարանումը` սրանք են «իսկական», բնական խոսքի օրինակները: [Շարժային տեքստի (խուլ-համրերի խոսք), ժեստերի լեզվի կորպուսներ մեզ հայտնի չեն: Սակայն սա կարեվոր է թվում, քանի որ շարժային խոսքը «իսկական», բնական խոսքի օրինակ է:]

Սահմանումը եւ ֆունկցիաները

Սովորաբար կորպուս են անվանաում որեւէ լեզվի (բարբառի) տեքստերի հավաքածուն, այսինքն, շտեմարանը, որը գրադարանի նման հնարավորություն է տալիս տեքստեր (գրքեր) որոնել ըստ հեղինակի, վերնագրի, եւ միգուցե այլ հատկանիշներով: Սակայն գործնականում կորպուսներին, ի տարբերություն նման էլեկտրոնային գրադարաների, հատուկ են այլ ֆունկցիաներ: Օրինակ` բառերի կամ բառաձեւերի որոնում, պիտակավորում, վիճակագրական հաշվարկումներ, ևն:

Նոր սերնդի կորպուսներին հատուկ է Գանձարանի հետ սերտ ինտեգրումը, ինչի հետեւանքով կորպուսից օգտվողին մատչելի է դառնում բառագիտական տեղեկույթը: Գանձարանն, իր հերթին լինելով բառարանների ԴԿ, անընդհատ հարստանում է կորպուս ներմուծվող նոր բառանյութով:

Պիտակավորված կորպուսները ծառադարաններ են կոչվում, քանի որ պիտակավորված խոսքը համեմատաբար հեշտ կարելի է ծառերի վերածել:

Ընդհանրական ֆունկցիաները

Որո՞նք են ԴԿ-ի հիմնական ֆունկցիաները`

  1. Բնագրերի դարանում. ԴԿ-ն էլետրադարան է, որտեղ պահվում են տեսային (գրքեր, ձեռագրեր, ի ծնե թվային տեքստեր) եւ ձայնային (դաշտային բանասերի հարցազրույցներ, հեռուստա-, ռադիո- լուրեր եւ հաղորդումներ, սերիալներ, ևն) պատկերներ.

  2. Պատկերների անընդհատ ներհոս[ք] (influx).

  3. Այդ պատկերների պիտակավորված տեքստեր.

  4. Տեքստերի [հակադարձ] ինդեքս.

  5. Լեզվի եւ խոսքի մասերի, տեքստային հատվածների, եւ աղբյուրագիտական որոնում.

  6. Վիճակագրական վերլուծում

  7. Բնալեզվական վերլուծում

  8. Տվյալների հարմար (բարեկերպ, «ընկերական»` user friendly) արտապատկերում

Սահմանում. Կորպուսը խոսքային տվյալների շտեմարան է, որն ապահովում է այդ տվյալների բազմազան հատկանիշների հարմարավետ արտապատկերում:

Ձայնային կորպուսների ֆունցիաները

Հետեւյալ ֆունկցիաները հատուկ են ձայնային կորպուսներին`

  1. Ձայնը (խոսքը) փոխարկելիս տեքստի երկու օրինակ է ստեղծվում`

    1. Գրային (այբբեննական) նշաններով (տառերով) կոդավորված. սովորական գրավոր տեքստ, որը հետագայում պիտակավորվում է.

    2. Միջազգային հնչյունական այբուբենով

  2. Սովորական գրավոր տեքստում ձայնային բնագրում հատվածի սկիզբն է խարսխվում: Սա Լեզվաբանի Աշխատանոցով հետազոտողին հնարավորություն կտա փոխարկիչով ստացված տեքստի տեսային (գրված) պատկերը հեշտությամբ համեմատել բնագրի արտասանության հետ:

Կորպուսի կառուցվածքը եւ կառուցումը

Գծագիրը

Կորպուսի կառուցվածքը, ինչպես նաեւ գործառական եւ ֆունկցիոնալ գործընթացները ներկայացված են հետեւյալ գծագրում.



Կորպուսի հաշվողական կառուցվածքը եռաշերտ է` տվյալների ա) դարանում, բ) մշակում, եւ գ) արտապատկերում,

Տվյալների դարանում

Արտաքին աղբյուրներից, օրինակ` YouTube, Google, Էլեկտրոնային գրադարան, Ինտերնետ բառարան, ևն, տվյալները ուղղվում են դեպի NoSQL շտեմարան եւ դարանվում (պետք է պարզել կինոների, սերիալների, ևն բնագրերի դարանման կարգավիճակը, իրավական խնդիրները): Տեսային եւ ձայնային տվյալները վերածվում են տեքստի համապատասխան փոխարկիչների (Ժ մոդուլ) օգնությամբ (տես OCR Data Pipeline, User's Guide to OCR Data Pipeline, եւ Audio Data Pipeline էջերը):

Քանի որ փոխարկիչները չեն կարող 100% ճշտություն ապահովել, ապա կատարվում է ձեռքով խմբագրում (Գ մոդուլ): Երբ  Բնագրի վերածումը մուտքային տվյալների փուլը ավարտվում է, տեքստը պիտակավորվում (Թ մոդուլ, Running the Armenian Parser) եւ ինդեքսավորվում (Է մոդուլ) է:

Տվյալների հոսքի կառավարում

Այս գործընթացները կառավարվում են Ե եւ Զ մոդուլներով: Նրաք ապահովում են բնագրերի ad hoc վերբեռնումը շտեմարան: Դրանք կարող են լինել դաշտային լեզվաբան/բանասերի հարցազրուց կամ երգի/հեքիաթի ձայնագրություն, որեւէ կինոյի կամ սերիալի հոլովակ, PDF, ևն:

Այդ մոդուլները ապահովում են նաեւ նախածրագրավորված վերբեռնումներ, օրինակ` նորությունների թողարկում, սերիալի սերիա, «Ժամանակ» թերթի կամ հեռուստածրագրի հերթական թողարկումը, ևն:

Գ մոդուլը ապահովում է ձեռքով սրբագրում եւ պիտակավորում:

Տեքստի պիտակավորման ավարտից հետո Ե մոդուլը այն ինդեքսավրում է եւ դարձնում է մատչելի բոլոր օգտատերերի համար:

Տվյալների արտապատկերում

Մոդուլների այս բազմությունը` Ա, Բ, եւ Գ մոդուլներ, ապահովում է եզրային օգտատերերի (end-user) աշխատանքը կորպուսի տվյալների հետ: Մասնավորապես այն ապահովում է տարբեր տեսակի հայցումների ուղղորդումը դեպի շտեմարանի ինդեքս, վերադարձված տվյալների արտապատկերումը, փոխարկված տեքստի կապակցումը բնագրի հետ: Վերջին գործողությունը հիմնականում ձայնային պատկերների համար է, քանի որ լեզվաբանը հնարավորություն կստանա լսել տեքստի իրական արտասանությունը եւ շտկումներ կամ ավելի գիտակցված եզրակացություններ անել:





 
 
 

Recent Posts

See All

Comments


bottom of page