top of page

Կորպուսների կառուցում

aramhayr

Updated: Jan 20





Տեսություն

Այստեղ կնկարագրենք կորպուսների կառուցման մի ճարտարապետություն, որի հիմքում դրված են ժամանակակից տեղեկատվական եւ հաշվողական տեխնոլոգիաները: Իհարկե, նպատակը ոչ թե այդ տեխնոլոգիաների գործածումն է, այլ նոր տեսակի, նոր սերնդի գործիքների ստեղծումն է լեզվի եւ խոսքի ուսումնասիրության համար:

Այս ճարտարապետությունը չի բացառում նախորդ սերնդի` ստատիկ, կորպուսների կառուցումը` դրանք կարելի է համարել նոր սերնդի` դինամիկ, կորպուսների փակ կամ «քարացած» (կոթողային) տարբերակներ: Վերջիններս բավարար են ոչ գործող (ոչ կենդանի) լեզուների կամ այցյալ ժամանակահատվածի խոսքի (գրականության) համար:

Արդի, գործող բարբառների համար անհրաժեշտ են դինամիկ կորպուսներ (ԴԿ): Բացի այդ շատ կարեվոր է ձայնային աղբյուրներից ստացված տեղեկույթի դարանումը` սրանք են «իսկական», բնական խոսքի օրինակները: [Շարժային տեքստի (խուլ-համրերի խոսք) կորպուսներ մեզ հայտնի չեն: Սակայն սա շատ կարեւոր թվում, քանի որ սա էլ է «իսկական», բնական խոսքի օրինակ:]

Սահմանումը եւ ֆունկցիաները

Սովորաբար կորպուս են անվանաում որեւէ լեզվի (բարբառի) տեքստերի հավաքածուն, այսինքն, շտեմարանը, որը գրադարանի նման հնարավորություն է տալիս տեքստեր (գրքեր) որոնել ըստ հեղինակի, վերնագրի, եւ միգուցե այլ հատկանիշներով: Սակայն գործնականում կորպուսներին, ի տարբերություն նման էլեկտրոնային գրադարաների, հատուկ են այլ ֆունկցիաներ: Օրինակ` բառերի կամ բառաձեւերի որոնում, պիտակավորում, վիճակագրական հաշվարկումներ, ևն:

Նոր սերնդի կորպուսներին հատուկ է Գանձարանի հետ սերտ ինտեգրումը, ինչի հետեւանքով կորպուսից օգտվողին մատչելի է դառնում բառագիտական տեղեկույթը: Գանձարանն, իր հերթին լինելով բառարանների ԴԿ, անընդհատ հարստանում է կորպուս ներմուծվող նոր բառանյութով:

Պիտակավորված կորպուսները ծառադարաններ են կոչվում, քանի որ պիտակավորված խոսքը համեմատաբար հեշտ կարելի է ծառերի վերածել:

Ընդհանրական ֆունկցիաները

Որո՞նք են ԴԿ-ի հիմնական ֆունկցիաները`

  1. Բնագրերի դարանում. ԴԿ-ն էլետրադարան է, որտեղ պահվում են տեսային (գրքեր, ձեռագրեր, ի ծնե թվային տեքստեր) եւ ձայնային (դաշտային բանասերի հարցազրույցներ, հեռուստա-, ռադիո- լուրեր եւ հաղորդումներ, սերիալներ, ևն) պատկերներ.

  2. Պատկերների անընդհատ ներհոս[ք] (influx).

  3. Այդ պատկերների պիտակավորված տեքստեր.

  4. Տեքստերի [հակադարձ] ինդեքս.

  5. Լեզվի եւ խոսքի մասերի, տեքստային հատվածների, եւ աղբյուրագիտական որոնում.

  6. Վիճակագրական վերլուծում

  7. Բնալեզվական վերլուծում

  8. Տվյալների հարմար (բարեկերպ, «ընկերական»` user friendly) արտապատկերում

Սահմանում. Կորպուսը խոսքային տվյալների շտեմարան է, որն ապահովում է այդ տվյալների բազմազան հատկանիշների հարմարավետ արտապատկերում:

Ձայնային կորպուսների ֆունցիաները

Հետեւյալ ֆունկցիաները հատուկ են ձայնային կորպուսներին`

  1. Ձայնը (խոսքը) փոխարկելիս տեքստի երկու օրինակ է ստեղծվում`

    1. Գրային (այբբեննական) նշաններով (տառերով) կոդավորված. սովորական գրավոր տեքստ, որը հետագայում պիտակավորվում է.

    2. Միջազգային հնչյունական այբուբենով

  2. Սովորական գրավոր տեքստում ձայնային բնագրում հատվածի սկիզբն է խարսխվում: Սա Լեզվաբանի Աշխատանոցով հետազոտողին հնարավորություն կտա փոխարկիչով ստացված տեքստի տեսային (գրված) պատկերը հեշտությամբ համեմատել բնագրի արտասանության հետ:

Կորպուսի կառուցվածքը եւ կառուցումը

Գծագիրը

Կորպուսի կառուցվածքը, ինչպես նաեւ գործառական եւ ֆունկցիոնալ գործընթացները ներկայացված են հետեւյալ գծագրում.



Կորպուսի հաշվողական կառուցվածքը եռաշերտ է` տվյալների ա) դարանում, բ) մշակում, եւ գ) արտապատկերում,

Տվյալների դարանում

Արտաքին աղբյուրներից, օրինակ` YouTube, Google, Էլեկտրոնային գրադարան, Ինտերնետ բառարան, ևն, տվյալները ուղղվում են դեպի NoSQL շտեմարան եւ դարանվում (պետք է պարզել կինոների, սերիալների, ևն բնագրերի դարանման կարգավիճակը, իրավական խնդիրները): Տեսային եւ ձայնային տվյալները վերածվում են տեքստի համապատասխան փոխարկիչների (Ժ մոդուլ) օգնությամբ (տես OCR Data Pipeline, User's Guide to OCR Data Pipeline, եւ Audio Data Pipeline էջերը):

Քանի որ փոխարկիչները չեն կարող 100% ճշտություն ապահովել, ապա կատարվում է ձեռքով խմբագրում (Գ մոդուլ): Երբ  Բնագրի վերածումը մուտքային տվյալների փուլը ավարտվում է, տեքստը պիտակավորվում (Թ մոդուլ, Running the Armenian Parser) եւ ինդեքսավորվում (Է մոդուլ) է:

Տվյալների հոսքի կառավարում

Այս գործընթացները կառավարվում են Ե եւ Զ մոդուլներով: Նրաք ապահովում են բնագրերի ad hoc վերբեռնումը շտեմարան: Դրանք կարող են լինել դաշտային լեզվաբան/բանասերի հարցազրուց կան երգի/հեքիաթի ձայնագրություն, որեւէ կինոյի կամ սերիալի հոլովակ, PDF, ևն:

Այդ մոդուլները ապահովում են նաեւ նախածրագրավորված վերբեռնումներ, օրինակ` նորությունների թողարկում, սերիալի սերիա, «Ժամանակ» թերթի կամ հեռուստածրագրի հերթական թողարկումը, ևն:

Գ մոդուլը ապահովում է ձեռքով սրբագրում եւ պիտակավորում:

Տեքստի պիտակավորման ավարտից հետո Ե մոդուլը այն ինդեքսավրում է եւ դարձնում է մատչելի բոլոր օգտատերերի համար:

Տվյալների արտապատկերում

Մոդուլների այս բազմությունը` Ա, Բ, եւ Գ մոդուլներ, ապահովում է եզրային օգտատերերի (end-user) աշխատանքը կորպուսի տվյալների հետ: Մասնավորապես այն ապահովում է տարբեր տեսակի հայցումների ուղղորդումը դեպի շտեմարանի ինդեքս, վերադարձված տվյալների արտապատկերումը, փոխարկված տեքստի կապակցումը բնագրի հետ: Վերջին գործողությունը հիմնականում ձայնային պատկերների համար է, քանի որ լեզվաբանը հնարավորություն կստանա լսել տեքստի իրական արտասանությունը եւ շտկումներ կամ ավելի գիտակցված եզրակացություններ անել:





 
 
 

Recent Posts

See All

Լեզվական էվոլյուցիա

Տեսություն Լեզվաբանությանը առնչվող հերթական մի հատոր կարդալու ժամանակ պահանջ զգացի մեկ անգամ եւս անդրադառնալու լեզու, խոսք, մշակութային...

Բնական խոսքի մշակում

Ներածություն Այստեղ թվարկված են ԲԽՄ ( Բնական խոսքի մշակում ) տեխնոլոգիաները, որոնք կիրառելի են հայոց լեզվին: Այդ թվում են ինչպես պատրաստի...

Comentarios


bottom of page