Կորպուսների կառուցում

aramhayr
Jan 11, 2025
3 min read

Updated: Jan 27

Տեսություն

Այստեղ կնկարագրենք կորպուսների կառուցման մի ճարտարապետություն, որի հիմքում դրված են ժամանակակից տեղեկատվական եւ հաշվողական տեխնոլոգիաները: Իհարկե, նպատակը ոչ թե այդ տեխնոլոգիաների գործածումն է, այլ նոր տեսակի, նոր սերնդի գործիքների ստեղծումն է լեզվի եւ խոսքի ուսումնասիրության համար:

Այս ճարտարապետությունը չի բացառում նախորդ սերնդի` ստատիկ, կորպուսների կառուցումը` դրանք կարելի է համարել նոր սերնդի` դինամիկ, կորպուսների փակ կամ «քարացած» (կոթողային) տարբերակներ: Վերջիններս հիմնականում բավարար են ոչ գործող (ոչ կենդանի) լեզուների կամ անցյալ ժամանակահատվածի խոսքի (գրականության) ուսումնասիրության համար:

Արդի, գործող բարբառների համար անհրաժեշտ են դինամիկ կորպուսներ (ԴԿ): Բացի այդ շատ կարեվոր է ձայնային աղբյուրներից ստացված տեղեկույթի դարանումը` սրանք են «իսկական», բնական խոսքի օրինակները: [Շարժային տեքստի (խուլ-համրերի խոսք), ժեստերի լեզվի կորպուսներ մեզ հայտնի չեն: Սակայն սա կարեվոր է թվում, քանի որ շարժային խոսքը «իսկական», բնական խոսքի օրինակ է:]

Սահմանումը եւ ֆունկցիաները

Սովորաբար կորպուս են անվանաում որեւէ լեզվի (բարբառի) տեքստերի հավաքածուն, այսինքն, շտեմարանը, որը գրադարանի նման հնարավորություն է տալիս տեքստեր (գրքեր) որոնել ըստ հեղինակի, վերնագրի, եւ միգուցե այլ հատկանիշներով: Սակայն գործնականում կորպուսներին, ի տարբերություն նման էլեկտրոնային գրադարաների, հատուկ են այլ ֆունկցիաներ: Օրինակ` բառերի կամ բառաձեւերի որոնում, պիտակավորում, վիճակագրական հաշվարկումներ, ևն:

Նոր սերնդի կորպուսներին հատուկ է Գանձարանի հետ սերտ ինտեգրումը, ինչի հետեւանքով կորպուսից օգտվողին մատչելի է դառնում բառագիտական տեղեկույթը: Գանձարանն, իր հերթին լինելով բառարանների ԴԿ, անընդհատ հարստանում է կորպուս ներմուծվող նոր բառանյութով:

Պիտակավորված կորպուսները ծառադարաններ են կոչվում, քանի որ պիտակավորված խոսքը համեմատաբար հեշտ կարելի է ծառերի վերածել:

Ընդհանրական ֆունկցիաները

Որո՞նք են ԴԿ-ի հիմնական ֆունկցիաները`

Բնագրերի դարանում. ԴԿ-ն էլետրադարան է, որտեղ պահվում են տեսային (գրքեր, ձեռագրեր, ի ծնե թվային տեքստեր) եւ ձայնային (դաշտային բանասերի հարցազրույցներ, հեռուստա-, ռադիո- լուրեր եւ հաղորդումներ, սերիալներ, ևն) պատկերներ.
Պատկերների անընդհատ ներհոս[ք] (influx).
Այդ պատկերների պիտակավորված տեքստեր.
Տեքստերի [հակադարձ] ինդեքս.
Լեզվի եւ խոսքի մասերի, տեքստային հատվածների, եւ աղբյուրագիտական որոնում (որոնման շարժիչների մասին մանրամասները տես Perplexity-ի այս հարցազրույցում):.
Վիճակագրական վերլուծում
Բնալեզվական վերլուծում
Տվյալների հարմար (բարեկերպ, «ընկերական»` user friendly) արտապատկերում

Սահմանում. Կորպուսը խոսքային տվյալների շտեմարան է, որն ապահովում է այդ տվյալների բազմազան հատկանիշների հարմարավետ արտապատկերում:

Ձայնային կորպուսների ֆունկցիաները

Հետեւյալ ֆունկցիաները հատուկ են ձայնային կորպուսներին`

Ձայնը (խոսքը) փոխարկելիս տեքստի երկու օրինակ է ստեղծվում`
1. Գրային (այբբեննական) նշաններով (տառերով) կոդավորված. սովորական գրավոր տեքստ, որը հետագայում պիտակավորվում է.
2. Միջազգային հնչյունական այբուբենով
Գրավոր տեքստերի երկու տաբերակներում էլ խարսխվում են ձայնային բնագրում հատվածի սկիզբը: Սա Լեզվաբանի Աշխատանոցով հետազոտողին հնարավորություն կտա փոխարկիչով ստացված երկու տեսակի տեքստերը համատեղել ձայնային (ձայնագրված) պատկերի հետ արտասանում/գրառում համեմատություններ անելու համար:
Զրուցակիցների ինքնաշխատ (ավտոմատ) ճանաչում
Ձայնային (սպեկտրալ) վերլուծություն, խոսքի շարույթի, տոնային/տաղային, եւ այլ առանձնահատկությունները որոշելու համար:

Կորպուսի կառուցվածքը եւ կառուցումը

Գծագիրը

Կորպուսի կառուցվածքը, ինչպես նաեւ գործառական եւ ֆունկցիոնալ գործընթացները ներկայացված են հետեւյալ գծագրում.

Կորպուսի հաշվողական կառուցվածքը եռաշերտ է` տվյալների ա) դարանում, բ) մշակում, եւ գ) արտապատկերում:

Տվյալների դարանում

Արտաքին աղբյուրներից, օրինակ` YouTube, Google, Էլեկտրոնային գրադարան, Ինտերնետ բառարան, ևն, տվյալները ուղղվում են դեպի NoSQL շտեմարան եւ դարանվում (պետք է պարզել կինոների, սերիալների, ևն բնագրերի դարանման կարգավիճակը, իրավական խնդիրները): Տեսային եւ ձայնային տվյալները վերածվում են տեքստի համապատասխան փոխարկիչների (Ժ մոդուլ) օգնությամբ (տես OCR Data Pipeline, User's Guide to OCR Data Pipeline, եւ Audio Data Pipeline էջերը):

Քանի որ փոխարկիչները չեն կարող 100% ճշտություն ապահովել, ապա կատարվում է ձեռքով խմբագրում (Գ մոդուլ): Երբ Բնագրի վերածումը մուտքային տվյալների փուլը ավարտվում է, տեքստը պիտակավորվում (Թ մոդուլ, Running the Armenian Parser) եւ ինդեքսավորվում (Է մոդուլ) է:

Տվյալների հոսքի կառավարում

Այս գործընթացները կառավարվում են Ե եւ Զ մոդուլներով: Նրաք ապահովում են բնագրերի ad hoc վերբեռնումը շտեմարան: Դրանք կարող են լինել դաշտային լեզվաբան/բանասերի հարցազրուց կամ երգի/հեքիաթի ձայնագրություն, որեւէ կինոյի կամ սերիալի հոլովակ, PDF, ևն:

Այդ մոդուլները ապահովում են նաեւ նախածրագրավորված վերբեռնումներ, օրինակ` նորությունների թողարկում, սերիալի սերիա, «Ժամանակ» թերթի կամ հեռուստածրագրի հերթական թողարկումը, ևն:

Գ մոդուլը ապահովում է ձեռքով սրբագրում եւ պիտակավորում:

Տեքստի պիտակավորման ավարտից հետո Ե մոդուլը այն ինդեքսավորում է եւ դարձնում է մատչելի բոլոր օգտատերերի համար:

Տվյալների արտապատկերում

Մոդուլների այս բազմությունը` Ա, Բ, եւ Գ մոդուլներ, ապահովում է եզրային օգտատերերի (end-user) աշխատանքը կորպուսի տվյալների հետ: Մասնավորապես այն ապահովում է տարբեր տեսակի հայցումների ուղղորդումը դեպի շտեմարանի ինդեքս, վերադարձված տվյալների արտապատկերումը, փոխարկված տեքստի կապակցումը բնագրի հետ: Վերջին գործողությունը հիմնականում ձայնային պատկերների համար է, քանի որ լեզվաբանը հնարավորություն կստանա լսել տեքստի իրական արտասանությունը եւ շտկումներ կամ ավելի գիտակցված եզրակացություններ անել: