Տեսություն
Այստեղ կնկարագրենք կորպուսների կառուցման մի ճարտարապետություն, որի հիմքում դրված են ժամանակակից տեղեկատվական եւ հաշվողական տեխնոլոգիաները: Իհարկե, նպատակը ոչ թե այդ տեխնոլոգիաների գործածումն է, այլ նոր տեսակի, նոր սերնդի գործիքների ստեղծումն է լեզվի եւ խոսքի ուսումնասիրության համար:
Այս ճարտարապետությունը չի բացառում նախորդ սերնդի` ստատիկ, կորպուսների կառուցումը` դրանք կարելի է համարել նոր սերնդի` դինամիկ, կորպուսների փակ կամ «քարացած» (կոթողային) տարբերակներ: Վերջիններս բավարար են ոչ գործող (ոչ կենդանի) լեզուների կամ այցյալ ժամանակահատվածի խոսքի (գրականության) համար:
Արդի, գործող բարբառների համար անհրաժեշտ են դինամիկ կորպուսներ (ԴԿ): Բացի այդ շատ կարեվոր է ձայնային աղբյուրներից ստացված տեղեկույթի դարանումը` սրանք են «իսկական», բնական խոսքի օրինակները: [Շարժային տեքստի (խուլ-համրերի խոսք) կորպուսներ մեզ հայտնի չեն: Սակայն սա շատ կարեւոր թվում, քանի որ սա էլ է «իսկական», բնական խոսքի օրինակ:]
Սահմանումը եւ ֆունկցիաները
Սովորաբար կորպուս են անվանաում որեւէ լեզվի (բարբառի) տեքստերի հավաքածուն, այսինքն, շտեմարանը, որը գրադարանի նման հնարավորություն է տալիս տեքստեր (գրքեր) որոնել ըստ հեղինակի, վերնագրի, եւ միգուցե այլ հատկանիշներով: Սակայն գործնականում կորպուսներին, ի տարբերություն նման էլեկտրոնային գրադարաների, հատուկ են այլ ֆունկցիաներ: Օրինակ` բառերի կամ բառաձեւերի որոնում, պիտակավորում, վիճակագրական հաշվարկումներ, ևն:
Նոր սերնդի կորպուսներին հատուկ է Գանձարանի հետ սերտ ինտեգրումը, ինչի հետեւանքով կորպուսից օգտվողին մատչելի է դառնում բառագիտական տեղեկույթը: Գանձարանն, իր հերթին լինելով բառարանների ԴԿ, անընդհատ հարստանում է կորպուս ներմուծվող նոր բառանյութով:
Պիտակավորված կորպուսները ծառադարաններ են կոչվում, քանի որ պիտակավորված խոսքը համեմատաբար հեշտ կարելի է ծառերի վերածել:
Ընդհանրական ֆունկցիաները
Որո՞նք են ԴԿ-ի հիմնական ֆունկցիաները`
Բնագրերի դարանում. ԴԿ-ն էլետրադարան է, որտեղ պահվում են տեսային (գրքեր, ձեռագրեր, ի ծնե թվային տեքստեր) եւ ձայնային (դաշտային բանասերի հարցազրույցներ, հեռուստա-, ռադիո- լուրեր եւ հաղորդումներ, սերիալներ, ևն) պատկերներ.
Պատկերների անընդհատ ներհոս[ք] (influx).
Այդ պատկերների պիտակավորված տեքստեր.
Տեքստերի [հակադարձ] ինդեքս.
Լեզվի եւ խոսքի մասերի, տեքստային հատվածների, եւ աղբյուրագիտական որոնում.
Վիճակագրական վերլուծում
Բնալեզվական վերլուծում
Տվյալների հարմար (բարեկերպ, «ընկերական»` user friendly) արտապատկերում
Սահմանում. Կորպուսը խոսքային տվյալների շտեմարան է, որն ապահովում է այդ տվյալների բազմազան հատկանիշների հարմարավետ արտապատկերում:
Ձայնային կորպուսների ֆունցիաները
Հետեւյալ ֆունկցիաները հատուկ են ձայնային կորպուսներին`
Ձայնը (խոսքը) փոխարկելիս տեքստի երկու օրինակ է ստեղծվում`
Գրային (այբբեննական) նշաններով (տառերով) կոդավորված. սովորական գրավոր տեքստ, որը հետագայում պիտակավորվում է.
Սովորական գրավոր տեքստում ձայնային բնագրում հատվածի սկիզբն է խարսխվում: Սա Լեզվաբանի Աշխատանոցով հետազոտողին հնարավորություն կտա փոխարկիչով ստացված տեքստի տեսային (գրված) պատկերը հեշտությամբ համեմատել բնագրի արտասանության հետ:
Կորպուսի կառուցվածքը եւ կառուցումը
Գծագիրը
Կորպուսի կառուցվածքը, ինչպես նաեւ գործառական եւ ֆունկցիոնալ գործընթացները ներկայացված են հետեւյալ գծագրում.

Կորպուսի հաշվողական կառուցվածքը եռաշերտ է` տվյալների ա) դարանում, բ) մշակում, եւ գ) արտապատկերում,
Տվյալների դարանում
Արտաքին աղբյուրներից, օրինակ` YouTube, Google, Էլեկտրոնային գրադարան, Ինտերնետ բառարան, ևն, տվյալները ուղղվում են դեպի NoSQL շտեմարան եւ դարանվում (պետք է պարզել կինոների, սերիալների, ևն բնագրերի դարանման կարգավիճակը, իրավական խնդիրները): Տեսային եւ ձայնային տվյալները վերածվում են տեքստի համապատասխան փոխարկիչների (Ժ մոդուլ) օգնությամբ (տես OCR Data Pipeline, User's Guide to OCR Data Pipeline, եւ Audio Data Pipeline էջերը):
Քանի որ փոխարկիչները չեն կարող 100% ճշտություն ապահովել, ապա կատարվում է ձեռքով խմբագրում (Գ մոդուլ): Երբ Բնագրի վերածումը մուտքային տվյալների փուլը ավարտվում է, տեքստը պիտակավորվում (Թ մոդուլ, Running the Armenian Parser) եւ ինդեքսավորվում (Է մոդուլ) է:
Տվյալների հոսքի կառավարում
Այս գործընթացները կառավարվում են Ե եւ Զ մոդուլներով: Նրաք ապահովում են բնագրերի ad hoc վերբեռնումը շտեմարան: Դրանք կարող են լինել դաշտային լեզվաբան/բանասերի հարցազրուց կան երգի/հեքիաթի ձայնագրություն, որեւէ կինոյի կամ սերիալի հոլովակ, PDF, ևն:
Այդ մոդուլները ապահովում են նաեւ նախածրագրավորված վերբեռնումներ, օրինակ` նորությունների թողարկում, սերիալի սերիա, «Ժամանակ» թերթի կամ հեռուստածրագրի հերթական թողարկումը, ևն:
Գ մոդուլը ապահովում է ձեռքով սրբագրում եւ պիտակավորում:
Տեքստի պիտակավորման ավարտից հետո Ե մոդուլը այն ինդեքսավրում է եւ դարձնում է մատչելի բոլոր օգտատերերի համար:
Տվյալների արտապատկերում
Մոդուլների այս բազմությունը` Ա, Բ, եւ Գ մոդուլներ, ապահովում է եզրային օգտատերերի (end-user) աշխատանքը կորպուսի տվյալների հետ: Մասնավորապես այն ապահովում է տարբեր տեսակի հայցումների ուղղորդումը դեպի շտեմարանի ինդեքս, վերադարձված տվյալների արտապատկերումը, փոխարկված տեքստի կապակցումը բնագրի հետ: Վերջին գործողությունը հիմնականում ձայնային պատկերների համար է, քանի որ լեզվաբանը հնարավորություն կստանա լսել տեքստի իրական արտասանությունը եւ շտկումներ կամ ավելի գիտակցված եզրակացություններ անել:
Comentarios