Ներածություն
Այս էջի նպատակն է նկարագրել այն գործիքները եւ գործընթացները, որոնք օգտակար են տեքստերի պատրաստմանը հաշվողական կիրառումների համար: Մասնավորապես, բնագրերի պատրաստմանը Գանձարանում եւ Կորպուսներում դարանելու (պահեստավորելու) եւ գործածելու համար:
Սկզբնաղբյուր
Հաջորդիվ շարադրության համար կարեվոր կլինի սկզբնաղբյուրի (source [code]) հասկացությունը: [Տեքստում շեղագիր հասկացությունները սահմանված են էջի վերջում:]
Սովորաբար բնագիրն ինքնաշխատ (automat) եւ ձեռաշխատ (manual) քայլերի մի երկար շարք է անցնում մինչեւ վերջնական գործածողին (end-user)` ՎԳ, համար արժեք ունեցող հաշվողական կիրառման մուտք դառնա: Օրինակ` կորպուսների տվյալները ա) մուտքագրվում են , բ) խմբագրվում` սխալների, վրիպակների ուղղում, եւ գ) ֆորմատավորվում` էջավորում, ձեւավորում, ևն: Բոլոր այս քայլերը կարող են ե՛ւ ինքնաշխատ, ե՛ւ ձեռաշխատ լինել: Մուտքագրումը կարող է իրականացվել ստեղնաշարի, օպտիկական կամ ձայնային ճանաչման համակարգերի օգնությամբ: Նմանապես վրիպակների ուղղումը կարող է տեխնիկական խմբագիրն կատրի կան սրբագրող ծրագիրը: Գործնականում ամեն քայլում ե՛ւ ինքնաշխատ, ե՛ւ ձեռաշխատ գործողություններ կատարվում:
Սկզբնաղբյուր կանվանենք մուտքագրված բնագրի այն տարբերակը, որը վերջին անգամ է մարդու կողմից ձեւափոխվել մինչեւ որ բացարձակպես ինքնաշխատ ձեւափոխությունների շարքով ՎԳ-ին ներկայցնելը:
Այլ կերտ ասած սկզբնաղբյուրը բնագրի այն տարբերակն է, որն առավելագույնս տեղեկույթ է պարունակում բնագրի մասին: Այս տարբերակից հետո տեղեկույթ չի ավելացվում եւ այդ պատճառով հաջորդ քայլերի տարբերակների դարանումը առանձնապես իմաստ չունի (կարելի է վիճել, որ երկար ընթացող, աշխատատար գործողությունների արդյունքները իմաստ ունի դարանել. սա քննարկման առանձին առարկա է` ամեն դեպքում այդ դարանման թե՛ միջոցները, թե՛ նպատակները այլ են):
Ձեռաշխատ վերափոխում
Ակնարկ
Սկզբնաղբյուրի ստեղծումը մի քանի նպատակ է հետապնդում`
Բնագրի մասին առավելագույնս տեղեկույթ ավելացնելը. որը չի վերարտադրվել ինքնաշխատ քայլերի ընթացքում:
Ավելացնել այնպիսի տեղեկույթ, որպեսզի ի վար ծառայությունները կարողանան տվյալների, տեղեկույթի ավելի որակյալ եւ ճշգրիտ արտապատկերում ապահովել:
Օրինակ` բառարանների մուտքագրումից հետո սովորաբար ուղղվում են վրիպակները, նշվում են էջերն ու սյուները, աղյուսակների կառուցվածքը, բնագրի ֆորմատավորումը, ևն: Մասնավորապես, բառարաններում, գիտական հրապարակումներում հաճախ պետք է լինում նշել համառոտագրության եւ բացատրության կապը, աղյուսակի վանդակները, ևն, որոնք քայքայվում են օպտիկ ճանաչման պարագայում:
Այդպիսի նշագրումը կարելի կատարել ընդհանրական նշագրման լեզուների միջոցով (ինչպիսին, օրինակ` XML-ն է) կամ ավելի պարզ, քչածավալ ad hoc (մասնավոր դեպքի համար) պայմանավորվածություններով:
Օրինակ
Տվյալների նշագրումը եւ զտումը
Աճառյանի ՀԱԲ-ի (ՀԱՅԵՐԵՆ ԱՐՄԱՏԱԿԱՆ ԲԱՌԱՐԱՆ), հիմնականում Ա հատորի պատրաստման ժամանակ կատարվել են հետեւյալ քայլերը`
E Քայլի համաձայն 37-76 էջերը պատճենվել են էլեկտրոնային աղյուսակ (spreadsheet)՝ սյունակները միավորելու համար.
Օպտիկական ճանաչման, տողադարձերի վերացման գործողություններից հետ, հապավումների էջերի խումբը կազմող ֆայլը (տես` User's Guide to OCR Data Pipeline, Step D. Cleansing data, Results եւ Step D. Cleansing data) համեմատվել է բնագրի հետ: Ուղղվել են վրիպակները եւ տեքստը ձեւափոխվել է այնպես, որ մեկ տողում լինի միայն մեկ սյան պարունակություն:
միասյուն, ուղղված պարունակությունը սփռվել է էլեկտրոնային աղյուսակի p.30-58, p.59-61, p.62-66, p.67-71, p.72 էջերը ներկայացնող ներդրուկներում (tabs):
ներդրուկի [միասյուն] պարունակությունը այբբենական կարգով դասավորելուց հետո համեմատաբար հեշտ բաժանվել է երկու` համառոտագրություն եւ բացատրություն, սյունակների: Բաժանման ժամանակ գործածվել է հետեւյալ նշագրումը`
մի քանի տողերում գրված նույն բացատրությունը ունեցող տարբեր համառոտագրությունները գրվել են մեկ տողում, բաժանվել կրկնակի ստորակետներով ',,', եւ համապատասխանեցվել ձեւավոր '{' փակագծով սկսվող բացատրությամբ:
մի քանի տողերում գրված մեկ համառոտագրությունը եւ համապատասխան բացատրությունը բերվել նույն տողի հարեւան բջիջներ:
համառոտագրությունների ու բացատրությունների (սահմանումների) երկու հարակից սյունակների մեջ տեղադրվել է կրկնակի հավասարության նշան '==', որով նշագրվում է համառոտագրություն - բացատրություն կապը:
"-:-" - անմիջապես վերեւի բջջի արժեքը:
"-||" - [պարբերության] կրկնակի նահանջ: Մեկ ուղղահայաց գծիկով կլինի մեկ նահամջ, երեքով երեք: Այս -||< նշաննը նույն է աջից ձախ գրված տեքստի համար: Գործածվում է այն դեպքում, երբ բնագրի նշագրումը բավարար տեղեկույթ չի պարունակում: [ՀԱԲ-ում կան դեպքեր, երբ պարբերության բոլոր տողերն են նահաջում, իսկ կան դեպքեր, երբ միայն առաջինը:]
երկու կամ ավել հաջորդական տողերում տրված մուտքերին մեկ/նույն բացատրությունն է տրվում եւ այդ փաստը նշվում է կոր փակագծով '}' տողերը միավորելով, ապա նրանք դրվում են մեկ տողում եւ բաժանվում են ուղղահայաց գիծ '|' նշանով: Նկարագրությունը սկսվում է կոր փակագծով '}';
Վերականգնվել են տողադարձի կամ 1.c կետի գործողություններից հետո վերացված էջերի նշագրումը: Սա պարտադիր քայլ չէ, քանի որ պարզ չէ ինչ կարեվորություն ունեն էջերը էլեկտրոնային տարբերակում: Սակայն, քանի որ էջերի ինքնաշխատ տեղադրումը եւ հեռացումը տեքստից աննշան ծախս է, համեմատ հետագայում ձեռաշխատ սկզբնաղբյուրում էջերի վերականգնմանը, նրանց պահպանումն արդարացված է: Բացի այդ էջերը նաեւ հարմար են սրբագրման (սկզբնաղբյուրում ձեւավորման) ժամանակ, ինչպես նաեւ էջանիշերի շուրջը սովորաբար եղած «աղբի հավաքման» համար: Էջը նշագրվում է տողադարձված բառից հետո:
Հեռացվել են տողադարձի հետեւանքով ավելացված 'ը' տառերը
Էլեկտրոնային աղյուսակի պարունակությունը վերադարձվել է տեքստային ֆայլ:
Համառոտագրությունների կազմվել է Աճառյանի բառարանին հատում համառոտագրությունների բառարան Armenian Parser-ի համար : Մի այլ բարարան էլ ստեղծվել է ՀԱԲ-ին հատուկ բառապաշարի համար:
Armenian Parser-ով հայտնաբերված վրիպակները ուղղելուց եւ հատորի պարունակությունը վերնայելուց հետո նրա POT (տես` User's Guide to OCR Data Pipeline, Overview հատվածը) ֆայլերը վերբեռնվել են GitHub:
Բնագրի նշագրումը
Մուտքերը կարող են սկսվել <բացատ>[+,*,-,\[, ○ (should be circle with dot in the center), ●] նշաններով:
^2 - superscript.
Բնագրի նշագրումը մանրամասորեն նկարագրված է Հ.Աճառյան. ՀԱԲ. ՅԱՌԱՋԱԲԱՆ-ում:
Եզրույթներ
Ինքնաշխատ (automat) գործողություն - ծրագրի կողմից առանց մարդկային ունակությունների ներգրավմամբ կատաված գործողություն
Ի վեր, ի վար [գործողություններ, ծառայություններ] - Տվյալների վերլուծման եւ ձեւափոխման բազմաքայլ տեղեկատարի այն քայլերը, որոնք տեղի են ունենում տվյալ քայլից առաջ կոչվում են ի վեր (ustream) գործառույթներ, ծառայություններ, ձեւափոխումներ, իսկ նրանից հետո` ի վար (downstream)
Ձեռաշխատ (manual) գործողություն - մարդու կողմից կամ մարդկային նեգրավածությամբ կատաված գործողություն
Սկզբնաղբյուր - մուտքագրված բնագրի այն տարբերակը, որը վերջին անգամ է մարդու կողմից ձեւափոխվել մինչեւ որ բացարձակպես ինքնաշխատ ձեւափոխությունների շարքով ՎԳ-ին ներկայցնելը
Տեղեկատար (pipeline) - ծառայությունների, կիրառումների, գործառույթների մի շարք, որը ակունքից մուտքային տեղեկույթը (սովորաբար ձեռաշխատ) հաջորդաբար ձեւափոխելով հասցնում է մինչեւ [գետա]բերան` սպառող ծառայություն (տես, օրինակ` OCR Data Pipeline)
Comments