top of page
aramhayr

Բնագրի վերածումը մուտքային տվյալների

Updated: Nov 15





Ներածություն

Այս էջի նպատակն է նկարագրել այն գործիքները եւ գործընթացները, որոնք օգտակար են տեքստերի պատրաստմանը հաշվողական կիրառումների համար: Մասնավորապես, բնագրերի պատրաստմանը Գանձարանում եւ Կորպուսներում դարանելու (պահեստավորելու) եւ գործածելու համար:

Սկզբնաղբյուր

Հաջորդիվ շարադրության համար կարեվոր կլինի սկզբնաղբյուրի (source [code]) հասկացությունը: [Տեքստում շեղագիր հասկացությունները սահմանված են էջի վերջում:]

Սովորաբար բնագիրն ինքնաշխատ (automat) եւ ձեռաշխատ (manual) քայլերի մի երկար շարք է անցնում մինչեւ վերջնական գործածողին (end-user)` ՎԳ, համար արժեք ունեցող հաշվողական կիրառման մուտք դառնա: Օրինակ` կորպուսների տվյալները ա) մուտքագրվում են , բ) խմբագրվում` սխալների, վրիպակների ուղղում, եւ գ) ֆորմատավորվում` էջավորում, ձեւավորում, ևն: Բոլոր այս քայլերը կարող են ե՛ւ  ինքնաշխատ, ե՛ւ  ձեռաշխատ լինել: Մուտքագրումը կարող է իրականացվել ստեղնաշարի, օպտիկական կամ ձայնային ճանաչման համակարգերի օգնությամբ: Նմանապես վրիպակների ուղղումը կարող է տեխնիկական խմբագիրն կատրի կան սրբագրող ծրագիրը: Գործնականում ամեն քայլում ե՛ւ  ինքնաշխատ, ե՛ւ  ձեռաշխատ գործողություններ կատարվում:

Սկզբնաղբյուր կանվանենք մուտքագրված բնագրի այն տարբերակը, որը վերջին անգամ է մարդու կողմից ձեւափոխվել մինչեւ որ բացարձակպես ինքնաշխատ ձեւափոխությունների շարքով ՎԳ-ին ներկայցնելը:

Այլ կերտ ասած սկզբնաղբյուրը բնագրի այն տարբերակն է, որն առավելագույնս տեղեկույթ է պարունակում բնագրի մասին: Այս տարբերակից հետո տեղեկույթ չի ավելացվում եւ այդ պատճառով հաջորդ քայլերի տարբերակների դարանումը առանձնապես իմաստ չունի (կարելի է վիճել, որ երկար ընթացող, աշխատատար գործողությունների արդյունքները իմաստ ունի դարանել. սա քննարկման առանձին առարկա է` ամեն դեպքում այդ դարանման թե՛ միջոցները, թե՛ նպատակները այլ են):

Ձեռաշխատ վերափոխում

Ակնարկ

Սկզբնաղբյուրի ստեղծումը մի քանի նպատակ է հետապնդում`

  1. Բնագրի մասին առավելագույնս տեղեկույթ ավելացնելը. որը չի վերարտադրվել ինքնաշխատ քայլերի ընթացքում:

  2. Ավելացնել այնպիսի տեղեկույթ, որպեսզի ի վար ծառայությունները կարողանան տվյալների, տեղեկույթի ավելի որակյալ եւ ճշգրիտ արտապատկերում ապահովել:

Օրինակ` բառարանների մուտքագրումից հետո սովորաբար ուղղվում են վրիպակները, նշվում են էջերն ու սյուները, աղյուսակների կառուցվածքը, բնագրի ֆորմատավորումը, ևն: Մասնավորապես, բառարաններում, գիտական հրապարակումներում հաճախ պետք է լինում նշել համառոտագրության եւ բացատրության կապը, աղյուսակի վանդակները, ևն, որոնք քայքայվում են օպտիկ ճանաչման պարագայում:

Այդպիսի նշագրումը կարելի կատարել ընդհանրական նշագրման լեզուների միջոցով (ինչպիսին, օրինակ` XML-ն է) կամ ավելի պարզ, քչածավալ ad hoc (մասնավոր դեպքի համար) պայմանավորվածություններով:

Օրինակ

Տվյալների նշագրումը եւ զտումը

Աճառյանի ՀԱԲ-ի (ՀԱՅԵՐԵՆ ԱՐՄԱՏԱԿԱՆ ԲԱՌԱՐԱՆ), հիմնականում Ա հատորի պատրաստման ժամանակ կատարվել են հետեւյալ քայլերը`

  1. E Քայլի համաձայն 37-76 էջերը պատճենվել են էլեկտրոնային աղյուսակ (spreadsheet)՝ սյունակները միավորելու համար.

    1. Օպտիկական ճանաչման, տողադարձերի վերացման գործողություններից հետ, հապավումների էջերի խումբը կազմող ֆայլը (տես` User's Guide to OCR Data Pipeline, Step D. Cleansing data, Results եւ Step D. Cleansing data) համեմատվել է բնագրի հետ: Ուղղվել են վրիպակները եւ տեքստը ձեւափոխվել է այնպես, որ մեկ տողում լինի միայն մեկ սյան պարունակություն:

    2. միասյուն, ուղղված պարունակությունը սփռվել է էլեկտրոնային աղյուսակի p.30-58, p.59-61, p.62-66, p.67-71, p.72 էջերը ներկայացնող ներդրուկներում (tabs):

    3. ներդրուկի [միասյուն] պարունակությունը այբբենական կարգով դասավորելուց հետո համեմատաբար հեշտ բաժանվել է երկու` համառոտագրություն եւ բացատրություն, սյունակների: Բաժանման ժամանակ գործածվել է հետեւյալ նշագրումը`

      1. մի քանի տողերում գրված նույն բացատրությունը ունեցող տարբեր համառոտագրությունները գրվել են մեկ տողում, բաժանվել կրկնակի ստորակետներով ',,', եւ համապատասխանեցվել ձեւավոր '{' փակագծով սկսվող բացատրությամբ:

      2. մի քանի տողերում գրված մեկ համառոտագրությունը եւ համապատասխան բացատրությունը բերվել նույն տողի հարեւան բջիջներ:

    4. համառոտագրությունների ու բացատրությունների (սահմանումների) երկու հարակից սյունակների մեջ տեղադրվել է կրկնակի հավասարության նշան '==', որով նշագրվում է համառոտագրություն - բացատրություն կապը:

    5. "-:-" - անմիջապես վերեւի բջջի արժեքը:

    6. "-||" - [պարբերության] կրկնակի նահանջ: Մեկ ուղղահայաց գծիկով կլինի մեկ նահամջ, երեքով երեք: Այս -||< նշաննը նույն է աջից ձախ գրված տեքստի համար: Գործածվում է այն դեպքում, երբ բնագրի նշագրումը բավարար տեղեկույթ չի պարունակում: [ՀԱԲ-ում կան դեպքեր, երբ պարբերության բոլոր տողերն են նահաջում, իսկ կան դեպքեր, երբ միայն առաջինը:]

    7. երկու կամ ավել հաջորդական տողերում տրված մուտքերին մեկ/նույն բացատրությունն է տրվում եւ այդ փաստը նշվում է կոր փակագծով '}' տողերը միավորելով, ապա նրանք դրվում են մեկ տողում եւ բաժանվում են ուղղահայաց գիծ '|' նշանով: Նկարագրությունը սկսվում է կոր փակագծով '}';

  2. Վերականգնվել են տողադարձի կամ 1.c կետի գործողություններից հետո վերացված էջերի նշագրումը: Սա պարտադիր քայլ չէ, քանի որ պարզ չէ ինչ կարեվորություն ունեն էջերը էլեկտրոնային տարբերակում: Սակայն, քանի որ էջերի ինքնաշխատ տեղադրումը եւ հեռացումը տեքստից աննշան ծախս է, համեմատ հետագայում ձեռաշխատ սկզբնաղբյուրում էջերի վերականգնմանը, նրանց պահպանումն արդարացված է: Բացի այդ էջերը նաեւ հարմար են սրբագրման (սկզբնաղբյուրում ձեւավորման) ժամանակ, ինչպես նաեւ էջանիշերի շուրջը սովորաբար եղած «աղբի հավաքման» համար: Էջը նշագրվում է տողադարձված բառից հետո:

  3. Հեռացվել են տողադարձի հետեւանքով ավելացված 'ը' տառերը

  4. Էլեկտրոնային աղյուսակի պարունակությունը վերադարձվել է տեքստային ֆայլ:

  5. Համառոտագրությունների կազմվել է Աճառյանի բառարանին հատում համառոտագրությունների բառարան Armenian Parser-ի համար : Մի այլ բարարան էլ ստեղծվել է ՀԱԲ-ին հատուկ բառապաշարի համար:

  6. Armenian Parser-ով հայտնաբերված վրիպակները ուղղելուց եւ հատորի պարունակությունը վերնայելուց հետո նրա POT (տես` User's Guide to OCR Data Pipeline, Overview հատվածը) ֆայլերը վերբեռնվել են GitHub:

Բնագրի նշագրումը

  1. Մուտքերը կարող են սկսվել <բացատ>[+,*,-,\[, ○ (should be circle with dot in the center), ] նշաններով:

  2. ^2 - superscript.

Բնագրի նշագրումը մանրամասորեն նկարագրված է Հ.Աճառյան. ՀԱԲ. ՅԱՌԱՋԱԲԱՆ-ում:

Եզրույթներ

Ինքնաշխատ (automat) գործողություն - ծրագրի կողմից առանց մարդկային ունակությունների ներգրավմամբ կատաված գործողություն

Ի վեր, ի վար [գործողություններ, ծառայություններ] - Տվյալների վերլուծման եւ ձեւափոխման բազմաքայլ տեղեկատարի այն քայլերը, որոնք տեղի են ունենում տվյալ քայլից առաջ կոչվում են ի վեր (ustream) գործառույթներ, ծառայություններ, ձեւափոխումներ, իսկ նրանից հետո` ի վար (downstream)

Ձեռաշխատ (manual) գործողություն - մարդու կողմից կամ մարդկային նեգրավածությամբ կատաված գործողություն

Սկզբնաղբյուր - մուտքագրված բնագրի այն տարբերակը, որը վերջին անգամ է մարդու կողմից ձեւափոխվել մինչեւ որ բացարձակպես ինքնաշխատ ձեւափոխությունների շարքով ՎԳ-ին ներկայցնելը

Տեղեկատար (pipeline) - ծառայությունների, կիրառումների, գործառույթների մի շարք, որը ակունքից մուտքային տեղեկույթը (սովորաբար ձեռաշխատ) հաջորդաբար ձեւափոխելով հասցնում է մինչեւ [գետա]բերան` սպառող ծառայություն (տես, օրինակ` OCR Data Pipeline)


2 views0 comments

Recent Posts

See All

Comments


bottom of page