top of page
aramhayr

Գանձարան

Updated: Nov 15




Ներածություն

Գանձարանը [Rog1852] միալեզու բառարան է, որն ի տարբերություն բացատրական բառարանի, պարունակում է իմաստույթների միջեւ եղած գոյաբանական (տրամաբա-նական)` հոմանիշ, հականիշ, գերանիշ, ևն, հարաբերությունները [Հայ2022::23, նաեւ Եզրույթներ]: Կոմպյուտերային (Էլեկտրոնային) Գանձարանում կպահենք նաեւ բացատրական եւ արմատական բառարաններին հատուկ տեղեկույթ` բառի (ձեւույթի կամ իմաստույթի) մասին քերականական` խոսքի մաս, հարացուցային ծառ, ևն [Հայ2022::216-217]: Բացի այդ, համարելով այլ լեզվով բառաձեւի թարգմանությունը նույնպես բառի նկարագրություն, Կոմպյուտերային Գանձարանում կընդգրկենք երկ- եւ բազմալեզու բառարանները:

Կարճ ասած, Կոմպյուտերային Գանձարանը բառաձեւերի մասին ամփոփ եւ սպարիչ տեղեկույթի շտեմարան է:

Սակայն դա` տվյալների հարստությունը, Կոմպյուտերային Գանձարանի հատկանիշներից միայն մեկն է: Օգտվելով կոմպյուտերների հաշվողական հնարավորություններից, մենք Կոմպյուտերային Գանձարանը կդարձնենք լեզվի (առաջին հերթին` բառանյութի) ուսումնասիրման գործիք:

Ամեն անգամ չթվարկելու համար Գանձարանի հոդվածի առարկայի տեսակը` ձեւույթ, բառ, կամ իմաստույթ, դարձված, ևն հոդվածների առարկան կանվանենք մուտք: Օրինակ` չ- մուտք, գարուն մուտք, -ություն մուտք, ամեն ոք մուտք:

Էլեկտրոնային գանձարանը տարբեր տեսակի բառարանների (Բառարանագրություն, Բանասիրական (լեզվաբանական) բառարաններ հատվածը) համակցություն է: Այն պարունակում է բազմակողմանի եւ սպառիչ տեղեկություն ամեն մի մուտքի մասին:

Գանձարանում գրառման միավորը քարտն է, որը ձեւույթի [Հայ2022::351] կամ իմաստույթի [Հայ2022::342], այսինքն` մուտքի, նկարագրությունն է: Կարելի է ասել, որ Գանձարանը իմաստույթների (բառերի), որոնց նկարագրությունը Գանձարանի հիմական նպատակն է, լեմմաների [Հայ2022::343] վերաբերական քարտարան է:

Էլեկտրոնային գանձարանը թե բովանդակության ծավալով, եւ թե ֆունկցիաների զանազա-նությամբ գերակա է դասական, «թղթե» գանձարանից [Rog1852]: Մանրամասները տես` Բառարանային ձեւերի գանձարան 16.1 հատվածում [Հայ2022::216-217]:

Գանձարանը բառագետի աշխատանոց (լաբորատորիա) է [Հայ2022::222-223] եւ ուսանման գործիք:


Տվյալների կառուցվածքը

Քարտ

Քարտը տվյալների մի կառույց է, որում արձանագրվում են մուտքի հատկանիշները:

Պարտադիր հատկանիշներն են անվանումը, տեսակը` պիտակի տեսքով, եւ նշանակությունները:

Տվյալների ներոբերյալ սխեմաների հիմնական նպատակը տվյալների վերաբերությունների նկարագրությունն է:

Ոչ ինքնուրույն ձեւույթների քարտը

ված~

{"structure":["վ",  "ած"],

   "tags": {"POX.ADJ":[], "POX.RSTL.PV":[] }

}

Այս քարտը հատկանշում է այն փաստը, որ ված-ը երկու տեսակի վերջածանցի (POX) դեր է կատարում` ածականական (ADJ) եւ նախընթացական (RSTL) կրավորական (PV):

Ինքնուրույն ձեւույթների քարտը

շարունակ~

{"structure":["շար", "ունակ"], // [Հայ2022::107] 

   "tags":{"STM.DUAL":{"trees":{ // Տեսակները եւ գաղափարը տես`  [Հայ2022::124] 

            "tree1":{ "$3":"<string>","$4":"<string>", "$5":"<string>"} } },

      "family":"", // [Հայ2022::117] 

      "constraints":[ ],

      "meaning":[ ],

      "uninym":[ ], // ԸՀ-ներ [Հայ2022::206]

      "constraints":[ ], // [Հայ2022::121] 

      "meaning":[ ],

      "uninym":[ ], // ԸՀ-ներ [Հայ2022::206]

      "dialect":["GR.CL","GR.ALT","EA.ARA","WA.POL","etc."]

   },

   "ADV":{"trees":{

            "tree1":{ "$3":"<string>","$4":"<string>", "$5":"<string>"} } },

   "family":"",

   "meaning":[],

   "uninym":[],

   "dialect":["GR.CL","GR.ALT","EA.ARA","WA.POL","etc."]

}

Ծառերում նշված` $3, $4, ևն փոփոխակաները կառավարում են տեքստային ձեւեր սերող համակարգի հաշվարկումները: Նկարագրության մեջ չնշված $1 եւ $2 փոփոխակաները համապատասխանում են ձեւույթին եւ պիտակին: Այս համատեքստում դրանք չենք դիտարկում:

Իմաստույթների քարտը 

Այս դաշտերը նաեւ ինքնուրույն ձեւույթներին են վերաբերում, քանի որ դրանք իմաստույթներ են: Նախորդ քարտը պարունակում է, հիմնականում, ձեւույթներին հատուկ ձեւաբանական տեղեկույթ, մինչդեռ ստորեւ բերված դաշտերը արտահայտության պլանին են բնորոշ:

"ipa" : "ʃɑɻunɑk" // Տես` [IPA] եւ [IPA Հայերեն] ստորեւ

“pronunciation“ : 

"example" : // Գործածման օրինակներ  (տես` meaning)

“origin” : “...” // ծագման լեզուն 

“from” : “...” // փոխառման լեզուն 

“first-date” : “...” // ամենահին գործածման ամսաթիվը

“recent-date” : “...” // ամենանոր գործածման ամսաթիվը

“first-source” : “...” // ամենահին գործածման աղբյուրը

“recent-source” : “...” // ամենանոր գործածման աղբյուրը

"declension" : // [Հայ2022::124] 

"conjugation" :  // [Հայ2022::125] 

"generation" :  // [Հայ2022::127] 

"signature" :  // [Հայ2022::164]. Որպես բառակապակցության գլխավոր անդամի

"synonym" : []

"antonym" : []

"holonym" : 

"hypernym" :

"metonym" :   // [Հայ2022::359] Վերանիշ (վերանուն)

Ստորեւ բերված տեղեկույթը կքաղվի տարբեր բառարաններից առանձին ֆայլերում (գրառումներում): Սրանց կապը գանձարանի քարտերի հետ կլինի բառը: 

“lexicography” : [

“source” :  // Բառարանի անունը (կամ կոդը` ID)

“description” :  // Նկարագրությունը բառարանից 

“comment” :  // Լեզվաբանի մեկնություն

“approved” :  // Լեզվաբանի հաստատում, որ ձեւույթը կարելի է «ցույց» տալ օգտատերերին

]

Ամեն բառարան կունենա իրեն հատուկ JSON դաշտերը, որոնցից վերոնշվածները ընդհանուր են թվում: Օրինակ` [Աճա1926] սրանք է հատկանշում`

  1. Ա. բաժին. — Բառագիտութիւն. այս բաժնում իրար ետեւից դրւում են՝ 

    1. Արմատը (ամբողջովին գլխատառ գրուած):

    2. Հոլովման եւ խոնարհման ձեւերը։

    3. Բառի նշանակութիւնը (դրուած միշտ չակերտների մէջ)

    4. Վկայութիւնները

    5. Տարբեր գրչութիւնները

  2. Բ. բաժին. — Ստուգաբանութիւն. բառարանիս հիմնական եւ կարեւորագոյն մասն է. սկսւում է = նշանով. մանրամասն դրւում է արմատի ծագումը:

  3. Գ. բաժին. — Ստուգաբանութեանց բաժին

  4. Դ. բաժին.— Գաւառական ձեւեր. բառարանիս իւրայատուկ մասերից մէկն է այս բաժինը

 Գանձարանի հիմք կընդունենք [Աճա1926] քառահատորը, որին կավելացնենք (կմերձենք` merge) Wiktionary, Նայիրի, ևն բառարաններից տեղեկույթ (հումանիտար տեխնոլոգիաների կայքէջեր, Հայկական հատվածը):

Քարտերի սպասարկու տեղեկույթ

Շտեմարանի ամեն մի գրառում ունի այս սպասարկու տեղեկույթը`

“service” : [

“version” : 

“user” :  // Գործառույթը կատարած օգտատերը

“timestamp” : 

“type” :  “<created>/<updated>/<deleted>” 

“comment” :  // Գործառույթի մանրամասները

]

Շտեմարանի կառուցվածքը

Շտեմարանի կառուցվածքային ճարտարապետության հիմքում դրված է տեղեկույթի արձակ զուգորդումը (loose coupling): Ամեն բառարանի տեղեկույթը առանձին, մեկուսացված բազմություն է, որի մուտքերը տեղեկություն չունեն, «չգիտեն» շտեմարանի մյուս տվյալների մասին (եթե իհարկէ այն բառարանային մուտքի բովանդակության, բացատրության մաս չէ):

Տեխնիկական իրացման տեսանկյունից այն մուտքային JSON-ների NoSQL շտեմարան է: Շտեմարանի տրամաբանական կառուցվածքը կարելի է պատկերել որպես բառարանների տվյալների պանակներ, որոնցում տեղադրված են մուտքերի JSON-ները: Միգուցե պանակների եւս մեկ շերտ օգտակար կլինի, օրինակ` «ներածություն», «բառարանի գործածում», «համառոտագրություններ», «[բուն] բովանդակություն», ևն,


Գործառույթները եւ գործածումները

Գանձարանը ձեւույթների եւ իմաստույթների քարտադարան է: Ամեն մուտք մի քարտ է [Հայ2022::121-123], որը պարունակում է քերականական, գոյաբանական, ստուգաբանական, ևն տեղեկություններ: Այս տեղեկույթը մատչելի է օգտատերերին (Բառագետ, Հետազոտող, Ուսա-նող, [Ճշմարտություն] Որոնող, ևն), որոնցից մի տեսակը` բառագետը, ունի արտոնություն քար-տի պարունակությունը փոխելու (շտկելու):

Գանձարանի տեղեկույթից սերվում են տեքստային ձեւերը իրենց համապատասխանող լեմ-մաների եւ պիտակների հետ: Ինչպես եւ բառարանային ձեւին, մի տեքստային ձեւին կարող է լեմմա-պիտակներ մի քանի զույգեր համապատասխանեն:

Ստորեւ բերված գծագրում ներկայացված են Գանձարանի հիմնական շերտերը եւ նրանց գործառույթները: 


Գանձարանի մոդուլները

Գանձարանը եռաշերտ համակարգ է`

  1. Տվյալների Շտեմարան - ամեն մի մուտք կպահվի JSON կառուցվածքում. Տվյալները կգըր-վեն բառարաններից եւ կորպուսներից: Վերջիններից կքաղվի այն բառամթերքը, որը դեռ չկա Շտեմարանում, եւ կներկայացվի Բառագետին խմբագրման եւ հաստատման համար:

  2. Հաշվարկում - շերտի նպատակները եւ գործառույթները պարզ են գծագրված մոդուլներից:

  3. Օգտատերի միջերես - հիմնական գործառույթը հայցված բառի նկարագրությունն է, ո-րում քարտի տեղեկույթին կավելացվեն ածանցյալ, օրինակ` հարացուցային ձեւերը:  Հե-տազոտողների համար կարելի նաեւ հատուկ հայցումներ նախատեսել` տես Լեզվաբանի աշխատանոց 16.8 հատվածը [Հայ2022];

Գանձարանի պարունակությունը համալրվում է երկու աղբյուրներից` ա) պարզ տեքստային (plain text) ֆայլով ներկայացված բառարաններից OCR Data Pipeline միջոցով, բ) կորպուս-ներից (ենթադրվում է, որ առցանց կայքէջերը (օրինակ` էլեկտրոնային թերթերը, այլ հրապա-րակումները), բլոգերը, սոցիալական ցանցերի գրառումները, ևն համապատասխան կոր-պուսներում են ընդգրկված): Կորպուսներից եկող բառը ուսումնասիրվում է բառագետի կող-մից. նա է որոշում թե բացակա բառը պետք է ընդգրկվի Գանձարանում: Որոշումը ոչ թե բառա-գետի անձնական կարծիքով է պայմանավորվում, այլ համապատասխան գիտական պա-հանջներով:

Մուտքային տեղեկույթը ձեւափոխվում է քարտի (տես նույնանուն հատվածը վերեւում), որը դարանվում է շտեմարանում (քարտադարանում):

Գծագրում բերված ճարտարապետությունը կիրառելի է նաեւ կորպուսներին: Ժամանակաից էլեկտրոնային Գանձարանը բառարանների կորպուս է (ուր կմութքագրվեն ՆԱՅԻՐԻ բառա-րանների եւ այլ աղբյուրների բառատաղձը):

Ամփոփում

Էլեկտրոնային գանձարանը գործիք է առաջին հերթին բառագետների եւ լեզվաբանների համար: Այն ոչ միայն «թղթե» գանձարանի ավելի ծավալուն, բովանդակալից, եւ հարմար ուսումնասիրությունների աղբյուր է, այլ սկզբունքորեն նոր տեսակի գործիք:

Նրա արժեքը բացի սովորական գանձարանից «ավելի լավ» գանձարան լինելուց բացի, նաեւ Լեզվաբանի Աշխատանոց համակարգի հիմնական մոդուլներից մեկն է: Այսինքն այն պետք է ունենա եւ ՕՄ (IU) եւ ԾՄ (ծրագրավորողական միջերես` API):

Առաջարկված համակարգի ճարտարապետության առավելություններից կարեվորագույնը այն է, որ ոչ տվյալների շտեմարանը, ոչ էլ ՕՄ եւ ԾՄ «տեղյակ չեն» լեզվից: Լեզուները ասպարեզ են մտնում տվյալների տեսքով եւ օգտատերերի կամ հաշվողական ծառայությունների ՕՄ եւ ԾՄ հայցումներով (կանչերով):


Գրականություն

[Rog1852] P.M. Roget. Thesaurus of English Words and Phrases, 1852 (1879, slightly abridged, ed. J.L. Roget, London). Avenel Books, (Crown publishers), NY. 1988.

[IPA Հայերեն] IPA/Armenian

[Աճա1926] Հր. Աճառյան. Հայերեն արմատական բառարան. Երեւանի հա­մալ­սա­րանի հրա­­տա­րակչություն, Ե., 1926։ Յառաջաբան




26 views0 comments

Recent Posts

See All

Commentaires


bottom of page