Գանձարան
- aramhayr
- Aug 18, 2024
- 6 min read
Updated: Jun 17
Ներածություն
Գանձարանը [Rog1852] միալեզու բառարան է, որն ի տարբերություն բացատրական բառարանի, պարունակում է իմաստույթների միջեւ եղած գոյաբանական (տրամաբա-նական)` հոմանիշ, հականիշ, գերանիշ, ևն, հարաբերությունները [Հայ2022::23, նաեւ Եզրույթներ]: Դժվար է Ռոժեից ավելի լավ բացատրել, թե ինչ է Գանձարանը. «Այս Աշխատությունը նախատեսված է անգլերեն լեզվի մի պահանջ բավարարելու համար, ինչը մինչ այժմ չի կատարվել որեւէ այլ լեզվի դեպքում, այն է՝ լեզվում պարունակվող բառերի եւ նրանց հատուկ դարձվածային համադրությունների հավաքածու ստեղծել, որտեղ դրանք դասավորված են ոչ թե այբբենական կարգով, ինչպես բառարանում, այլ ըստ արտահայտած գաղափարների։ Սովորական բառարանի նպատակն է պարզապես բացատրել բառերի իմաստը: Այն խնդիրը, որ բառարանը լուծում է, հետեւյալ կերպ կարելի է ձեւակերպել` տրված բառի նշանակությունը կամ փոխանցվող գաղափարի միտումը։ Մինչդեռ ներկայիս ձեռնարկման նպատակը հենց դրա հակառակն է` տրված գաղափարի համար գտնել այն բառը կամ բառերը, որոնց միջոցով այդ գաղափարը կարող է առավել ճշգրիտ եւ համարժեք արտահայտվել։ Այս նպատակով լեզվի բառերն ու արտահայտությունները դասակարգվում են ոչ թե ըստ իրենց հնչողության կամ ուղղագրության, այլ բացառապես ըստ իրենց նշանակության» [Rog1852::xiii]:
Այլ կերպ ասած Գանձարանը հակադարձ Բացատրական բառարան է:
Կոմպյուտերային (Էլեկտրոնային) Գանձարանում կպահենք նաեւ բացատրական եւ արմատական բառարաններին հատուկ տեղեկույթ` բառի (ձեւույթի կամ իմաստույթի) մասին քերականական` խոսքի մաս, հարացուցային ծառ, ևն [Հայ2022::216-217]: Բացի այդ Կոմպյուտերային Գանձարանում կընդգրկենք երկ- եւ բազմալեզու բառարանները: Բառաձեւի թարգմանությունը նույնպես կհամարենք բառի նկարագրություն,
Կարճ ասած, Կոմպյուտերային Գանձարանը բառաձեւերի մասին ամփոփ եւ սպարիչ տեղեկույթի շտեմարան է:
Սակայն դա` տվյալների հարստությունը, Կոմպյուտերային Գանձարանի հատկանիշներից միայն մեկն է: Օգտվելով կոմպյուտերների հաշվողական հնարավորություններից, մենք Կոմպյուտերային Գանձարանը կդարձնենք լեզվի (առաջին հերթին` բառանյութի) ուսումնասիրման գործիք:
Ամեն անգամ չթվարկելու համար Գանձարանի հոդվածի առարկայի տեսակը` ձեւույթ, բառ, կամ իմաստույթ, դարձված, ևն հոդվածների առարկան կանվանենք մուտք: Օրինակ` չ- մուտք, գարուն մուտք, -ություն մուտք, ամեն ոք մուտք:
Էլեկտրոնային գանձարանը տարբեր տեսակի բառարանների (Բառարանագրություն, Բանասիրական (լեզվաբանական) բառարաններ հատվածը) համակցություն է: Այն պարունակում է բազմակողմանի եւ սպառիչ տեղեկություն ամեն մի մուտքի մասին:
Գանձարանում գրառման միավորը քարտն է, որը ձեւույթի [Հայ2022::351] կամ իմաստույթի [Հայ2022::342], այսինքն` մուտքի, նկարագրությունն է: Կարելի է ասել, որ Գանձարանը իմաստույթների (բառերի), որոնց նկարագրությունը Գանձարանի հիմական նպատակն է, լեմմաների [Հայ2022::343] վերաբերական քարտարան է:
Էլեկտրոնային գանձարանը թե բովանդակության ծավալով, եւ թե ֆունկցիաների զանազա-նությամբ գերակա է դասական, «թղթե» գանձարանից [Rog1852]: Մանրամասները տես` Բառարանային ձեւերի գանձարան 16.1 հատվածում [Հայ2022::216-217]:
Գանձարանը բառագետի աշխատանոց (լաբորատորիա) է [Հայ2022::222-223] եւ ուսանման գործիք:
Տվյալների կառուցվածքը
Քարտ
Քարտը տվյալների մի կառույց է, որում արձանագրվում են մուտքի հատկանիշները:
Պարտադիր հատկանիշներն են անվանումը, տեսակը` պիտակի տեսքով, եւ նշանակությունները:
Տվյալների ներոբերյալ սխեմաների հիմնական նպատակը տվյալների վերաբերությունների նկարագրությունն է:
Ոչ ինքնուրույն ձեւույթների քարտը
ված~
{"structure":["վ", "ած"],
"tags": {"POX.ADJ":[], "POX.RSTL.PV":[] }
}
Այս քարտը հատկանշում է այն փաստը, որ ված-ը երկու տեսակի վերջածանցի (POX) դեր է կատարում` ածականական (ADJ) եւ նախընթացական (RSTL) կրավորական (PV):
Ինքնուրույն ձեւույթների քարտը
շարունակ~
{"structure":["շար", "ունակ"], // [Հայ2022::107]
"tags":{"STM.DUAL":{"trees":{ // Տեսակները եւ գաղափարը տես` [Հայ2022::124]
"tree1":{ "$3":"<string>","$4":"<string>", "$5":"<string>"} } },
"family":"", // [Հայ2022::117]
"constraints":[ ],
"meaning":[ ],
"uninym":[ ], // ԸՀ-ներ [Հայ2022::206]
"constraints":[ ], // [Հայ2022::121]
"meaning":[ ],
"uninym":[ ], // ԸՀ-ներ [Հայ2022::206]
"dialect":["GR.CL","GR.ALT","EA.ARA","WA.POL","etc."]
},
"ADV":{"trees":{
"tree1":{ "$3":"<string>","$4":"<string>", "$5":"<string>"} } },
"family":"",
"meaning":[],
"uninym":[],
"dialect":["GR.CL","GR.ALT","EA.ARA","WA.POL","etc."]
}
Ծառերում նշված` $3, $4, ևն փոփոխակաները կառավարում են տեքստային ձեւեր սերող համակարգի հաշվարկումները: Նկարագրության մեջ չնշված $1 եւ $2 փոփոխակաները համապատասխանում են ձեւույթին եւ պիտակին: Այս համատեքստում դրանք չենք դիտարկում:
Իմաստույթների քարտը
Այս դաշտերը նաեւ ինքնուրույն ձեւույթներին են վերաբերում, քանի որ դրանք իմաստույթներ են: Նախորդ քարտը պարունակում է, հիմնականում, ձեւույթներին հատուկ ձեւաբանական տեղեկույթ, մինչդեռ ստորեւ բերված դաշտերը արտահայտության պլանին են բնորոշ:
“pronunciation“ :
"example" : // Գործածման օրինակներ (տես` meaning)
“origin” : “...” // ծագման լեզուն
“from” : “...” // փոխառման լեզուն
“first-date” : “...” // ամենահին գործածման ամսաթիվը
“recent-date” : “...” // ամենանոր գործածման ամսաթիվը
“first-source” : “...” // ամենահին գործածման աղբյուրը
“recent-source” : “...” // ամենանոր գործածման աղբյուրը
"declension" : // [Հայ2022::124]
"conjugation" : // [Հայ2022::125]
"generation" : // [Հայ2022::127]
"signature" : // [Հայ2022::164]. Որպես բառակապակցության գլխավոր անդամի
"synonym" : []
"antonym" : []
"holonym" :
"hypernym" :
"metonym" : // [Հայ2022::359] Վերանիշ (վերանուն)
Ստորեւ բերված տեղեկույթը կքաղվի տարբեր բառարաններից առանձին ֆայլերում (գրառումներում): Սրանց կապը գանձարանի քարտերի հետ կլինի բառը:
“lexicography” : [
“source” : // Բառարանի անունը (կամ կոդը` ID)
“description” : // Նկարագրությունը բառարանից
“comment” : // Լեզվաբանի մեկնություն
“approved” : // Լեզվաբանի հաստատում, որ ձեւույթը կարելի է «ցույց» տալ օգտատերերին
]
Ամեն բառարան կունենա իրեն հատուկ JSON դաշտերը, որոնցից վերոնշվածները ընդհանուր են թվում: Օրինակ` [Աճա1926] սրանք է հատկանշում`
Ա. բաժին. — Բառագիտութիւն. այս բաժնում իրար ետեւից դրւում են՝
Արմատը (ամբողջովին գլխատառ գրուած):
Հոլովման եւ խոնարհման ձեւերը։
Բառի նշանակութիւնը (դրուած միշտ չակերտների մէջ)
Վկայութիւնները
Տարբեր գրչութիւնները
Բ. բաժին. — Ստուգաբանութիւն. բառարանիս հիմնական եւ կարեւորագոյն մասն է. սկսւում է = նշանով. մանրամասն դրւում է արմատի ծագումը:
Գ. բաժին. — Ստուգաբանութեանց բաժին
Դ. բաժին.— Գաւառական ձեւեր. բառարանիս իւրայատուկ մասերից մէկն է այս բաժինը
Գանձարանի հիմք կընդունենք [Աճա1926] քառահատորը, որին կավելացնենք (կմերձենք` merge) Wiktionary, Նայիրի, ևն բառարաններից տեղեկույթ (հումանիտար տեխնոլոգիաների կայքէջեր, Հայկական հատվածը):
Քարտերի սպասարկու տեղեկույթ
Շտեմարանի ամեն մի գրառում ունի այս սպասարկու տեղեկույթը`
“service” : [
“version” :
“user” : // Գործառույթը կատարած օգտատերը
“timestamp” :
“type” : “<created>/<updated>/<deleted>”
“comment” : // Գործառույթի մանրամասները
]
Շտեմարանի կառուցվածքը
Շտեմարանի կառուցվածքային ճարտարապետության հիմքում դրված է տեղեկույթի արձակ զուգորդումը (loose coupling): Ամեն բառարանի տեղեկույթը առանձին, մեկուսացված բազմություն է, որի մուտքերը տեղեկություն չունեն, «չգիտեն» շտեմարանի մյուս տվյալների մասին (եթե իհարկէ այն բառարանային մուտքի բովանդակության, բացատրության մաս չէ):
Տեխնիկական իրացման տեսանկյունից այն մուտքային JSON-ների NoSQL շտեմարան է: Շտեմարանի տրամաբանական կառուցվածքը կարելի է պատկերել որպես բառարանների տվյալների պանակներ, որոնցում տեղադրված են մուտքերի JSON-ները: Միգուցե պանակների եւս մեկ շերտ օգտակար կլինի, օրինակ` «ներածություն», «բառարանի գործածում», «համառոտագրություններ», «[բուն] բովանդակություն», ևն,
Գործառույթները եւ գործածումները
Գանձարանը ձեւույթների եւ իմաստույթների քարտադարան է: Ամեն մուտք մի քարտ է [Հայ2022::121-123], որը պարունակում է քերականական, գոյաբանական, ստուգաբանական, ևն տեղեկություններ: Այս տեղեկույթը մատչելի է օգտատերերին (Բառագետ, Հետազոտող, Ուսա-նող, [Ճշմարտություն] Որոնող, ևն), որոնցից մի դերակատարը` Բառագետը, ունի քարտի պարունակությունը փոխելու (շտկելու) արտոնություն:
Գանձարանի տեղեկույթից սերվում են տեքստային ձեւերը իրենց համապատասխանող լեմ-մաների եւ պիտակների հետ: Ինչպես եւ բառարանային ձեւին, մի տեքստային ձեւին կարող են լեմմա-պիտակներ մի քանի զույգեր համապատասխանել:
Ստորեւ բերված գծագրում ներկայացված են Գանձարանի հիմնական շերտերը եւ նրանց գործառույթները:

Գանձարանի մոդուլները
Գանձարանը եռաշերտ համակարգ է`
Տվյալների Շտեմարան - ամեն մի մուտք կպահվի JSON կառուցվածքում. Տվյալները կգըր-վեն բառարաններից եւ կորպուսներից: Վերջիններից կքաղվի այն բառամթերքը, որը դեռ չկա Շտեմարանում, եւ կներկայացվի Բառագետին խմբագրման եւ հաստատման համար:
Հաշվարկում - շերտի նպատակները եւ գործառույթները պարզ են գծագրված մոդուլներից:
Օգտատերի միջերես - հիմնական գործառույթը հայցված բառի նկարագրությունն է, ո-րում քարտի տեղեկույթին կավելացվեն ածանցյալ, օրինակ` հարացուցային ձեւերը: Հե-տազոտողների համար կարելի նաեւ հատուկ հայցումներ նախատեսել` տես Լեզվաբանի աշխատանոց 16.8 հատվածը [Հայ2022];
Գանձարանի պարունակությունը համալրվում է երկու աղբյուրներից` ա) պարզ տեքստային (plain text) ֆայլով ներկայացված բառարաններից OCR Data Pipeline միջոցով, բ) կորպուս-ներից (ենթադրվում է, որ առցանց կայքէջերը (օրինակ` էլեկտրոնային թերթերը, այլ հրապա-րակումները), բլոգերը, սոցիալական ցանցերի գրառումները, ևն համապատասխան կոր-պուսներում են ընդգրկված): Կորպուսներից եկող բառը ուսումնասիրվում է բառագետի կող-մից. նա է որոշում թե բացակա բառը պետք է ընդգրկվի Գանձարանում: Որոշումը ոչ թե բառա-գետի անձնական կարծիքով է պայմանավորվում, այլ համապատասխան գիտական պա-հանջներով (այդ պահանջների բազմության մի տարբերակ քննարկում է Word by Word: The Secret Life of Dictionaries [գրքում եւ] ելույթում. տես նյութերը Լեզվաբանություն եւ ՀԹՏ էջի #28 մուտքում, մասնավորապես #28.c (2:50)):
Մուտքային տեղեկույթը ձեւափոխվում է քարտի (տես նույնանուն հատվածը վերեւում), որը դարանվում է շտեմարանում (քարտադարանում):
Գծագրում բերված ճարտարապետությունը կիրառելի է նաեւ կորպուսներին: Ժամանակաից էլեկտրոնային Գանձարանը բառարանների կորպուս է (ուր կմութքագրվեն ՆԱՅԻՐԻ բառա-րանների եւ այլ աղբյուրների բառատաղձը):
Ամփոփում
Էլեկտրոնային գանձարանը գործիք է առաջին հերթին բառագետների եւ լեզվաբանների համար: Այն ոչ միայն «թղթե» գանձարանի ավելի ծավալուն, բովանդակալից, եւ ուսումնասիրությունների հարմար աղբյուր է, այլ սկզբունքորեն նոր տեսակի գործիք:
Նրա արժեքը սովորական գանձարանից «ավելի լավ» գանձարան լինելուց բացի, նաեւ Լեզվաբանի Աշխատանոց համակարգի հիմնական մոդուլներից մեկն է: Այսինքն այն պետք է ունենա եւ ՕՄ (IU) եւ ԾՄ (ծրագրավորողական միջերես` API):
Առաջարկված համակարգի ճարտարապետության առավելություններից կարեվորագույնը այն է, որ ոչ տվյալների շտեմարանը, ոչ էլ ՕՄ եւ ԾՄ «տեղյակ չեն» լեզվից: Լեզուները ասպարեզ են մտնում տվյալների տեսքով եւ օգտատերերի կամ հաշվողական ծառայությունների ՕՄ եւ ԾՄ հայցումներով (կանչերով):
Գրականություն
[Rog1852] P.M. Roget. Thesaurus of English Words and Phrases, 1852 (1879, slightly abridged, ed. J.L. Roget, London). Avenel Books, (Crown publishers), NY. 1988.
[IPA Հայերեն] IPA/Armenian
[Աճա1926] Հր. Աճառյան. Հայերեն արմատական բառարան. Երեւանի համալսարանի հրատարակչություն, Ե., 1926։ Յառաջաբան
[Հայ2022] Ա. Հայրապետյան. Բնական խոսքի ընդհանրական ներկայացման մի տարբերակի մասին. Agoulis, Concord, 2022
Comments