Ներածություն
Գանձարանը [Rog1852] միալեզու բառարան է, որն ի տարբերություն բացատրական բառարանի, պարունակում է իմաստույթների միջեւ եղած գոյաբանական (տրամաբա-նական)` հոմանիշ, հականիշ, գերանիշ, ևն, հարաբերությունները [Հայ2022::23, նաեւ Եզրույթներ]: Կոմպյուտերային (Էլեկտրոնային) Գանձարանում կպահենք նաեւ բացատրական եւ արմատական բառարաններին հատուկ տեղեկույթ` բառի (ձեւույթի կամ իմաստույթի) մասին քերականական` խոսքի մաս, հարացուցային ծառ, ևն [Հայ2022::216-217]: Բացի այդ, համարելով այլ լեզվով բառաձեւի թարգմանությունը նույնպես բառի նկարագրություն, Կոմպյուտերային Գանձարանում կընդգրկենք երկ- եւ բազմալեզու բառարանները:
Կարճ ասած, Կոմպյուտերային Գանձարանը բառաձեւերի մասին ամփոփ եւ սպարիչ տեղեկույթի շտեմարան է:
Սակայն դա` տվյալների հարստությունը, Կոմպյուտերային Գանձարանի հատկանիշներից միայն մեկն է: Օգտվելով կոմպյուտերների հաշվողական հնարավորություններից, մենք Կոմպյուտերային Գանձարանը կդարձնենք լեզվի (առաջին հերթին` բառանյութի) ուսումնասիրման գործիք:
Ամեն անգամ չթվարկելու համար Գանձարանի հոդվածի առարկայի տեսակը` ձեւույթ, բառ, կամ իմաստույթ, դարձված, ևն հոդվածների առարկան կանվանենք մուտք: Օրինակ` չ- մուտք, գարուն մուտք, -ություն մուտք, ամեն ոք մուտք:
Էլեկտրոնային գանձարանը տարբեր տեսակի բառարանների (Բառարանագրություն, Բանասիրական (լեզվաբանական) բառարաններ հատվածը) համակցություն է: Այն պարունակում է բազմակողմանի եւ սպառիչ տեղեկություն ամեն մի մուտքի մասին:
Գանձարանում գրառման միավորը քարտն է, որը ձեւույթի [Հայ2022::351] կամ իմաստույթի [Հայ2022::342], այսինքն` մուտքի, նկարագրությունն է: Կարելի է ասել, որ Գանձարանը իմաստույթների (բառերի), որոնց նկարագրությունը Գանձարանի հիմական նպատակն է, լեմմաների [Հայ2022::343] վերաբերական քարտարան է:
Էլեկտրոնային գանձարանը թե բովանդակության ծավալով, եւ թե ֆունկցիաների զանազա-նությամբ գերակա է դասական, «թղթե» գանձարանից [Rog1852]: Մանրամասները տես` Բառարանային ձեւերի գանձարան 16.1 հատվածում [Հայ2022::216-217]:
Գանձարանը բառագետի աշխատանոց (լաբորատորիա) է [Հայ2022::222-223] եւ ուսանման գործիք:
Տվյալների կառուցվածքը
Քարտ
Քարտը տվյալների մի կառույց է, որում արձանագրվում են մուտքի հատկանիշները:
Պարտադիր հատկանիշներն են անվանումը, տեսակը` պիտակի տեսքով, եւ նշանակությունները:
Տվյալների ներոբերյալ սխեմաների հիմնական նպատակը տվյալների վերաբերությունների նկարագրությունն է:
Ոչ ինքնուրույն ձեւույթների քարտը
ված~
{"structure":["վ", "ած"],
"tags": {"POX.ADJ":[], "POX.RSTL.PV":[] }
}
Այս քարտը հատկանշում է այն փաստը, որ ված-ը երկու տեսակի վերջածանցի (POX) դեր է կատարում` ածականական (ADJ) եւ նախընթացական (RSTL) կրավորական (PV):
Ինքնուրույն ձեւույթների քարտը
շարունակ~
{"structure":["շար", "ունակ"], // [Հայ2022::107]
"tags":{"STM.DUAL":{"trees":{ // Տեսակները եւ գաղափարը տես` [Հայ2022::124]
"tree1":{ "$3":"<string>","$4":"<string>", "$5":"<string>"} } },
"family":"", // [Հայ2022::117]
"constraints":[ ],
"meaning":[ ],
"uninym":[ ], // ԸՀ-ներ [Հայ2022::206]
"constraints":[ ], // [Հայ2022::121]
"meaning":[ ],
"uninym":[ ], // ԸՀ-ներ [Հայ2022::206]
"dialect":["GR.CL","GR.ALT","EA.ARA","WA.POL","etc."]
},
"ADV":{"trees":{
"tree1":{ "$3":"<string>","$4":"<string>", "$5":"<string>"} } },
"family":"",
"meaning":[],
"uninym":[],
"dialect":["GR.CL","GR.ALT","EA.ARA","WA.POL","etc."]
}
Ծառերում նշված` $3, $4, ևն փոփոխակաները կառավարում են տեքստային ձեւեր սերող համակարգի հաշվարկումները: Նկարագրության մեջ չնշված $1 եւ $2 փոփոխակաները համապատասխանում են ձեւույթին եւ պիտակին: Այս համատեքստում դրանք չենք դիտարկում:
Իմաստույթների քարտը
Այս դաշտերը նաեւ ինքնուրույն ձեւույթներին են վերաբերում, քանի որ դրանք իմաստույթներ են: Նախորդ քարտը պարունակում է, հիմնականում, ձեւույթներին հատուկ ձեւաբանական տեղեկույթ, մինչդեռ ստորեւ բերված դաշտերը արտահայտության պլանին են բնորոշ:
“pronunciation“ :
"example" : // Գործածման օրինակներ (տես` meaning)
“origin” : “...” // ծագման լեզուն
“from” : “...” // փոխառման լեզուն
“first-date” : “...” // ամենահին գործածման ամսաթիվը
“recent-date” : “...” // ամենանոր գործածման ամսաթիվը
“first-source” : “...” // ամենահին գործածման աղբյուրը
“recent-source” : “...” // ամենանոր գործածման աղբյուրը
"declension" : // [Հայ2022::124]
"conjugation" : // [Հայ2022::125]
"generation" : // [Հայ2022::127]
"signature" : // [Հայ2022::164]. Որպես բառակապակցության գլխավոր անդամի
"synonym" : []
"antonym" : []
"holonym" :
"hypernym" :
"metonym" : // [Հայ2022::359] Վերանիշ (վերանուն)
Ստորեւ բերված տեղեկույթը կքաղվի տարբեր բառարաններից առանձին ֆայլերում (գրառումներում): Սրանց կապը գանձարանի քարտերի հետ կլինի բառը:
“lexicography” : [
“source” : // Բառարանի անունը (կամ կոդը` ID)
“description” : // Նկարագրությունը բառարանից
“comment” : // Լեզվաբանի մեկնություն
“approved” : // Լեզվաբանի հաստատում, որ ձեւույթը կարելի է «ցույց» տալ օգտատերերին
]
Ամեն բառարան կունենա իրեն հատուկ JSON դաշտերը, որոնցից վերոնշվածները ընդհանուր են թվում: Օրինակ` [Աճա1926] սրանք է հատկանշում`
Ա. բաժին. — Բառագիտութիւն. այս բաժնում իրար ետեւից դրւում են՝
Արմատը (ամբողջովին գլխատառ գրուած):
Հոլովման եւ խոնարհման ձեւերը։
Բառի նշանակութիւնը (դրուած միշտ չակերտների մէջ)
Վկայութիւնները
Տարբեր գրչութիւնները
Բ. բաժին. — Ստուգաբանութիւն. բառարանիս հիմնական եւ կարեւորագոյն մասն է. սկսւում է = նշանով. մանրամասն դրւում է արմատի ծագումը:
Գ. բաժին. — Ստուգաբանութեանց բաժին
Դ. բաժին.— Գաւառական ձեւեր. բառարանիս իւրայատուկ մասերից մէկն է այս բաժինը
Գանձարանի հիմք կընդունենք [Աճա1926] քառահատորը, որին կավելացնենք (կմերձենք` merge) Wiktionary, Նայիրի, ևն բառարաններից տեղեկույթ (հումանիտար տեխնոլոգիաների կայքէջեր, Հայկական հատվածը):
Քարտերի սպասարկու տեղեկույթ
Շտեմարանի ամեն մի գրառում ունի այս սպասարկու տեղեկույթը`
“service” : [
“version” :
“user” : // Գործառույթը կատարած օգտատերը
“timestamp” :
“type” : “<created>/<updated>/<deleted>”
“comment” : // Գործառույթի մանրամասները
]
Շտեմարանի կառուցվածքը
Շտեմարանի կառուցվածքային ճարտարապետության հիմքում դրված է տեղեկույթի արձակ զուգորդումը (loose coupling): Ամեն բառարանի տեղեկույթը առանձին, մեկուսացված բազմություն է, որի մուտքերը տեղեկություն չունեն, «չգիտեն» շտեմարանի մյուս տվյալների մասին (եթե իհարկէ այն բառարանային մուտքի բովանդակության, բացատրության մաս չէ):
Տեխնիկական իրացման տեսանկյունից այն մուտքային JSON-ների NoSQL շտեմարան է: Շտեմարանի տրամաբանական կառուցվածքը կարելի է պատկերել որպես բառարանների տվյալների պանակներ, որոնցում տեղադրված են մուտքերի JSON-ները: Միգուցե պանակների եւս մեկ շերտ օգտակար կլինի, օրինակ` «ներածություն», «բառարանի գործածում», «համառոտագրություններ», «[բուն] բովանդակություն», ևն,
Գործառույթները եւ գործածումները
Գանձարանը ձեւույթների եւ իմաստույթների քարտադարան է: Ամեն մուտք մի քարտ է [Հայ2022::121-123], որը պարունակում է քերականական, գոյաբանական, ստուգաբանական, ևն տեղեկություններ: Այս տեղեկույթը մատչելի է օգտատերերին (Բառագետ, Հետազոտող, Ուսա-նող, [Ճշմարտություն] Որոնող, ևն), որոնցից մի տեսակը` բառագետը, ունի արտոնություն քար-տի պարունակությունը փոխելու (շտկելու):
Գանձարանի տեղեկույթից սերվում են տեքստային ձեւերը իրենց համապատասխանող լեմ-մաների եւ պիտակների հետ: Ինչպես եւ բառարանային ձեւին, մի տեքստային ձեւին կարող է լեմմա-պիտակներ մի քանի զույգեր համապատասխանեն:
Ստորեւ բերված գծագրում ներկայացված են Գանձարանի հիմնական շերտերը եւ նրանց գործառույթները:
Գանձարանի մոդուլները
Գանձարանը եռաշերտ համակարգ է`
Տվյալների Շտեմարան - ամեն մի մուտք կպահվի JSON կառուցվածքում. Տվյալները կգըր-վեն բառարաններից եւ կորպուսներից: Վերջիններից կքաղվի այն բառամթերքը, որը դեռ չկա Շտեմարանում, եւ կներկայացվի Բառագետին խմբագրման եւ հաստատման համար:
Հաշվարկում - շերտի նպատակները եւ գործառույթները պարզ են գծագրված մոդուլներից:
Օգտատերի միջերես - հիմնական գործառույթը հայցված բառի նկարագրությունն է, ո-րում քարտի տեղեկույթին կավելացվեն ածանցյալ, օրինակ` հարացուցային ձեւերը: Հե-տազոտողների համար կարելի նաեւ հատուկ հայցումներ նախատեսել` տես Լեզվաբանի աշխատանոց 16.8 հատվածը [Հայ2022];
Գանձարանի պարունակությունը համալրվում է երկու աղբյուրներից` ա) պարզ տեքստային (plain text) ֆայլով ներկայացված բառարաններից OCR Data Pipeline միջոցով, բ) կորպուս-ներից (ենթադրվում է, որ առցանց կայքէջերը (օրինակ` էլեկտրոնային թերթերը, այլ հրապա-րակումները), բլոգերը, սոցիալական ցանցերի գրառումները, ևն համապատասխան կոր-պուսներում են ընդգրկված): Կորպուսներից եկող բառը ուսումնասիրվում է բառագետի կող-մից. նա է որոշում թե բացակա բառը պետք է ընդգրկվի Գանձարանում: Որոշումը ոչ թե բառա-գետի անձնական կարծիքով է պայմանավորվում, այլ համապատասխան գիտական պա-հանջներով:
Մուտքային տեղեկույթը ձեւափոխվում է քարտի (տես նույնանուն հատվածը վերեւում), որը դարանվում է շտեմարանում (քարտադարանում):
Գծագրում բերված ճարտարապետությունը կիրառելի է նաեւ կորպուսներին: Ժամանակաից էլեկտրոնային Գանձարանը բառարանների կորպուս է (ուր կմութքագրվեն ՆԱՅԻՐԻ բառա-րանների եւ այլ աղբյուրների բառատաղձը):
Ամփոփում
Էլեկտրոնային գանձարանը գործիք է առաջին հերթին բառագետների եւ լեզվաբանների համար: Այն ոչ միայն «թղթե» գանձարանի ավելի ծավալուն, բովանդակալից, եւ հարմար ուսումնասիրությունների աղբյուր է, այլ սկզբունքորեն նոր տեսակի գործիք:
Նրա արժեքը բացի սովորական գանձարանից «ավելի լավ» գանձարան լինելուց բացի, նաեւ Լեզվաբանի Աշխատանոց համակարգի հիմնական մոդուլներից մեկն է: Այսինքն այն պետք է ունենա եւ ՕՄ (IU) եւ ԾՄ (ծրագրավորողական միջերես` API):
Առաջարկված համակարգի ճարտարապետության առավելություններից կարեվորագույնը այն է, որ ոչ տվյալների շտեմարանը, ոչ էլ ՕՄ եւ ԾՄ «տեղյակ չեն» լեզվից: Լեզուները ասպարեզ են մտնում տվյալների տեսքով եւ օգտատերերի կամ հաշվողական ծառայությունների ՕՄ եւ ԾՄ հայցումներով (կանչերով):
Գրականություն
[Rog1852] P.M. Roget. Thesaurus of English Words and Phrases, 1852 (1879, slightly abridged, ed. J.L. Roget, London). Avenel Books, (Crown publishers), NY. 1988.
[IPA Հայերեն] IPA/Armenian
[Աճա1926] Հր. Աճառյան. Հայերեն արմատական բառարան. Երեւանի համալսարանի հրատարակչություն, Ե., 1926։ Յառաջաբան
[Հայ2022] Ա. Հայրապետյան. Բնական խոսքի ընդհանրական ներկայացման մի տարբերակի մասին. Agoulis, Concord, 2022
Commentaires