Նպատակը
Երբ ես խոսում եմ [Հայ2022]-ի բնալեզվական մոդելի եւ նրա իրացման մասին, ապա համարյա միշտ հարց է առաջանում. «իսկ ինչո՞վ է այդ մոդելը տարբերվում Համընդհանուր Կախվածու-թյուններից (ՀԿ)»: Իմ պատասխանն է. «Ոչնչով. իմ նպատակն է կախվածությունները մեքե-նացված կառուցել, հաշվարկել»: Սակայն մինչ օրս ժամանակ չէի գտնում ուշադիր քննել ՀԿ-ն եւ իրապես մատնանշել նմանությունները եւ տարբերությունները:
Այստեղ կփորձեմ համեմատել [Հայ2022] եւ [Zem2018] աշխատությունները: Հենց սկզբից ասեմ, որ [Zem2018], բնականաբար, շատ ավելի պրոֆեսիոնալ գործ է: Այդ հեղինակը երկար ժամա-նակ աշխատել է բնագավառում եւ համագործակցել աշխարհում ճանաչված լեզվաբանների հետ, որոնք նույնպես այդ` հաշվողական լեզվաբանության, բնագավառի մասնագետներ են: Նրանք ներկայացնում են աշխարհահռչակ կենտրոններ, որոնց կրթական մակարդակը, ֆի-նանսական եւ այլ հնարավորությունները համեմատելի չեն իմ հնարավորությունների հետ: Եւ ամենակարեվորը, ե՛ւ կրթությունը (գիտելիքները), ե՛ւ ֆինանսավորումը կարելի է ձեռք բերել կարճ ժամանակում, բայց փորձը ոչ:
Ժամանակային տեսակետից ե՛ւ ես, ե՛ւ վերոհիշյալ ականավոր խումբը խնդրով զբաղվում ենք 20-25 (եթե հաշվի առնենք ՀԿ նախնին` Stanford parser-ը): Սակայն ես զբաղվել բնալեզվական մոդելավորման խնդիրներով ընդհատումներով (երբեմն մի քանի տարի շարունակվող)` երե-կոները, շաբաթ-կիրակի, եւ մեծագույն տոներին: Գրքի եւ ծրագրերի մի մասը գրել եմ 2016-2017 թթ. գնացքում (BART) աշխատանքի գնալ գալուց:
Սա ասում եմ ոչ թե որ ներող լինեք գրքի որակի համար, այլ հակառակը, որ պատկերացնեք, թի ինչպեսին այն կարող էր լինել, եթե հաշվողական լեզվաբանությունը իմ ցերեկային գործը լիներ: Նաեւ ուզում էի պարզ դարձնել, որ ես քաջ գիտակցում եմ, որ այս երկու աշխատություն-ները չի կարելի նույն նժարով չափել: Ամենաէական տարբերությունը մատնանշեմ հենց սկզբից` իմ նպատակն էր լեզվի մի մոդել առաջարկել, որը կվերլուծի բնական խոսքը ընդհանրական ձեւի (ներկայացման) եւ այդ ձեւից կսերի բնական խոսք (Ծանոթագրություն-ներից զատ հատվածը ստորեւ): Առաջարկված բնական խոսքի ներկայացումը ընդհան-րական է բոլոր լեզուների համար. այն ոչնչով չի մատնում այն մասնավոր լեզուն, որից ստացվել է: [Zem2018] մասնավոր լեզվով արտահայտված խոսքի ընդհանրական ներկայաց-ման մասին է` գրատախտակի, թղթի, կամ կոմպյուտերի էկրանին:
Բացի այդ իմ նպատակն էր գրել այնպես, որ միջնակարգ դպրոցի շրջանավարտը (հարվածա-յին) հասկանա, առանց Հաշվողական Լեզվաբանության ֆակուլտետը ավարտելու:
Համընդհանուր Կախվածություններ
Ներածություն
Համընդհանուր Կախվածությունները (ՀԿ) բնական լեզվի ձեւաշարակարգային պիտակավոր-ման (ծանոթագրման) գործիքակազմ է: Այն կառուցված է «տիպաբանական ուղղվածություն ունեցող քերականական տեսությունների երկարատեւ ավանդույթի հենքի վրա: Բառերի միջեւ քերականական հարաբերությունները կենտրոնական են բացատրելու համար, թե ինչպես են ստորոգյալ-արգումենտ կառուցվածքները տարբեր լեզուներում ներկայացվում են ձեւաշարա-կարգային միջոցներով: Մինչդեռ բառերի հատկությունները պայմանավորվում են ձեւաբանա-կան առանձնահատկություններով եւ խոսքի մասի դասերով: Մենք պնդում ենք, որ այս տեսու-թյունը լավ հիմք է տիպաբանորեն տարբեր լեզուների միջլեզվական հետեւողական (միատե-սակ) ծանոթագրման եւ բնական լեզվի մեքենական ընկալման համար, ինչպես նաեւ ավելի լայն լեզվաբանական ուսումնասիրություններին:
Միեւնույն ժամանակ ՀԿ-ն միջլեզվական ձեւաշարակարգային հետեւողական ծանոթագրու-թյան գործիքակազմ է. բաց համայնքի ջանք` բազմաթիվ լեզուների համար ծանոթագրված կորպուսներ ստեղծելու եւ նրանց քանակական կայուն աճը ապահովելու համար: Այս բոլոր առումներով ՀԿ-ն, անկասկած, շատ հաջողակ է՝ ընդամենը վեց տարում աճելով տասը ծա-ռադարաններից եւ մեկ տասնյակ հետազոտողներից մինչեւ 183 ծառադարան 104 լեզվի համար եւ 416 հետազոտողներ ամբողջ աշխարհից: Այժմ մեկ ՀԿ ծառադարանը լայնորեն գործածվում է բնալեզվական հետազոտություններում. դրանք չեն սահմանափակվում միայն շարահյուսական եւ իմաստաբանական վերլուծություններով, այլ տարածվում է լեզվաբանու-թյան, մասնավորապես, հոգելեզվաբանության եւ բառերի շարակարգերի տիպաբանության, ոլորտներ:
Ոմանք կարծում են, որ ՀԿ-ն միայն ծանոթագրության գործիք է եւ, որպես այդպիսին, բավա-կանին էկլեկտիկ է, քանի որ, բազմաթիվ գործնական փոխզիջումներ թույլ տալով, հիմնվoum է գոյություն ունեցող դե ֆակտո ստանդարտների վրա: Թեեւ ՀԿ-ն փոխառում է տերմինաբա-նությունը եւ հասկացությունները շատ ավելի վաղ քերականական տեսություններից, այն, այնուամենայնիվ, համահունչ տեսություն է, որն արդյունք է մեծածավալ եւ բծախնդիր հա-մայնքային աշխատանքի, որն միտված է ձեւաբանությանը եւ շարահյուսությանը սկզբուն-քային, բայց լայնորեն ընդունված տեսակետին: Մենք համոզված ենք, որ հիմքում ընկած տեսության ավելի հստակ նկարագրությունը կօգնի մարդկանց լիովին հասկանալ ՀԿ-ն, դրա արժանիքները եւ սահմանափակումները, եւ մենք փորձում ենք այդ տեսությունը ձեւակերպել, մասնավորապես, ՀԿ-ի 2-րդ տարբերակի համար այս հոդվածում» [deM2021]:
«Մոտեցման փիլիսոփայությունը ենթադրում է կարգերի եւ ուղեցույցների համընդհանուր ցուցակագրում` նմանատիպ բնալեզվական կառուցվածքների հետեւողական ծանոթա-գրությունը տարբեր լեզուներով հեշտացնելու եւ միեւնույն ժամանակ, անհրաժեշտության դեպքում լեզվին հատուկ ընդլայնումներ թույլատրելու համար» [Niv2020]:
Բացի վերոբերյալ «բաց համայնքի ջանք» լինելու պարբերույթյունից, մնացածները կարելի էր գրել [Հայ2022] Ներածությունում, իսկ վերջին պարբերությունը ավելի կարճ եւ մատչելի է ար-տահայտում այս միտքը.
«Առաջարկված ձեւաչափը ԲԾ-ի [ԱՀ. Բովանդակության ծառ] ընդհանրականությունը ապահովում է ոչ թե առանձնահատկությունները վերացարկելով կամ անտեսելով, այլ հակառակը՝ հաշվի առնելով: ԲԾ-ն ոչ թե վերացական-ընդհանրական (abstract- universal) է, այլ առանձնահատուկ-հավաքական (specific-cumulative)» [Հայ2022::207]:
Կորպուսների տարբեր տեսակներ գոյություն ունեն. նույնիսկ ոստայնասող (web crawler) ծրագրերով ներբեռնված տեքստերի պարզ հավաքածուն կարող է դիտվել որպես կորպուս: Այս գիրքն այն կորպուսների մասին, որոնք ձեռքով ծանոթագրված են ձևաբանական (առան-ձին բառերի հատկություններ և դրանց տեսակները) և շարահյուսական (նախադասության բառերի միջև հարաբերությունները) մակարդակի լրացուցիչ տեղեկություններով: Շարահյուսական հարաբերությունները հաճախ ներկայացված են որպես ստորադասական կառուցվածք, որը կոչվում է ծառ: Հետևաբար, ծանոթագրված ծառերով կորպուսները կոչվում են ծառադարաներ: Մեզ կհետաքրքրի հանրաճանաչ և տարածված ծառադարաների այն տեսակը, որը կոչվում է կախվածության ծառադարան» [Zem2018::1]:
«Ծառադարանի հիմնական միավորը նշանակն (token) է: Մեծ մասամբ նշանակները բառերի են համապատասխանում և, եթե ուղղակիորեն նշված չէ, մենք այս երկու եզրույթները կօգտա-գործենք փոխադարձաբար:
Այնուամենայնիվ, նշանակը ներառում է նաև այնպիսի տարրեր, որոնք զուտ լեզվական բառ հասկացություն դասվել չեն կարող. կետադրական նշաններ, թվեր, էլ. փոստի հասցեներ, URL-ներ ևն: Գրային համակարգերի մեծ մասում բառերը (նշանների) գերազանցապես սահմանա-զատվում են յուրաքանչյուր կողմում բացատներով:
Կան բազմաթիվ բացառություններ այս կանոնից: Հաճախ տպագրական ուղեցույցներում ասվում է, որ կետադրական նշանը պետք է կցվի հարևան բառին առանց բացատի. սակայն Բնալեզվական Վերլուծիչներում` ԲԼՎ-ում նախընտրելի է այդ երկուսն առանձնացնել: Մյուս կողմից, մենք, հավանաբար, չենք ուզենա բաժանել տասնորդական թվերը (3.14) կամ էլ հասցե-ները (me@universe.org) մի քանի նշանների: Եւ երբեմն մենք կցանկանանք միավորել երկու կամ ավելի հարակից նշաններ: Օրինակ, որոշ լեզուներում մեծ թվերը բաժանված են հազար-ների բացատներով` 1 000 000, բայց մենք կուզենայինք ամբողջ թիվը մեկ նշանով ներկայաց-նել: Նշանակների նույնականացման և հատկանշման գործընթացը մուտքագրվող տեքստում կոչվում է նշանակավորում (tokenization): Ձեւական տեսանկյունից դա մի ձեւափոխություն է (ֆունկցիա), որը ընդունելով տառա-, թվա-, եւ այլ նիշերի (characters) հաջորդականությունը որպես մուտք, ելքում վերադարձնում է նշանակների հաջորդականություն» [Zem2018::5]:
[Հայ2022] հիման վրա իրացված համակարգը կանվանենք Տեքստի Վերլուծիչ (ՏՎ):
ՀԿ պիտակները
Խոսքիմասային
Ստորեւ բերված են [Zem2018::33] այսպես կոչված Google-ի խոսքիմասային (PoS) պիտակները [Pet2012], որոնք որպես հիմք են ընդունվել ինչպես ՀԿ-ն, այնպես էլ ՏՎ-ում:
Կարգը | ՀԿ | ||
1 | Գոյական | NOUN | NOUN |
PNOUN | |||
2 | Ածական | ADJ | ADJ |
3 | Թվական | NUM | NUM |
4 | Դերանուն | PRON | PRON |
5 | Բայ | VERB | VERB |
AUX | |||
6 | Մակբայ | ADV | ADV |
7 | Կապ | ADP | ADP |
8 | Շաղկապ | CONJ | CCONJ |
SCONJ | |||
9 | Մասնիկ | PRT | PRT |
INTJ | |||
10 | Որոշիչ | DET | DET |
11 | Օտար բառ | X | X |
SYM | |||
12 | Կետադրություն | . | . |
Հատուկ անունների PNOUN պիտակի փոխարեն ՏՎ-ն գործածում է NAM, FAM, GIV, PLC, եւ PROP (նկարագրությունները տես ստորեւ` ՏՎ պիտակների ստորադասումը հատվածում): Սակայն սրանց կարեվորությունը դեռ պարզ չէ: Կարեվոր է թվում {C,S}CONJ բաժանումը եւ, միգուցե, SYM-ը (ոչ կետադրական նշան): Սրան նման մի նշան` MIX, օգտագործվում է ՏՎ-ում, GPT-3.5 պիտակավորելու համար: Այդ եւ այլ, օրինակ` REFR, FRGN, ևն պիտակները տես other.txt բառարանում (Տեքստի Վերլուծիչ):
Այլ պիտակներ
Ընդհանրացված առանձնահատկությունները սահմանված են ՀԿ v2 ուղեցույցում. տես` Universal features [Zem2018::34]:
Պիտակների այս բազմությանը ծանոթ լինելը շատ կհեշտացներ ՏՎ պիտակների, մասնավո-րապես` հոլովայինների, ստեղծումը, հոլովների տեսակների [տանջալի, ցավագին] վերլու-ծությունը [Հայ2022::166-178, 279-283, 288-301]:
Ամեն դեպքում ՏՎ պիտակները պետք է հարմարեցնել ՀԿ պիտակներին, քանի որ սրանք դե ֆակտո ստանդարդ են. բայց հայ լեզվաբանները (եւ, միգուցե, բանակայինները) դեռ չեն ուզում բազմալեզու կորպուսներ կառուցել Հայաստանում, տվյալների` ժամանակակից աշ-խարհի ամենաարժեքավոր ապրանքի, շտեմարանները Հայաստան բերել, դարձնելով այն լեզվաբանական խաչմերուկ: Սրա փոխարեն հայ հաշվողական լեզվաբանները, իրենց կորպուսները թեւերի տակ դնելով, գաղթի ճանապարհ են բռնում դեպի Մոսկվա, Պրահա, կամ Բրյուսել:
ՏՎ պիտակները
Պիտակների տեսակները
«Ըստ կառուցվածքի պիտակները լինում են պարզ՝ ADJ, VERB, FUT, ևն, կամ բաղադրյալ՝ NOUN.G, PPL.FUT: Բաղադրյալները կետով անջատված պարզերի հաջորդականություններ են:
Ըստ տեսակի պիտակները կբաժանենք այսպիսի խմբերի եւ ենթախմբերի․
Խոսքիմասային՝ խոսքի մասերը եւ նրանց ավելի նեղ խմբերը (տե՛ս Ա1.1-2 աղյուսա-կները)․
Հարացուցային (հատկանշված է PRDGM Ա1.3 եւ Ա1.4 աղյուսակներում)․
Քերականական՝ քերականական կարգերը նշող (տե՛ս Ա1.3 եւ Ա1.4 աղյուսակները)․
Ձեւաբանական՝ ձեւույթների տեսակները հատկանշող, օրինակ՝ STM (հիմք), POX (վերջածանց), INST (ներույթ)․
Գործիքային՝ T (եզրային), NT (ոչ եզրային), ևն։
Վերջին երեքը սովորաբար տեքստային ձեւերում չեն հանդիպում, այլ գործածվում են պիտակների հաշվարկման ժամանակ:
Նույնանունության հետեւանքով երբեմն ձեւույթը ստանում է մեկից ավելի պիտակներ: Օրինակ՝ POX.ADJ, POX.ADV պիտակների բազմությունը, որը հատուկ է {ա,ե}րեն ածանցներին (տե՛ս աղյուսակ Ա2.6) նշանակում է, որ վերջածանցը (POX) ե՛ւ ածականակերտ (ADJ) է, ե՛ւ մակբայակերտ (ADV):
Այդպիսի պիտակները տրամաբանորեն կապված են կամ հարաբերությամբ (իմաստով) եւ թվարկվում են ստորակետ (,) նշանով անջատված, օրինակ՝ ADJ, ADV նշանակում է, որ ձեւույթը ածական (ADJ) կամ մակբայ (ADV) է» [Հայ2022::120]:
ՏՎ պիտակների ստորադասումը
Ստորեւ բերված պիտակները ավելացվել են համակարգի իրանցման տարբեր փուլերում: Շատերը չեն գործածվում: Մի քանիսը ապագայի համար են նախատեսված: Հայերեն ոչ հատուկ պիտակների գերակշռող մեծամասնությունը (տես գրքում) համակարգ մտցված չէ:
Ստորակարգման նպատակը պիտակների համատեղելիության հանրահաշիվ սահմանելն է: Ներկայումս իրացված համատեղելիության տրամաբանությունը թերի է: Մոտ ապագայում սխալների ուղղում կկատարվի:
Branch of GRAMM
CLASS~{"meaning":"դաս","english":"class","rank":0,"type":"Ա1.3","parent":"GRAMM"}
ABST~{"meaning":"վերացական","english":"abstract","rank":0,"type":"Ա1.3","parent":"CLASS"}
ANIM~{"meaning":"շնչավոր","english":"animate","rank":0,"type":"Ա1.3","parent":"CLASS"}
COMN~{"meaning":"ընդհանրական","english":"common","rank":0,"type":"Ա1.2","parent":"CLASS"}
CRDL~{"meaning":"բացարձակ [թվական]","english":"cardinal [numeral]","rank":500,"type":"Ա1.3","parent":"CLASS"}
DIM~{"meaning":"նվաստական","english":"diminutive","rank":500,"type":"Ա1.3","parent":"CLASS"}
DIST~{"meaning":"բաշխական","english":"distributive","rank":500,"type":"Ա1.3","parent":"CLASS"}
FRCL~{"meaning":"կոտորակային [թվական]","english":"fractional [numeral]","rank":500,"type":"Ա1.3", "parent":"CLASS"}
INMT~{"meaning":"անշունչ","english":"inanimate","rank":0,"type":"Ա1.3","parent":"CLASS"}
MULT~{"meaning":"բազմապատկական","english":"multiplicative","rank":450,"type":"Ա1.4","parent":"CLASS"}
NEG~{"meaning":"ժխտական","english":"negative","rank":200,"type":"Ա1.2","parent":"CLASS"}
ORD~{"meaning":"դասական [թվական]","english":"ordinal [numeral]","rank":500,"type":"Ա1.3","parent":"CLASS"}
DECL~{"meaning":"հոլովում (Ա,Ի,Ո,ևն)","english":"declension(A,I,VO,etc.)","rank":0,"type":"Ա1.3","parent":"GRAMM"}
DA~{"meaning":"Ա հոլովում","english":"declension A","rank":40,"type":"Ա1.3","parent":"DECL"}
DI~{"meaning":"Ի հոլովում. բացակա","english":"declension E; default","rank":40,"type":"Ա1.3","parent":"DECL"}
DU~{"meaning":"Ու հոլովում","english":"declension U","rank":40,"type":"Ա1.3","parent":"DECL"}
DVA~{"meaning":"Վա հոլովում","english":"declension Va","rank":40,"type":"Ա1.3","parent":"DECL"}
DVO~{"meaning":"Ո հոլովում","english":"declension VO","rank":40,"type":"Ա1.3","parent":"DECL"}
HARN~{"meaning":"լծորդ (Ա,Ե)","english":"harness (A,E)","rank":0,"type":"Ա1.4","parent":"GRAMM"}
HA~{"meaning":"լծորդ Ա","english":"harness A","rank":30,"type":"Ա1.4","parent":"HARN"}
HE~{"meaning":"լծորդ Ե. բացակա","english":"harness E; default","rank":30,"type":"Ա1.4","parent":"HARN"}
REL~{"meaning":"հարաբերական","english":"relative","rank":40,"type":"Ա1.2","parent":"GRAMM"}
SPRL~{"meaning":"գերադրական","english":"superlative","rank":500,"type":"Ա1.3","parent":"GRAMM"}
TSVT~{"meaning":"անցողականություն","english":"transitivity","rank":0,"type":"Ա1.4","parent":"GRAMM"}
AMBT~{"meaning":"երկանցողական","english":"ambitransitive","rank":450,"type":"Ա1.4","parent":"TSVT"}
NTRV~{"meaning":"անանցողական","english":"intransitive","rank":450,"type":"Ա1.4","parent":"TSVT"}
TRNV~{"meaning":"անցողական","english":"transitive","rank":450,"type":"Ա1.4","parent":"TSVT"}
Branch of MORPH
IMM~{"meaning":"անփոփոխ ինքնուրույն բառաձեւ","english":"immutable word","rank":10,"type":"Ա1.2","parent":"MORPH"}
ISRT~{"meaning":"ներույթ","english":"insert","rank":10,"type":"Ա1.2","parent":"MORPH"}
BRDG~{"meaning":"կցորդ (Ա,Ե,Ո,Ու). չգործածվող [դեռ] Ներույթներ","english":"bridge (A,E,Vo,U) - not in use ","rank":10, "type":"Ա1.2","parent":"ISRT"}
BA~{"meaning":"կցորդ Ա","english":"bridge A","rank":20,"type":"Ա1.2","parent":"BRDG"}
BE~{"meaning":"կցորդ Ե","english":"bridge E","rank":20,"type":"Ա1.2","parent":"BRDG"}
BU~{"meaning":"կցորդ Ու","english":"bridge U","rank":20,"type":"Ա1.2","parent":"BRDG"}
BVO~{"meaning":"կցորդ Ո","english":"bridge Vo","rank":20,"type":"Ա1.2","parent":"BRDG"}
POX~{"meaning":"վերջածանց","english":"postfix","rank":10,"type":"Ա1.2","parent":"MORPH"}
PRE~{"meaning":"նախածանց","english":"prefix","rank":10,"type":"Ա1.2","parent":"MORPH"}
SLT~{"meaning":"նախածանց չստացող հիմք","english":"left terminal stem","rank":10,"type":"Ա1.2","parent":"MORPH"}
STA~{"meaning":"ինքնուրույն հիմք","english":"standalone stem","rank":10,"type":"Ա1.2","parent":"MORPH"}
STM~{"meaning":"պարզ հիմք","english":"stem","rank":10,"type":"Ա1.2","parent":"MORPH"}
Branch of OPR
ALT~{"meaning":"հնչյունափոխ","english":"alternated","rank":6000,"type":"Ա1.2","parent":"OPR"}
ANY~{"meaning":"կամայական` գործածվում է սահմանափակումներում","english":"any morpheme: used as constraint","rank":0,"type":"Ա1.2","parent":"OPR"}
NT~{"meaning":"ոչ եզրային","english":"non-terminal","rank":0,"type":"Ա1.2","parent":"OPR"}
T~{"meaning":"եզրային, հիմքի դեպքում` աջից. տերեւ","english":"terminal, for stem from the right; leaf","rank":0,"type":"Ա1.2","parent":"OPR"}
Branch of POS
ADP~{"meaning":"կապ","english":"adposition (pre- and post-position)","rank":400,"type":"Ա1.1","parent":"POS"}
POSP~{"meaning":"ետադրություն","english":"postposition","rank":500,"type":"Ա1.2","parent":"ADP"}
PREP~{"meaning":"նախադրություն","english":"preposition","rank":500,"type":"Ա1.2","parent":"ADP"}
ADV~{"meaning":"մակբայ","english":"adverbs","rank":400,"type":"Ա1.1","parent":"POS"}
CONJ~{"meaning":"շաղկապ","english":"conjunctions","rank":400,"type":"Ա1.1","parent":"POS"}
MOD~{"meaning":"եղանակավորող","english":"modal","rank":400,"type":"Ա1.2","parent":"POS"}
AFRM~{"meaning":"հաստատական եղանականիշ","english":"affirmative mood","rank":500,"type":"Դ3", "parent":"MOD"}
CRSE~{"meaning":"հայհոյանք, անեծք","english":"curse","rank":500,"type":"Ա1.2","parent":"MOD"}
DSRE~{"meaning":"բաղձանքի եղանականիշ","english":"desiderative mood","rank":500,"type":"Դ3","parent":"MOD"}
EVAL~{"meaning":"հաստատական եղանականիշ","english":"affirmative","rank":500,"type":"Դ3","parent":"MOD"}
GRT~{"meaning":"ողջունում","english":"greeting","rank":500,"type":"Ա1.2","parent":"MOD"}
INTS~{"meaning":"սաստկական եղանականիշ","english":"intensive","rank":500,"type":"Դ3","parent":"MOD"}
LIMT~{"meaning":"սահմանափակման եղանականիշ","english":"limitative mood","rank":500,"type":"Դ3", "parent":"MOD"}
RJCT~{"meaning":"ժխտական եղանականիշ","english":"rejective mood","rank":500,"type":"Դ3","parent":"MOD"}
SBMS~{"meaning":"զիջական եղանականիշ","english":"submissive mood","rank":500,"type":"Դ3","parent":"MOD"}
VLTN~{"meaning":"կամային եղանականիշ","english":"voluntative mood","rank":500,"type":"Դ3","parent":"MOD"}
NAT~{"meaning":"բնաձայն","english":"natural sounds","rank":400,"type":"Ա1.2","parent":"POS"}
INTJ~{"meaning":"ձայնարկություն","english":"interjection","rank":400,"type":"Ա1.2","parent":"NAT"}
NHUM~{"meaning":"ոչ մարդկային ձայնարկություն","english":"non human natural sound","rank":400, "type":"Ա1.2","parent":"NAT"}
NOML~{"meaning":"անվանական ձեւ","english":"nominal","rank":300,"type":"Ա1.2","parent":"POS"}
ABBR~{"meaning":"հապավում","english":"abbreviation","rank":400,"type":"Ա1.1","parent":"NOML"}
ADJ~{"meaning":"որակական ածական","english":"adjective","rank":400,"type":"Ա1.1","parent":"NOML"}
ADJP~{"meaning":"հարաբերական ածական","english":"pronominal adjective","rank":400,"type":"Ա1.1", "parent":"NOML"}
NOUN~{"meaning":"գոյական","english":"nouns (common and proper)","rank":400,"type":"Ա1.1","parent":"NOML"}
DTM~{"meaning":"ամսաթիվ, տեւողություն","english":"date, time, duration","rank":500,"type":"Ա1.3","parent":"NOUN"}
KIN~{"meaning":"ազգակցություն","english":"kinship","rank":500,"type":"Ա1.3","parent":"NOUN"}
NAM~{"meaning":"անուն","english":"name","rank":500,"type":"Ա1.3","parent":"NOUN"}
FAM~{"meaning":"ազգանուն","english":"family, last[name]","rank":600,"type":"Ա1.3","parent":"NAM"}
GIV~{"meaning":"անձնանուն","english":"given, first[name]","rank":600,"type":"Ա1.3","parent":"NAM"}
PLC~{"meaning":"տեղանուՆ]","english":"place, location [name]","rank":600,"type":"Ա1.3","parent":"NAM"}
PROP~{"meaning":"հատուկ անուն","english":"proper [name]","rank":600,"type":"Ա1.3","parent":"NAM"}
NUM~{"meaning":"թվական","english":"numeral","rank":400,"type":"Ա1.1","parent":"NOML"}
OTHR~{"meaning":"այլ բառ","english":"other words,typos","rank":400,"type":"Ա1.1","parent":"POS"}
DGSG~{"meaning":"թվեր եւ նշաններ","english":"signed digits","rank":400,"type":"Ա1.1","parent":"OTHR"}
DGT~{"meaning":"թվեր","english":"digits","rank":400,"type":"Ա1.1","parent":"OTHR"}
FRGN~{"meaning":"օտար բառ","english":"other:foreign words,typos","rank":400,"type":"Ա1.1","parent":"OTHR"}
MIX~{"meaning":"նշանների խառնորդ","english":"other: mixture of characters","rank":400,"type":"Ա1.1", "parent":"OTHR"}
REFR~{"meaning":"հղում","english":"references","rank":400,"type":"Ա1.1","parent":"OTHR"}
X~{"meaning":"վրիպակ","english":"typos","rank":400,"type":"Ա1.1","parent":"OTHR"}
PRON~{"meaning":"դերանուն","english":"pronouns","rank":400,"type":"Ա1.1","parent":"POS"}
DEMV~{"meaning":"ցուցական","english":"demonstrative","rank":500,"type":"Դ3","parent":"PRON"}
DTMT~{"meaning":"որոշյալ","english":"indexical","rank":40,"type":"Ա1.2","parent":"PRON"}
INDF~{"meaning":"անորոշ","english":"indefinite pronoun","rank":500,"type":"Ա1.3","parent":"PRON"}
INDX~{"meaning":"ցուցական","english":"indexical","rank":500,"type":"Դ3","parent":"PRON"}
NEGV~{"meaning":"ժխտական","english":"negative","rank":200,"type":"Ա1.2","parent":"PRON"}
PRSN~{"meaning":"անձնական","english":"personal","rank":0,"type":"Ա1.2","parent":"PRON"}
RLTV~{"meaning":"հարաբերական","english":"relative","rank":40,"type":"Ա1.2","parent":"PRON"}
PRT~{"meaning":"մասնիկ","english":"particles or other function words","rank":400,"type":"Ա1.1","parent":"POS"}
VERB~{"meaning":"բայ","english":"verbs (all tenses and modes)","rank":400,"type":"Ա1.1","parent":"POS"}
AUX~{"meaning":"օժանդակ բայ","english":"auxiliary verb","rank":500,"type":"Ա1.4","parent":"VERB"}
INF~{"meaning":"անորոշ","english":"infinitive","rank":500,"type":"Ա1.4","parent":"VERB"}
PPL~{"meaning":"դերբայ","english":"participle","rank":500,"type":"Ա1.2","parent":"VERB"}
Branch of PRDGM
ART~{"meaning":"հոդ","english":"article","rank":0,"type":"Ա1.3","parent":"PRDGM"}
DTRM~{"meaning":"որոշյալ հոդ","english":"determinate [article, pronoun]","rank":1500,"type":"Ա1.3","parent":"ART"}
PSSV~{"meaning":"ստացական","english":"possessive [pronoun, article]","rank":1500,"type":"Ա1.3","parent":"ART"}
ASPC~{"meaning":"կերպ","english":"aspect","rank":3000,"type":"Ա1.4","parent":"PRDGM"}
DUAL~{"meaning":"երկակի բայական հիմք","english":"dual verbal stem","rank":700,"type":"Ա1.2","parent":"ASPC"}
IMPF~{"meaning":"անկատար","english":"imperfect","rank":700,"type":"Ա1.4","parent":"ASPC"}
INDT~{"meaning":"անորոշ բայարմատ","english":"indeterminate verbal stem","rank":700,"type":"Ա1.3"," parent":"ASPC"}
PRFV~{"meaning":"կատարյալ","english":"perfective","rank":700,"type":"Ա1.4","parent":"ASPC"}
CASE~{"meaning":"հոլով","english":"case","rank":0,"type":"Ա1.3","parent":"PRDGM"}
A~{"meaning":"բացառական","english":"Ablative","rank":1300,"type":"Ե2.1","parent":"CASE"}
C~{"meaning":"ուղեկցական","english":"Comitative","rank":1300,"type":"Ե2.1","parent":"CASE"}
D~{"meaning":"հանգական","english":"Dative","rank":1300,"type":"Ե2.1","parent":"CASE"}
G~{"meaning":"սեռական","english":"Genitive","rank":1300,"type":"Ե2.1","parent":"CASE"}
L~{"meaning":"ներգոյական","english":"Locative","rank":1300,"type":"Ե2.1","parent":"CASE"}
N~{"meaning":"անվանական","english":"Nominative","rank":1300,"type":"Ե2.1","parent":"CASE"}
O~{"meaning":"իրական","english":"Objective","rank":1300,"type":"Ե2.1","parent":"CASE"}
MOOD~{"meaning":"եղանակ","english":"mood (mode)","rank":3000,"type":"Ա1.4","parent":"PRDGM"}
COND~{"meaning":"պայմանական","english":"conditional","rank":900,"type":"Ա1.4","parent":"MOOD"}
CONT~{"meaning":"ընթացական (անկատար) դերբայ","english":"continuous (present) participle","rank":900, "type":"Ա1.4","parent":"MOOD"}
DUB~{"meaning":"ենթադրական","english":"dubitative","rank":900,"type":"Ա1.4","parent":"MOOD"}
FUTP~{"meaning":"ապառնի դերբայ","english":"future participle","rank":900,"type":"Ա1.2","parent":"MOOD"}
IMP~{"meaning":"հրամայական","english":"imperative","rank":900,"type":"Ա1.4","parent":"MOOD"}
INDC~{"meaning":"սահմանական","english":"indicative,declarative","rank":900,"type":"Ա1.4","parent":"MOOD"}
NEGP~{"meaning":"ժխտական","english":"negative","rank":200,"type":"Ա1.2","parent":"MOOD"}
OBL~{"meaning":"հարկադրական","english":"obligative","rank":900,"type":"Ա1.4","parent":"MOOD"}
PROG~{"meaning":"համընթացական","english":"progressive","rank":900,"type":"Ա1.4","parent":"MOOD"}
PROH~{"meaning":"արգելական","english":"prohibitive[particle,verb]","rank":900,"type":"Ա1.3","parent":"MOOD"}
PRSP~{"meaning":"կատարելի","english":"prospective","rank":900,"type":"Ա1.4","parent":"MOOD"}
PSTP~{"meaning":"վաղակատար դերբայ","english":"past participle","rank":900,"type":"Ա1.2","parent":"MOOD"}
PTE~{"meaning":"անցյալ կատարյալ","english":"past perfect (preterite)","rank":900,"type":"Ա1.4","parent":"MOOD"}
RSLT~{"meaning":"նախընթացական","english":"resultive","rank":900,"type":"Ա1.4","parent":"MOOD"}
SBJ~{"meaning":"ըղձական","english":"subjunctive","rank":900,"type":"Ա1.4","parent":"MOOD"}
SYN~{"meaning":"զուգընթացական","english":"synchronal","rank":900,"type":"Ա1.4","parent":"MOOD"}
NUMB~{"meaning":"թիվ","english":"number","rank":0,"type":"Ա1.1","parent":"PRDGM"}
COLL~{"meaning":"հավաքական","english":"collective","rank":1100,"type":"Ա1.2","parent":"NUMB"}
NPLU~{"meaning":"ոչ հոգնակի (եզակի, որ չունի հոգնակի)","english":"non-plural","rank":1100,"type":"Ա1.2","parent":"NUMB"}
NSIN~{"meaning":"ոչ եզակի (հոգնակի, որ չունի եզակի)","english":"non-singular","rank":1100,"type":"Ա1.2","parent":"NUMB"}
PLU~{"meaning":"հոգնակի","english":"plural","rank":1100,"type":"Ա1.2","parent":"NUMB"}
SIN~{"meaning":"եզակի","english":"singular","rank":1100,"type":"Ա1.2","parent":"NUMB"}
PERS~{"meaning":"դեմք","english":"person","rank":0,"type":"Ա1.2","parent":"PRDGM"}
1~{"meaning":"1-ին դեմք","english":"1st person","rank":1400,"type":"Ա1.2","parent":"PERS"}
2~{"meaning":"2-րդ դեմք","english":"2nd person","rank":1400,"type":"Ա1.2","parent":"PERS"}
3~{"meaning":"3-րդ դեմք","english":"3rd person","rank":1400,"type":"Ա1.2","parent":"PERS"}
TENS~{"meaning":"ժամանակ","english":"tense","rank":3000,"type":"Ա1.4","parent":"PRDGM"}
FUT~{"meaning":"ապառնի","english":"future","rank":1000,"type":"Ա1.4","parent":"TENS"}
PRS~{"meaning":"ներկա","english":"present","rank":1000,"type":"Ա1.4","parent":"TENS"}
PST~{"meaning":"անցյալ","english":"past","rank":1000,"type":"Ա1.4","parent":"TENS"}
VOIC~{"meaning":"սեռ","english":"voice","rank":3000,"type":"Ա1.4","parent":"PRDGM"}
ACTV~{"meaning":"ներգործական","english":"active voice","rank":600,"type":"Ա1.4","parent":"VOIC"}
CS~{"meaning":"պատճառական","english":"causative","rank":600,"type":"Ա1.4","parent":"VOIC"}
NEUT~{"meaning":"չեզոք","english":"neuter","rank":600,"type":"Ա1.4","parent":"VOIC"}
PV~{"meaning":"կրավորական","english":"passive voice","rank":600,"type":"Ա1.4","parent":"VOIC"}
RFL~{"meaning":"փոխադարձ","english":"reflexive","rank":600,"type":"Ա1.2","parent":"VOIC"}
Branch of SYNT
SIGN~{"meaning":"նշան","english":"sign","rank":0,"type":"Ա1.2","parent":"SYNT"}
EXCL~{"meaning":"բացականչական","english":"exclamation","rank":1600,"type":"Ա1.2","parent":"SIGN"}
INTR~{"meaning":"հարցական","english":"interrogative","rank":1600,"type":"Ա1.2","parent":"SIGN"}
STRS~{"meaning":"շեշտ","english":"stress","rank":1600,"type":"Ա1.2","parent":"SIGN"}
ՀԿ ծառեր
«Նախադասության շարահյուսական կառուցվածքը կարող է ծանոթագրվել և արտապատ-կերվել տարբեր ձևերով՝ կախված հիմքում ընկած տեսությունից և առկա գործիքներից: Այնուամենայնիվ, շարահյուսական գործիքակազմերի մեծ մասում օգտագործում է տվյալների մի կառուցվածք, որը կոչվում է ծառ: Մենք կկենտրոնանանք ծառերի մեկ կոնկրետ տեսակի վրա, այն է՝ արմատավորված ուղղորդված կախվածության ծառերը, որոնց կիրառումը լեզվա-բանության մեջ սկիզբ է առնում (Տենիեր` 1959) հիմնարար աշխատանքից:
Նախորդ հատվածներում մենք դիտարկեցինք մի քանի ծառեր՝ առանց ձեւական սահման-ման: Ծառը բաղկացած է երկու տեսակի տարրերից. առաջինը հանգույցներ են, որոնք նաև կոչվում են գագաթներ. մեզ համար հանգույցները (հիմնականում) համապատասխանում են բառերին կամ նշաններին: Հանգույցները միացված են կողմերով (նաև կոչվում են աղեղներ, հարաբերություններ կամ կախվածություններ); սա տարրերի երկրորդ տեսակն է: Կողմերը սովորաբար կրում են պիտակներ, որոնք հստակեցնում են կապի տեսակը: Հանգույցներից մեկը նշանակված է որպես արմատ: Ծայրերը ուղղված են, այսինքն, դրանք կարող են պատ-կերվել որպես սլաքներ, որոնք ցույց են տալիս ուղղությունը արմատից դեպի արտաքին հան-գույցներ: Յուրաքանչյուր հանգույց (բացի արմատից) ունի միայն մեկ մուտքային կողմ: Ելքային կողմերի քանակը անսահմանափակ է: Հետևաբար, արմատից մինչև ցանկացած հանգույց միշտ կա ընդամենը մեկ ճանապարհ: Այն հանգույցը, որը չունի ելքային կողմեր, կոչվում է տերեւ: Երբեմն կողմի սկզբում գտնվող հանգույցը կոչվում է ծնող, կառավարող կամ գլխավոր, իսկ ծայրինները` զավակ կամ կախյալ» [Zem2018::95]:
«Գոյականական բառակապակցությունը նախադասության հիմնաքարն է» [Zem2018::97]: Այս միտքի հետ դժվար է համաձայնել, նույնիսկ հաշվի առնելով նման այլ դիտարկումներ, օրինակ`
«Ենթական նախադասության, որպես հաղորդման ակտի, կենտրոնն է: Թվարկել ու բնութագրել նախադասության բոլոր մնացած անդամները, որոնց մեջ անմիջաբար կամ ստորոգյալի միջոցով լրացվում է ենթակայի այս կամ այն կողմը, նշանակում է բացահայտել ենթակայի ողջ բովանդակությունը» [Ջահ1974::388]:
Այստեղ թվում է թե լեզվաբան Ջահուկյանը տեղի տալիս բանասերին: Իմ այս դիտարկումը կարելի է հիմնավորել մի այլ մեջբերումով`
«Եթե ենթական նախադասության կենտրոնն է, ապա ինչպե՞ս պետք է բացատրել, այսպես կոչված, անենթակա և զեղչված ենթակայով նախադասությունների գոյությունը: Այս նպատակով պետք է տարբերել ենթակայի երեք կարգի ըմբռնում՝ իրական ենթակա, հոգեբանական-տրամաբանական ենթակա և լեզվա-քերականական ենթակա» [Ջահ1974::388]:
Իմ կարծիքով նախադասության հիմնաքարը ստորոգյալն է` բայական բառակապակցու-թյունը (մինչ օրս ես կարծում էի, որ ժամանակակից (այս հազարամյակի) լեզվաբանների 10π² % համաձայն են այս դրույթին): Այս կարծիքը ես փորձել եմ հիմնավորել մասնավորապես այս հատվածում`
«Եթե անվանական կարգերի ծավալումը հանգեցնում է անվանական բառակապակցության, ապա բայա-ստորոգական կարգերի ծավալումից վերջ ի վերջո ստացվում է նախադասություն» [Ջահ1974::332]: Բայերի բնութագրերի բազմությամբ սահմանվում է տվյալ լեզվին հատուկ բոլոր հնարավոր նախադասությունների կառուցվածքները: Ստորոգյալը, լինելով գլխավոր անդամ, կապում է ենթական եւ խնդիրները: Վերջիններիս քանակը պայմանավորվում է բայի արժույթով» [Հայ2022::164-165]:
Կարելի է ասել, որ բայական բառակապակցությունը նախադասության գլխավոր անդամն է: Հետո գալիս են ենթակայական եւ խնդրային բառակապակցությունները, իսկ սրանցից հետո մյուսները: Այս մոտեցման դեպքում բայը գտնվում է շարահյուսական ծառի գագաթում:
Սա կարելի է դիտարկել որպես շարահյուսական կառուցվածքի տարբեր քերակական մեկնա-բանություններ:
ՀԿ պիտակների բազմությունը եւ կախվածության ծառերը համեմատվում են հետեւյալ ծառա-դարանների պիտակների բազմությունների եւ կախվածության ծառերի հետ`
Alpino treebank
Bosque treebank of Portuguese
Bulgarian BulTreeBank
Danish Dependency Treebank
“Google” Universal Dependency Treebank
Greek Dependency Treebank
Hindi treebank
Italian treebank
METU Treebank
Penn Treebank
Persian Dependency Treebank
Prague Arabic Dependency Treebank
Prague Dependency Treebank
Sinica Treebank
Slovenian Dependency Treebank
SynTagRus treebank
Szeged Treebank of Hungarian
Tamil treebank
Tiger treebank
Շեշտադրվում են ծառերի տեսային (վիզուալ) ներկայացման տարբերակները: Այս վերլուծու-թյունը ուսումնասիրելուց հետո ես հասկացա, որ [Հայ2022] գրքի վերնագրում «ներկայացման» բառը պարզաբանման կարիք ունի: Վերնագրի «բնական խոսքի ընդհանրական ներկայա-ցում» բառակապակցությունը ոչ թե թղթի կամ գրատախտակի վրա երկրաչափական-տեսա-յին ներկայացման, այլ խոսքի խորքային կառուցվածքի` խոսքային միավորների հարաբերու-թյունների ծառերով ներկայացման մասին է:
ՀԿ նախադասության տեսային ներկայացումը շատ նման է Stanford Parser-ի ներկայացմանը (ինչը ՀԿ ակունքներով բացատրվում): Ըստ իս այն ամենահարմարն է մարդկային ընկալման համար համեմատ շարահյուսական ծառերի այլ պատկերավորումներին (Parse tree):
Ծանոթագրություններից զատ
ՏՎ-ն եւ նրանով [ի վերջո] կառուցվելիք ԲԾ-ն միայն պիտակները եւ կախվածությունները նկարագրելու մասին չէ: Առաջարկը այն է, որ մի մասնավոր լեզվով գրված մի որեւէ նախադա-սություն միայն մեկ անգամ վերլուծվի եւ գրվի ծառադարան եւ կարդացվի 103 (կամ ինչքան որ իրացված են) լեզվով: Այսինքն, օրինակ` արամերենով գրված Աստուածաշունչը վերլուծվում, պիտակավորվում, եւ գրվում է ֆայլում, իսկ հետո այդ ֆայլը արտապատկերում են` աբխազե-րեն,ադրբեջաներեն, արաբերեն, արամերեն, … , օտար այլ լեզուներով, … , ֆիններեն, ֆուլա, ֆրանսերեն:
Ենթադրենք, որ այսպիսի մի ծառ է գրված կորպուսում`
{lemma : “67”, VERB.PRS.GNO.3.PLU}
{lemma : “891”, NOUN.PLU.O}
{lemma : “73”, NOUN.N}
{lemma : “45”, NOUN.ORN}
{lemma : “42012”, FAM}
Այդ նույն կորպուսի շտեմարանը հասանելի է հայերեն, անգլերեն, ռուսերեն, թուրքերեն, եւ վիետնամերեն ծրագրերին, որոնք ստորեւ բերված ընդհանրական հոմանիշների բազմու-թյուններից օգտվելով կարող են վերոբերյալ բովանդակության ծառը (ԲԾ) գծայնացնել նախադասության`
891 = {հայ, armenian, армянин, ermeni, người armenia}
67 = {արտադրել, to produce, производить, üretmek, để sản xuất}
73 = {կոնյակ, brandy, коньяк, brendi, rượu mạnh}
45 = {անուն, name, имя, adı, tên}
42012 = [ˈstalʲɪn]
Փորձեք, կարդալով ԲԾ-ն, ձեր իմացած լեզվով նախադասություն կառուցել: Կստացվի՞ արդյոք այս նախադասություններից մեկը`
[armenian] Հայերը Ստալին անունով կոնյակ են արտադրում:
[english] Armenians produce brandy named Stalin
[russian] Армяне производят коньяк имени Сталина
[turkish] Ermeniler Stalin adında brendi üretiyorlar
[vietnamese] Người Armenia sản xuất rượu mạnh mang tên Stalin
[Հայ2022] առաջարկում է պիտակներից եւ քերականական կարգերից զատ ընդհանրացնել համամարդկային հյուլեական իմաստները, արտապատկերել մասնավոր լեզուների իմաս-տույթները ընդհանրական հյուլեական իմաստների (հոգնակի է բազմիմաստության պատ-ճառով) ցանկերի եւ այս տեղեկույթից օգտվելով նույն շտեմարանում գրել մասնավոր լեզվով նախադասությունների ԲԾ-ները եւ դրանք կարդալ կորպուսին հայտնի բոլոր այլ լեզուներով:
Ամփոփում
[Zem2018] ամփոփում
«Այս մենագրությունը ներկայացնում է բնական լեզուների ձեւաբանության և շարահյուսության ծանոթագրման մոտեցումների համեմատական ուսումնասիրություն, շեշտը դնելով բազմա-լեզության վրա։ Ծանոթագրումը հասկացվում է որպես լեզվաբանական կարգերի և հարաբե-րությունների ավելացում թվանշացված բնալեզվական տեքստերին, որոնք արդյունքում դառ-նում են ծանոթագրված կորպուս: Քանի որ շարահյուսական հարաբերությունները հաճախ ներկայացվում են կախվածության ծառերով, ապա մենագրության մեջ ներկայացված ծանո-թագրված կորպուսների կախվածության ծառադարաններ են: Կան բազմաթիվ ծառադարան-ներ և դրանց ծանոթագրման ոճերը զգալիորեն տարբերվում են, ինչը խոչընդոտում է դրանց օգտակարությունը լեզվաբանների և լեզվի ճարտարագետների [ԱՀ. ՞՞՞] համար. Մենք ուսում-նասիրեցինք ծանոթագրման միջլեզվական կիրառելիության ուղեցույցերի ներդաշնակեցման մի շարք ջանքեր, ներառյալ ամենավերջինը և մինչ օրս ամենաընդհանրականը՝ Համընդհա-նուր կախվածությունները: Լեզվի (ԱՀ. խոսքի) նկարագրությունը մենք ուսումնասիրում ենք երեք մակարդակով՝ 1. նշանավորում և բառաբաժանում, 2. ձևաբանու-թյուն, և 3. մակերեսային կախվածության շարահյուսություն. Յուրաքանչյուր լեզվական երևույթի համար մենք տրամա-դրում ենք դրա վերլուծության և ծանոթագրության համեմա-տությունը գոյություն ունեցող տարբեր ծառադարաններում (կամ այլ կորպուսներում, բառա-բաժանման և ձևաբանության համար), մատնանշելով մրցակից այդ մոտեցումների առավե-լություններն ու թերությունները: Բառաձեւական շերտում մենք նույնիսկ դուրս ենք գալիս ներ-կայիս մատչելի կորպուսների շրջանակներից և տրամադրում անհրաժեշտ տիպաբանություն սակավ ռեսուրսներ (ԱՀ. ՞՞՞) ունեցող լեզուների ծանոթագրման համար: Եզրակացնելով որ ոչ մի մոտեցում չի բավա-րարում բոլոր պահանջներին, բայց լավ մոտեցումը այն է, երբ ծանոթա-գրումը տեղեկույթի կորուստ չի առաջացնում ծանոթագրման այլ ոճի անցնելու անհրաժեշտու-թյան դեպքում:
Կան քերականական նկարագրություններ, կան լեզվական տիպաբանական աշխատություն-ներ, և կան մասնավոր լեզուների կորպուսների ծանոթագրման ձեռնարկներ: Սակայն, շատ չեն այն ուսումնասիրությունները, երբ մեծ թվով լեզուները համեմատում են կորպուսային ծանոթագրման տեսանկյունից։ Շուկայում բաց կա, և այս գիրքը կարող է այդ բացը լրացնել» [Zem2018::135]:
[Հայ2022] ամփոփում
«Խոսքը նշանների ծառատիպ կառույցների գծայնացված հաջորդականություն է, որով քերա-կանական օրենքների համաձայն կոդավորվում են հասկացությունները: Նշանները լինում են պարզ՝ ձեւույթներ, եւ բարդ՝ բառակապակցություններ: Հասկացությունները նշանակվում են նշաններից կառուցված լեզվաբանական ծառերով: Հասկացության նշանը լեզվաբանական ծառերի համակցություն է: Այս նշանը բարդ է ոչ այնքան զուգահեռ ծավալվող ճյուղավորման պատճառով, այլ նրանով, որ նշանակությունը որոշելու համար պետք է ծառի տարբեր մակար-դակներում նշանից նշանակություն առաջ ու հետ գնալ, ամեն անգամ ճշտելով մասնակի նշա-նակությունները:
Հասկացությունների բազմությունը գերազանցապես, իսկ լեզվաբանական ծառը բացառա-պես ընդհանրական են, կենսաբանական, իսկ նշանների եւ հասկացությունների կոդավորու-մը (նշանակումը) այդ նշաններից կազմված լեզվաբանական ծառերով մասնակի են, մշակու-թային: Այլ կերպ ասած, հասկացությունները եւ նրանց խոսքային նշանների կառուցման սկզբունքները նույն են բոլոր լեզուների համար, բայց մասնակի հասկացության նշանների կառուցվածքը (իրացումը)՝ տարբեր: Ուղեղում ձեւավորված լեզվական սարքը օրենքների մի բազմություն է, որի օգնությամբ հաղորդման ընդհանրական կառույցում՝ նախադասության մեջ, նույնացվում են {ինչը,ով}, [ինչով] ինչ է {անում,լինում} [,երբ,որտեղ,ինչպես] դերանուն-ներին համապատասխանող մասնավոր նշանների կառույցները:
Առաջարկված ԲԾ-ն պետք է դիտարկել ոչ այդքան որպես խորքային ընդհանրական կառուց-վածք, այլ որպես լեզվաբանական տեղեկույթի փոխանակման ձեւաչափ՝ տեղեկատու համա-կարգերի տվյալների [մասին] պայմանագիր (data contract)» [Հայ2022::224-225]:
Ամփոփումների ամփոփում
Վերոբերյալ վերլուծությունից հետո պարզ է, որ ՀԿ եւ [Հայ2022] մոտեցումների տարբերու-թյունը միայն մեքենացման հարթության մեջ չէ:
Թվարկենք հիմնական տարբերությունները`
Բառ հասկացությունը դժվար է սահմանել քերականական օրենքներում արդյունավետ օգտագործելու համար: Իմաստույթների պիտակավորումը շատ ավելի պարզ, տնտեսվար, եւ արդյունավետ է:
ՀԿ-ն մասնավոր լեզուների կորպուսների ծանոթագրման համընդհանուր ստանդարդ է [Zem2018]), այլ ոչ թե ցանկացած լեզվով խոսքի միատեսակ (ընդհանրական) ներկա-յացման ֆորմատ (data contract) [Հայ2022::225]:
Պիտակների (Table 3.13 [Zem2018::34]), ավելի ճիշտ` կարգերի, համեմատություն է պետք անել: ՀԿ պիտակների որոշ կարգերում (օրինակ` հոլովներում) պիտակներ են բացա-կայում, իսկ մյուսներում (օրինակ`թվականներում) շատ են: Բացի այդ, առաջին հայաց-քից, կան ոչ քերականական կարգեր (Աստիճան, Հարգանք)
Նախադասության գլխավոր անդամ գոյականական (ենթակայի), թե բայական (ստո-րոգյալի) բառակապակցությունների լինելն է: Նախադասությունը, բառի նման, քե-րակական հասկացություն չէ, քերականական օրենքներին դժվար է հարմարվում: Քե-րականական են` ձեւույթը, իմաստույթը, եւ բառակապակցությունը: Սրանք կա-ռուցվում եւ գործածվում են քերականական օրենքների հaմաձայն:
ՀԿ-ն ծառադարաններում քերակականական կարգերի ընդհանրական պիտակների բազմություն է, ծանոթագրման ուղեցույց է, եւ այդ ուղեցույցի համաձայն բազմալեզու կորպուսների ձեռքով լրացված շտեմարան: [Հայ2022]-ում առաջարկվում է`
ՀԿ (կամ նման) ծանոթագրման մեքենացում
ԲԾ-ի մեքենական կառուցում
ԲԾ-ի ցանկացած լեզվով արտաբերում
Վերոբերյալ երեք` a., b., c., կետերը իրանցնելու համար մասնավոր լեզուների համակարգչային մոդելի ստեղծում
Գրականություն
[Pet2012] S. Petrov, D. Das, R. McDonald. A Universal Part-of-Speech Tagset. In Proceedings of LREC, 2012.
[deM2015] M-C. de Marneffe, T. Dozat, N. Silveira, K. Haverinen, F. Ginter, J. Nivre, C. D. Manning. Universal Dependencies: A cross-linguistic typology. International Conference on Language Resources and Evaluation, 2015
[Zem2018] D. Zeman. The world of tokens, tags and trees. Published by the Institute of Formal and Applied Linguistics as the 19th publication in the series Studies in Computational and Theoretical Linguistics. First edition, Prague 2018.
[Niv2020] J. Nivre, M-C. de Marneffe, F. Ginter, J. Hajič, C. D. Manning, S. Pyysalo, S. Schuster, F. Tyers, D. Zeman. 2020. Universal Dependencies v2: An evergrowing multilingual treebank collection. In Proceedings of the Twelfth International Conference on Language Resources and Evaluation (LREC), pages 4027–4036. 2020.
[deM2021] M-C. de Marneffe, C. D. Manning, J. Nivre, D. Zeman. Universal Dependencies. Computational Linguistics, 47 (2): 255–308. 2021
[UDW] Universal dependencies website.
[Հայ2022] Ա. Հայրապետյան. Բնական խոսքի ընդհանրական ներկայացման մի տարբերակի մասին. Agoulis, Concord, 2022.
Comments