top of page
aramhayr

Լեզվաբանի աշխատանոց

Updated: 4 days ago





Ներածություն

Մինչեւ Լեզվաբանի Աշխատանոցի (ԼԱ) կառուցվածքին եւ ֆունկցիաներին անցնելը փորձենք հասկանալ նրա դիրքը, դերը, եւ կարեվորությունը լեզվաբանական բնապատկերում:

Լեզվաբանությունը ճշգրիտ գիտություն է ֆիզիկայի, քիմիայի, կամ մոլեկուլային կենսաբանության նման (տես What is language? (the Language studies and linguistics հատվածը) կամ Что такое язык?): Եթե բնությունը (իրականությունը) ուսումնասիրող եւ նկարագրող գիտությունները դասավորենք ամենաընդհանրակից մինչեւ ամենամասնագիտացվածները, ապա ֆիզիկան կընկնի ընդհանրականության ծառի արմատում, իսկ լեզվաբանությունը շատ/շատ ավելի մասնագիտացված ճյուղերի շարքում, մոտավորապես` կոդավորման տեսություն, կոդավորում/վերլուծում ոլորտների, ոչ հստակ գաղափարների ոչ հստակ կոդավորում [Հայ2022:: 194-196,314], կենսա/հոգեբանություն, ուսանում ենթաոլորտների շարքում: Այդ ոլորտը միգուցե իմաստ ունի կոչել Լեզվագիտություն:

Լեզվագիտության, ինչպես եւ մյուս բնական գիտությունների լեզուն ունի երկու բաղադրիչ` բնական լեզու + մաթեմատիկա: Վերջինս նույնպես բնալեզվական ծագում ունի` մաթեմատիկան կառուցված է ձեւական տրամաբանության հիմքի վրա, որն իր հերթին բոլոր բնական լեզուներին հատուկ տրամաբանական պնդումների սերման եւ վերլուծման ընդհանրականացված եւ ձեւայնացված եզրույթների եւ պնդումներ կոդավորող քերականական կանոնների ենթաբազմություն է:

Որպեսզի չշփոթենք հաշվապահությունը մաթեմատիկայի հետ փորձենք ամփոփել վերոբերյալ միտքը: Մաթեմատիկան բնական լեզուներից եզրերի եւ քերականական կանոնների քաղվածք է, որն ընդգրկում է` ա) միանշանակ եզրերի համընդհանրական բառարան (օրինակ` +, =, 0, 1, ... , 9, լատիներեն, հունարեն, եբրայերեն, ևն այբուբենների տառեր, «փոփոխական», «հաստատուն», «ճիշտ», «սուտ», «հետեւում է», ևն), բ) միանշանակ եզրերի եւ եզրերի քերականական պնդումներ արտահայտող միանշանակ համակցումներից նոր միանշանակ պնդումներ կառուցելու քերականական օրենքների բազմություն: Բնական լեզվի այս ենթաբազմությունը օգտագործվում է իրականության մեր ընկալման օրինաչափությունների նկարագրման եւ այդ նկարագրության (ինքնահղում) օրինաչափությունների բացահայտման եւ նկարագրման համար:

Նրանց համար, ովքեր մաթեմատիկայի վերոբերյալ սահմանումը խճճված են համարում եւ «վախենում» են մաթեմատիկական բանաձեւերից պարզեցնեմ` մաթեմատիկան բնական լեզվի ենթաբազմություն է: Ինչպես եւ ցանկացած լեզվով նրանով կարելի է եւ «խուճուճ», եւ պարզ արտահայտություններ կառուցել: Լավ մաթեմատիկոսները, լավ գրողների նման պարզ են արտահայտվում, իսկ վատերը` խուճուճ: Կոնկրետ անհատների դասակարգումների երկու ոլորտներում էլ թողնում եմ ընթերցողին` դա ճաշակի, սուբյեկտիվ ընկալման տիրույթում է::

Լեզուն այսպիսով կարելի է եւ պետք է նկարագրել մաթեմատիկորեն, քանի որ այդպիսի նկարագրությունը տարբերվում է, օրինակ` հայերենով նկարագրությունից ա) հայերեն բառերի փոխարեն ընդհանրական նշանների գործածմամբ եւ բ) միանշանակությամբ եւ լեզվի նկարագրությանը չառնչվող պնդումների բացակայությամբ: Այս մոտեցումը կարճեցնում եւ ավելի դյուրին, հասկանալի է դարձնում (հակառակ բանաձեւերից վախ ներմուծող առասպելների, նոր հայերենով ասած` նարատիվների) լեզվի նկարագրությունը:

ԼԱ կառուցման տրամաբանական հիմք կընդունենք լեզվի մաթեմատիկական [Հայ2022] նկարագրությունը, մոդելը: Այն հնարավորություն կտա լեզվաբաններին լեզուն ուսումնասիրել հաշվողական գիտությունների եւ կոմպյուտերային տեխնոլոգիաների արդի միջոցներով:

ԼԱ տեղեկատվական հիմքը կկազմեն  Գանձարան եւ Հայկական կորպուսները տես Հայկական կորպուսները հատվածը ստորեւ): Ճիշտ նախագծելու եւ բարձրորակ իրացման դեպքում այն կարող է դառնալ լեզվաբանության LHC (Գանձարան ) կամ JWST (Կորպուսները):

Աշխատանոցի ներքին կառուցվածքը

ԼԱ եռաշերտ համակարգ է, որի հիմնական շերտերն են ա) տվյալնրի շտեմարանը` Գանձարանը եւ բազմազան կորպուսներ (տե՛ս Հայկական կորպուսները հատվածը ստորեւ), բ) միկրոծառայություններ, որոնք ապահովում են տեքստային բառաձեւերի սերում  եւ վերլուծում. իմաստույթների որոնում. վիճակագրական տեղեկույթի հաշվարկում. տեքստերի քերականական եւ վիճակագրական վերլուծում. ևն, գ) ՕՄ, որի օգնությամբ ԼԱ-ն կառավարվում է ե՛ւ լեզվաբանական, ե՛ւ այլ ծառայությունների հաշվարկները. վերջնական օգտատերերին` բառագետին, տեսական եւ դաշտային լեզվաբանին, բանասերին, այլ հետազոտողներին եւ ուսանողներին, մատչելի է դարձվում ԼԱ հաշվողական ծառայությունները:

ԼԱ ներքին կառուցվածքը բերված է ստորեւ`

Աշխատանոցի ֆունկցիաները

ԼԱ հիմնական ֆունկցիաները կարելի դասակարգել հետեւյալ խմբերի` ա) տվյալների ներհոսքի կառավարում, որը հիմնականում ապահովում է բառարանների եւ կորպուսների բովանդակության նորացումը. բ) տվյալների ձեւափոխություն եւ վերլուծում, գ) տվյալների որոնում (տեղեկատու ծառայություններ), դ) տեղեկատու հայցումների ձեւավորումն ու ստացված տեղեկույթի արտապատկերումը վերջնական օգտատերերի համար:

Տվյալների կառավարումն ու ներհոսքը

Այս ծառայությունները արտաքին տվյալների ներհոսքի հետ մեկտեղ ապահովում են տեղեկույթի փոխանակումը շտեմարանների միջեւ: Արտաքին տվյալները անցնելով տարբեր տեղեկատարերի միջով գրանցվում են համապատասխան շտեմարաններում: Կորպուսները կառավարող ծրագիրը նոր տեքստի ինդեքսավորումից հետո գանձարանին հայտնում է նոր տեքստի բոլոր իմաստույթների մասին տեղեկություններ Գանձարանին: Գանձարանի կառավարող ծրագիրը նորացնում է Գանձարանում արդեն մուտքագրված իմաստույթների կարգանիշները (կորպուսներում հանդիպելու քանակը), իսկ նորերի, Գանձարանում բացակայողների ցուցակը ներկայացնում է Բառագետին Գանձարանի նոր մուտք ստեղծելու եւ հաստատելու համար:

Տվյալները պահեստավորվում են NoSQL շտեմարաններում:

Տվյալների ձեւափոխությունն ու վերլուծումը

Շտեմարան մուտքագրվող տեքստը անցնում է ինքնաշխատ եւ/կամ ձեռաշխատ սրբագրում հետագա ինդեքսավորման համար: Բառարանների տվյալները ինդեքսավորումից առաջ ձեւափոխվում են (Բնագրի վերածումը մուտքային տվյալների), իսկ կորպուսների տեքստերը նաեւ պիտակավորում (Running the Armenian Parser):

Այս ծառայություններից սրբագրումը, պիտակավորումը, եւ լեմմավորումը (Running the Armenian Parser) մատչելի են վերջնական օգտատերերին («հասարակ» մարդկանց) անձնական պահանջների [տեքստերի] համար:

Տվյալների որոնումը

Տվյալների որոնման համար կօտագործվեն կամ շտեմարաններում առկա ինդեքսավորման համակարգերը կամ, եթե պահանջվի, հատուկ համակարգեր (Amazon ElasticSearch, Apache Solr/Lucene):

Տվյալների արտապատկերումը

Այս շերտը կապահովի վերջնական օգտատերերից ստացված հայցումների ձեւափոխումը եւ փոխանցումը ԼԱ ծառայություններին եւ նրանցից ստացված արդյունքների արտապատկերումը: Հայցումները կարող ամենատարբեր բնույթի լինել` մի որեւէ իմաստույթի (բառաձեւի) նկարագրությունը ստանալուց, մինչեւ տեքստերի բարդությունը հաշվարկելը կամ վիճակագրական վերլուծություն կատարելը:

Հայկական կորպուսները

Հայերեն կորպուսների տեսակները/տարբերակները`

  1. Armenian manuscripts corpus

  2. Grabar (V-X (?) centuries) corpus

  3. Armenian periodicals and newspapers (pre-Soviet, Soviet, post-Soviet, post-Independence) corpus

  4. Armenian oral tradition corpus (philologists, ethnographers (cultural anthropologists?) should be involved)

  5. Armenian current spoken dialects corpus:

    1. Eastern Armenian National Corpus - Արևելահայերենի ազգային կորպուսը (ԱրևԱԿ) - Armenian literature corpus

  6. Yerevan (Gyumri, Vanadzor, etc.) dialect daily spoken yearly snapshots corpus

  7. Armenian TV, radio (Soviet, post-Soviet, post-Independence), podcasts corpus. A Section: Cinema, Theatre including TV, radio productions corpus.

  8. Armenian non-fictional (scientific, scholastic) corpus

  9. Armenian Songs lyrics - folk, classic, soviet, rabis, hip-hop.

  10. Kurdish (ezidis) oral and written (Riya Taza) corpura.

  11. Lomaveren (Armenian L/Roma peoples) language corpus.

  12. Caucasian Albanian language corpus

  13. South caucasus Russian periodicals corpus

  14. South caucasus and Russia's Armenian periodicals corpus

  15. South caucasus and Russia's in Russian Armenian periodicals corpus

  16. EU and USA Armenian periodicals corpus

  17. Middle Eastern (+Türkiye, +Persia) Armenian periodicals corpus

  18. Turkish literary, non-fiction, periodicals (including written in Armenian letters) corpus

  19. Azerbaijani literary, non-fiction, periodicals (pre-Soviet, Soviet, post-Soviet) corpus

  20. Georgian periodicals and newspapers (pre-Soviet, Soviet, post-Soviet, post-Independence) corpus

  21. Georgian oral tradition corpus.

  22. Georgian current spoken dialects corpus.

  23. Georgian dialect daily spoken yearly snapshots corpus

  24. Georgian TV, radio (Soviet, post-Soviet, post-Independence), podcasts corpus. A Section: Cinema, Theatre including TV, radio productions corpus.

  25. Georgian non-fictional (scientific, scholastic) corpus

  26. Georgian Songs lyrics - folk, classic, soviet, rabis, hip-hop.

  27. Persian literary, non-fiction, periodicals corpus

  28. Urartian corpus

  29. Mesopotamian: Summer-Akkadian, Assyrian, Babylonian, etc. corpus

Բոլոր այս կորպուսները մատչելի կլինեն ԼԱ-ից, որը որոնումից բացի կառաջարկի բազմաբնույթ գործիքակազմ խոսքի մաթեմատիկական վերլուծության համար:





7 views0 comments

Recent Posts

See All

Comments


bottom of page