top of page
aramhayr

Կորպուսային լեզվաբանություն. Ներածություն

Updated: 4 days ago

Այստեղ ներկայացված են Corpus Linguistics for Beginners հաղորդաշարի դասախոսությունների ամփոփումները հայերենով:


#1 What is Corpus Linguistics?

Ամփոփում

Տեսանյութը կորպուսային լեզվաբանության ներածական ակնարկ է։ Կորպուսային լեզվաբանությունը այն ոլորտն է, որն ուսումնասիրում է խոսքը կորպուսների` բնական լեզվով տեքստերի հավաքածուների (շտեմարանների), միջոցով։ Կորպուսը պետք է լինի մեծ եւ իրական (ոչ մեքենական կամ հատուկ գրված), որպեսզի լիարժեք ներկայացնի լեզվի օգտագործումը։ Կորպուսի կառուցումը ներառնում է տեքստերի հավաքումը, համակարգչում դարանումը, եւ հատուկ ծրագրերի միջոցով վերլուծությունը։ Այսպիսի ծրագրերի օրինակներն են LancsBox (Lancaster University) եւ AntConc-ը։ Կորպուսային լեզվաբանությունը լեզվի տեսություն չէ, այլ մեթոդաբանական գործիք։ Այս ոլորտի կարեվոր գիտնականներ են` Սինքլերը եւ Բրեզինան. նրանց աշխատություններին ծանոթանալը կօգնի ավելի խորը հասկանալ կորպուսային լեզվաբանությունը:


#2 Types of Corpora

Ամփոփում

Տեսանյութում քննարկվում են կորպուսների տեսակները: Այն սկսվում է տարբեր տեսակի կորպուսների ըմբռնման կարեվորության վրա՝ հետազոտական ​​նպատակներով տեղեկացված որոշումներ կայացնելու համար. հղվում է, մասնավորապես, Routledge Handbook of Corpus Linguistics-ը: Տեսանյութում ուրվագծվում են կորպուսների տեսակները` բանավոր և գրավոր: Մյուս տեսակներն են.

  1. Նմուշային - արտացոլում են լեզվի օգտագործումը ժամանակի որոշակի կետում: [Լրացուցիչ տեղեկություններ արտաքին աղբյուրներից. Բրաունի համալսարանի կորպուսը ամերիկյան անգլերենի հինադիր կորպուս է, որը կազմվել է 1963-1964 թվականներին: Ահա հակիրճ նկարագրությունը.

    1. Պարունակում է մոտավորապես 1 միլիոն բառ

    2. Բաղկացած է 500 նմուշներից՝ յուրաքանչյուրը մոտ 2000 բառից

    3. Նմուշները տեքստերի 15 տարբեր տեսակներից են (օրինակ՝ նորություններ, գեղար-վեստական ​​գրականություն, գիտական գրականություն, ևն)

    4. Տեքստերն ի սկզբանե հրապարակվել են 1961 թվականին

    5. Բնական լեզվի տեքստերի առաջին համակարգչով ընթեռնելի կորպուսներից մեկն է

    6. Լայնորեն օգտագործվում է լեզվաբանական հետազոտությունների եւ բնական խոսքի վերլուծման համար

    7. Բրաունյան կորպուսը բեկումնային էր կորպուսային լեզվաբանության մեջ. այն ծառայում է որպես մոդել այլ կորպուսների համար, ինչպիսին է բրիտանական անգլերենի Լանկաստեր/Օսլո/Բերգեն (LOB) կորպուսը:]

  2. Համեմատական - աշխարհագրական և պատմական կորպուսները, որոնց համար կարեվոր են ընդհանուր նախագծային հատկանիշները արդյունավետ համեմատության համար.

    1. աշխարհագրական կորպուսներ - օրինակ` LOB-ը ստեղծված է աշխարհագրական տարբերակների համեմատություն համար

    2. պատմական կորպուսներ - երկու տեսակի են՝

      1. դիախրոնիկ եւ

      2. մոնիտորինգային

  3. Ընդհանուր կորպուսներ - բաղկացած են այնպիսի տեքստերից, որոնք չեն պատկանում մի որեւէ տիպի, ոլորտի, ոճի (ռեգիստրի), տիրույթի, ժանրի, ևն: Այն արտացոլում է, թե ինչպես է լեզուն օգտագործվում ընդհանուր առմամբ. օրինակ` Բրիտանական ազգային կորպուսը:

  4. Մասնագիտացված կորպուսներ - կենտրոնանում են մասնակի առարկայական ոլորտ-ների կամ տիրույթների վրա:

  5. Ծանոթագրված (պիտակավորված) կորպուս` ծառադարան - պարունակում է մեկնաբա-նական լեզվական տեղեկույթ` հնչյունաբանական, շարահյուսական, եւ իմաստային ծանո-թագրությունները, որոնք մեծացնում են կորպուսի օգտակարությունը վերլուծության հա-մար: Տես` Խոսքի նկարագրությունը Համընդհանուր Կախվածություններով:


#3 Compiling and Analyzing our First Corpus

Ամփոփում

Տեսանյութի նպատակն է դիտողներին կորպուսի վերլուծության հիմնական հմտությունների գործնական փորձ փոխանցելը: Դրա համար AntConc համակարգի օգնությամբ կորպուս է կազմվում եւ վերլուծվում: Դասախոսը ցույց է տալիս, թե ինչպես կարելի է ստեղծել փոքր կորպուս BBC-ի կայքից վերցված լրատվական հոդվածներից: Քննվում են երեք հիմնական գործառույթներ՝

  1. հաճախականության ցուցակների ստեղծում,

  2. համաձայնեցման տողերի կազմում, եւ 

  3. համատեղումների (հարադրությունների՞) հայտնաբերում: 

Բացատրվում են հիմնական հասկացությունները, ինչպիսիք են բառային նշանները եւ տեսակները, ցուցադրվում են AntConc-ի հնարավորությունները կորպուսը վերլուծելու համար: Շեշտվում է հետազոտության նպատակների կարեվորությունը կորպուս նախագծելիս եւ որոշումներ կայացնելիս: Գործնական խորհուրդներ են տրվում, օրինակ՝ Just Text-ի օգտա-գործումը կայքէջի բովանդակությունը մաքրելու համար. UTF-8 կոդավորումից օգտվելը, ևն: 

Եզրույթներ

Համաձայնեցման տողեր

Համաձայնեցման տողերը ցույց են տալիս, թե ինչպես է կոնկրետ բառը կամ արտահայտությունը (որը կոչվում է «հանգույց» կամ «հիմնաբառ») օգտագործվում համատեքստում, կորպուսում: 

Սովորաբար ցույց են տալիս`

  • Հիմնաբառը կենտրոնում

  • Մի քանի բառ հիմնաբառից առաջ եւ հետո («համատեքստ»)

  • Երբեմն յուրաքանչյուր օրինակի աղբյուրը

Համաձայնեցման տողերի ուսումնասիրության գործիքներ:

Համատեղումներ

Համատեղումները բառերի խմբեր են, որոնք հաճախ են հանդիպում: Սրանք բառերի զուտ վիճակագրորեն նշանակալի զույգեր կամ խմբեր են:

Նշանակ (token)

Կորպուսներում նշնակ են անվանում տեքստ կազմող միավորները, որոնք հիմնականում բառերն են: Նշանակներ են նաեւ կետադրական, շեշտադրական, ևն նշանները: Ման-րամասները տես` Խոսքի նկարագրությունը Համընդհանուր Կախվածություններով (Նե-րածություն հատված)


#4 Part-of-Speech Tagging and Working with Tagged Data

Ամփոփում

Տեսանյութի նպատակն է պիտակավորված կորպուսների հետ աշխատելու` լեզվաբանական վերլուծության, գործնական փորձի քննարկումն է:

Այն կենտրոնանում է խոսքի մասերի պիտակավորման եւ պիտակավորված տվյալների հետ աշխատելու վրա: Ցուցադրում է երկու` LancsBox եւ TagAnt համակարգերի գործածումը: Բացա-տրվում է կորպուսի պիտակավորման գործընթացը Բրիտանական ակադեմիական գրավոր անգլերենի BAWE (British Academic Written English) կորպուսի օրինակով: Խոսքի մասերի պիտակները օգտագործվում են որոնման բարդ հայցումներ, օրինակ՝ բայերի որոշակի ձեւեր գտնելու, համար: Քննարկվում են LancsBox-ի օգտագործման առավելություններն ու թերու-թյունները պիտակավորման համար. ա) ավտոմատ պիտակավորումը եւ անկանոն դեպքերի նկատմամբ զգայունությունը, բ) պիտակները ձեռքով խմբագրելու անհնարինությունը, ևն: Ներկայացվում է երկրորդ մեթոդը՝ TagAnt-ի օգտագործմամբ: Ընդգծվում է միաժամանակ մի քանի ֆայլեր պիտակավորելու եւ պիտակները ձեռքով խմբագրելու հնարավորությունը:

Բարդ հայցումներում օգտագործվում են անհատկանիշներ (wildcards), գերազանցապես աստղանիշը (*), ինչպես նաեւ կանոնավոր արտահայտություններ:

Պիտակավորման խնդիրների քննարկումը տես` Խոսքի նկարագրությունը Համընդհանուր Կախվածություններով:

Եզրույթներ

Անհատկանիշ (wildcard)

Հաշվողական գիտություններում (Computer science), ՏՏ-ում գործածվող երկու նշան` '*' (asterisk) եւ '?', որոնք համապատասխանաբար նշանակում են «ցանկացած նշանների ցանկացած եր-կարության հաջորդականություն» եւ «ցանկացած նշան»: Օրինակ` եթե որոնման շարժիչին հայցում տալ եր*կ, այն կվերադարձնի` երեկ, երակ, երջանիկ, երեքնուկ, երեւակ, ևն, բայց եթե տրվում է եր?կ` միայն երկու առաջինը ետ կգան:

Քանակիչ (quantifier)

Ձեւական սեմանտիկայում ընդհանրացված քանակիչը այն արտահայտությունն է, որը նշանակում է բազմությունների բազմություն։ Այս իմաստը սովորաբար վերագրվում է քանակական գոյական բառակապակցություններին: Օրինակ, յուրաքանչյուր տղա ընդհանրացված քանակիչը նշանակում է բազմությունների այն բազմությունը, որի անդամն է յուրաքանչյուր տղա-ն;

Կանոնավոր արտահայտություններ-ում ` '*' եւ '?' անհատկանիշները քանակիչ են համարվում (անվանվում):


#5 Rank Words that Belong to a Specific Word Class

Ամփոփում

Այս տեսադասը նվիրված է AntConc ծրագրաշարի օգնությամբ պիտակավորված (ծանոթա-գրված) կորպուսից որոշակի խոսքի մասերի կամ բառային դասերի հաճախականության ցուցակներ ստեղծեմանը: 

Ցույց է տրվում, թե ինչպես ստեղծել հաճախականության ցուցակներ ածականների, գոյա-կանների եւ բայերի համար, օգտագործելով BAWE (British Academic Written English) կորպուսը: 

Բացատրվում է, թե ինչպես AntConc-ով որոնում կատարել անհատկանիշների (անհայտա-նիշների) եւ հատուկ պիտակների համադրությամբ՝ որոշակի դասի բառերը մեկուսացնելու համար. ինչ ճիշտ պիտակներ օգտագործելու կարեvորությունը: Տեսանյութն ավարտվում է դիտողների համար վարժությամբ՝ ստեղծել կորպուսում անորոշ դերբայների հաճախականու-թյան ցուցակ:


#6 Look for Constructions in a Corpus

Ամփոփում

Այս տեսադասը կենտրոնանում է AntConc ծրագրաշարի օգնությամբ կորպուսում որոշակի քերականական կառուցվածքներ գտնելու վրա: 

Ինչպես որոնել այս չորս կառուցվածքները՝

  1. "As + ածական + as" (օրինակ՝ "as young as")

  2. Ածական, որին հաջորդում է "a" կամ "an" եւ եզակի գոյական (օրինակ՝ "high a level")

  3. Որոշիչ + ածական + գոյական (օրինակ՝ "the huge house")

  4. Նախդիրով ավարտվող նախադասություններ. օրինակ` I love talking about nothing it is the only thing I know anything about (Oscar Wilde)

Բացատրվում է, թե ինչպես օգտագործել խոսքի մասերի պիտակները եւ անհատկանիշնե-րը այս կառուցվածքների որոնման համար: Շեշտվում է բազմազան հնարավորին պիտակ-ների եւ որոնման եզրերի ճկուն գործածման կարեվորությունը: Ցուցադրվում է, թե ինչպես քողարկել պիտակները որոնման արդյունքներում եւ ինչպես փոփոխել AntConc-ի կարգավո-րումները (ձեւակցումը)՝ արդյունքների արտապատկերումը բարելավելու համար:


#7 Searching with Regular Expressions (Regex)

Ամփոփում

Տեսանյութի նպատակն է սովորեցնել դիտողներին, թե ինչպես կազմել որոնման ավելի թիրախային հայցումներ: Այն կենտրոնանում է կորպուսային լեզվաբանության մեջ կանո-նավոր արտահայտությունների օգտագործման վրա: Հիմնական կետերն են՝

  1. Կանոնավոր արտահայտությունները նիշերի հաջորդականություններ են, որոնք սահ-մանում են որոնման օրինաչափություններ:

  2. Բացատրում է կանոնավոր արտահայտությունների հիմնական շարահյուսությունը, օրի-նակ՝ [a-z]-ը փոքրատառերի համար եւ [A-Z]-ը մեծատառերի համար:

  3. Ցուցադրում է, թե ինչպես կանոնավոր արտահայտությունների օգնությամբ կարելի է  խու-սափել անցանկալի արդյունքներից

  4. Կանոնավոր արտահայտությունների կիրառումը ցուցադրվում է նմուշային տեքստի վրա, ինչպիսին է "The strong Viking dude":

Ուսուցողական ծրագիրը հիմնվում է պիտակավորված կորպուսների եւ որոնման հայցումներ կազմելու հնարքների մասին նախնական գիտելիքների վրա: Այն հնարավորություն է տալիս կորպուսներից օգտվողներին որոնել ցանկացած խոսքի մաս կամ կառուցվածք՝ օգտագործե-լով կանոնավոր արտահայտություններ:

Այս ռեսուրսների կարող են օգտակար լինել`

  1. Regexone: https://regexone.com/

  2. Regular Expressions Video Series in "The Coding Train:"    • 2.1: Introduction to Regular Expressi...  

  3. Gede's Channel:    / @primahadi_wijaya  


10 views0 comments

Recent Posts

See All

Comments


bottom of page