Կորպուսային լեզվաբանություն. Ներածություն

aramhayr
Sep 2, 2024
5 min read

Updated: Jan 28

Այստեղ ներկայացված են Corpus Linguistics for Beginners հաղորդաշարի դասախոսությունների ամփոփումները հայերենով:

#1 What is Corpus Linguistics?

Ամփոփում

Տեսանյութը կորպուսային լեզվաբանության ներածական ակնարկ է։ Կորպուսային լեզվաբանությունը այն ոլորտն է, որն ուսումնասիրում է խոսքը կորպուսների` բնական լեզվով տեքստերի հավաքածուների (շտեմարանների), միջոցով։ Կորպուսը պետք է լինի մեծ եւ իրական (ոչ մեքենական կամ հատուկ գրված), որպեսզի լիարժեք ներկայացնի լեզվի օգտագործումը։ Կորպուսի կառուցումը ներառնում է տեքստերի հավաքումը, համակարգչում դարանումը, եւ հատուկ ծրագրերի միջոցով վերլուծությունը։ Այսպիսի ծրագրերի օրինակներն են LancsBox-ը (Lancaster University) եւ AntConc-ը։ Կորպուսային լեզվաբանությունը լեզվի տեսություն չէ, այլ մեթոդաբանական գործիք։ Այս ոլորտի կարեվոր գիտնականներ են` Սինքլերը եւ Բրեզինան. նրանց աշխատություններին ծանոթանալը կօգնի ավելի խորը հասկանալ կորպուսային լեզվաբանությունը:

#2 Types of Corpora

Lecture #2

Ամփոփում

Տեսանյութում քննարկվում են կորպուսների տեսակները: Այն սկսվում է տարբեր տեսակի կորպուսների ըմբռնման կարեվորության վրա՝ հետազոտական նպատակներով տեղեկացված որոշումներ կայացնելու համար. հղվում է, մասնավորապես, Routledge Handbook of Corpus Linguistics-ը: Տեսանյութում ուրվագծվում են կորպուսների տեսակները` բանավոր և գրավոր: Մյուս տեսակներն են.

Նմուշային - արտացոլում են լեզվի օգտագործումը ժամանակի որոշակի կետում: [Լրացուցիչ տեղեկություններ արտաքին աղբյուրներից. Բրաունի համալսարանի կորպուսը ամերիկյան անգլերենի հինադիր կորպուս է, որը կազմվել է 1963-1964 թվականներին: Ահա հակիրճ նկարագրությունը.
1. Պարունակում է մոտավորապես 1 միլիոն բառ
2. Բաղկացած է 500 նմուշներից՝ յուրաքանչյուրը մոտ 2000 բառից
3. Նմուշները տեքստերի 15 տարբեր տեսակներից են (օրինակ՝ նորություններ, գեղար-վեստական գրականություն, գիտական գրականություն, ևն)
4. Տեքստերն ի սկզբանե հրապարակվել են 1961 թվականին
5. Բնական լեզվի տեքստերի առաջին համակարգչով ընթեռնելի կորպուսներից մեկն է
6. Լայնորեն օգտագործվում է լեզվաբանական հետազոտությունների եւ բնական խոսքի վերլուծման համար
7. Բրաունյան կորպուսը բեկումնային էր կորպուսային լեզվաբանության մեջ. այն ծառայում է որպես մոդել այլ կորպուսների համար, ինչպիսին է բրիտանական անգլերենի Լանկաստեր/Օսլո/Բերգեն (LOB) կորպուսը:]
Համեմատական - աշխարհագրական և պատմական կորպուսները, որոնց համար կարեվոր են ընդհանուր նախագծային հատկանիշները արդյունավետ համեմատության համար.
1. աշխարհագրական կորպուսներ - օրինակ` LOB-ը ստեղծված է աշխարհագրական տարբերակների համեմատություն համար
2. պատմական կորպուսներ - երկու տեսակի են՝
  1. դիախրոնիկ եւ
  2. մոնիտորինգային
Ընդհանուր կորպուսներ - բաղկացած են այնպիսի տեքստերից, որոնք չեն պատկանում մի որեւէ տիպի, ոլորտի, ոճի (ռեգիստրի), տիրույթի, ժանրի, ևն: Այն արտացոլում է, թե ինչպես է լեզուն օգտագործվում ընդհանուր առմամբ. օրինակ` Բրիտանական ազգային կորպուսը:
Մասնագիտացված կորպուսներ - կենտրոնանում են մասնակի առարկայական ոլորտ-ների կամ տիրույթների վրա:
Ծանոթագրված (պիտակավորված) կորպուս` ծառադարան - պարունակում է մեկնաբա-նական լեզվական տեղեկույթ` հնչյունաբանական, շարահյուսական, եւ իմաստային ծանո-թագրությունները, որոնք մեծացնում են կորպուսի օգտակարությունը վերլուծության հա-մար: Տես` Խոսքի նկարագրությունը Համընդհանուր Կախվածություններով:

#3 Compiling and Analyzing our First Corpus

Lecture #3

Ամփոփում

Տեսանյութի նպատակն է դիտողներին կորպուսի վերլուծության հիմնական հմտությունների գործնական փորձ փոխանցելը: Դրա համար AntConc համակարգի օգնությամբ կորպուս է կազմվում եւ վերլուծվում: Դասախոսը ցույց է տալիս, թե ինչպես կարելի է ստեղծել փոքր կորպուս BBC-ի կայքից վերցված լրատվական հոդվածներից: Քննվում են երեք հիմնական գործառույթներ՝

հաճախականության ցուցակների ստեղծում,
համաձայնեցման տողերի կազմում, եւ
համատեղումների (հարադրությունների՞) հայտնաբերում:

Բացատրվում են հիմնական հասկացությունները, ինչպիսիք են բառային նշանները եւ տեսակները, ցուցադրվում են AntConc-ի հնարավորությունները կորպուսը վերլուծելու համար: Շեշտվում է հետազոտության նպատակների կարեվորությունը կորպուս նախագծելիս եւ որոշումներ կայացնելիս: Գործնական խորհուրդներ են տրվում, օրինակ՝ Just Text-ի օգտա-գործումը կայքէջի բովանդակությունը մաքրելու համար. UTF-8 կոդավորումից օգտվելը, ևն:

Եզրույթներ

Համաձայնեցման տողեր

Համաձայնեցման տողերը ցույց են տալիս, թե ինչպես է կոնկրետ բառը կամ արտահայտությունը (որը կոչվում է «հանգույց» կամ «հիմնաբառ») օգտագործվում համատեքստում, կորպուսում:

Սովորաբար ցույց են տալիս`

Հիմնաբառը կենտրոնում
Մի քանի բառ հիմնաբառից առաջ եւ հետո («համատեքստ»)
Երբեմն յուրաքանչյուր օրինակի աղբյուրը

Համաձայնեցման տողերի ուսումնասիրության գործիքներ:

Համատեղումներ

Համատեղումները բառերի խմբեր են, որոնք հաճախ են հանդիպում: Սրանք բառերի զուտ վիճակագրորեն նշանակալի զույգեր կամ խմբեր են:

Նշանակ (token)

Կորպուսներում նշնակ են անվանում տեքստ կազմող միավորները, որոնք հիմնականում բառերն են: Նշանակներ են նաեւ կետադրական, շեշտադրական, ևն նշանները: Ման-րամասները տես` Խոսքի նկարագրությունը Համընդհանուր Կախվածություններով (Նե-րածություն հատված)

#4 Part-of-Speech Tagging and Working with Tagged Data

Lecture #4

Ամփոփում

Տեսանյութի նպատակն է պիտակավորված կորպուսների հետ աշխատելու` լեզվաբանական վերլուծության, գործնական փորձի քննարկումն է:

Այն կենտրոնանում է խոսքի մասերի պիտակավորման եւ պիտակավորված տվյալների հետ աշխատելու վրա: Ցուցադրում է երկու` LancsBox եւ TagAnt համակարգերի գործածումը: Բացա-տրվում է կորպուսի պիտակավորման գործընթացը Բրիտանական ակադեմիական գրավոր անգլերենի BAWE (British Academic Written English) կորպուսի օրինակով: Խոսքի մասերի պիտակները օգտագործվում են որոնման բարդ հայցումներ, օրինակ՝ բայերի որոշակի ձեւեր գտնելու, համար: Քննարկվում են LancsBox-ի օգտագործման առավելություններն ու թերու-թյունները պիտակավորման համար. ա) ավտոմատ պիտակավորումը եւ անկանոն դեպքերի նկատմամբ զգայունությունը, բ) պիտակները ձեռքով խմբագրելու անհնարինությունը, ևն: Ներկայացվում է երկրորդ մեթոդը՝ TagAnt-ի օգտագործմամբ: Ընդգծվում է միաժամանակ մի քանի ֆայլեր պիտակավորելու եւ պիտակները ձեռքով խմբագրելու հնարավորությունը:

Բարդ հայցումներում օգտագործվում են անհատկանիշներ (wildcards), գերազանցապես աստղանիշը (*), ինչպես նաեւ կանոնավոր արտահայտություններ:

Պիտակավորման խնդիրների քննարկումը տես` Խոսքի նկարագրությունը Համընդհանուր Կախվածություններով:

Եզրույթներ

Անհատկանիշ (wildcard)

Հաշվողական գիտություններում (Computer science), ՏՏ-ում գործածվող երկու նշան` '*' (asterisk) եւ '?', որոնք համապատասխանաբար նշանակում են «ցանկացած նշանների ցանկացած եր-կարության հաջորդականություն» եւ «ցանկացած նշան»: Օրինակ` եթե որոնման շարժիչին հայցում տալ եր*կ, այն կվերադարձնի` երեկ, երակ, երջանիկ, երեքնուկ, երեւակ, ևն, բայց եթե տրվում է եր?կ` միայն երկու առաջինը ետ կգան:

Քանակիչ (quantifier)

Ձեւական սեմանտիկայում ընդհանրացված քանակիչը այն արտահայտությունն է, որը նշանակում է բազմությունների բազմություն։ Այս իմաստը սովորաբար վերագրվում է քանակական գոյական բառակապակցություններին: Օրինակ, յուրաքանչյուր տղա ընդհանրացված քանակիչը նշանակում է բազմությունների այն բազմությունը, որի անդամն է յուրաքանչյուր տղա-ն;

Կանոնավոր արտահայտություններ-ում ` '*' եւ '?' անհատկանիշները քանակիչ են համարվում (անվանվում):

#5 Rank Words that Belong to a Specific Word Class

Lecture #5

Ամփոփում

Այս տեսադասը նվիրված է AntConc ծրագրաշարի օգնությամբ պիտակավորված (ծանոթա-գրված) կորպուսից որոշակի խոսքի մասերի կամ բառային դասերի հաճախականության ցուցակներ ստեղծեմանը:

Ցույց է տրվում, թե ինչպես ստեղծել հաճախականության ցուցակներ ածականների, գոյա-կանների եւ բայերի համար, օգտագործելով BAWE (British Academic Written English) կորպուսը:

Բացատրվում է, թե ինչպես AntConc-ով որոնում կատարել անհատկանիշների (անհայտա-նիշների) եւ հատուկ պիտակների համադրությամբ՝ որոշակի դասի բառերը մեկուսացնելու համար. ինչ ճիշտ պիտակներ օգտագործելու կարեvորությունը: Տեսանյութն ավարտվում է դիտողների համար վարժությամբ՝ ստեղծել կորպուսում անորոշ դերբայների հաճախականու-թյան ցուցակ:

#6 Look for Constructions in a Corpus

Lecture #6

Ամփոփում

Այս տեսադասը կենտրոնանում է AntConc ծրագրաշարի օգնությամբ կորպուսում որոշակի քերականական կառուցվածքներ գտնելու վրա:

Ինչպես որոնել այս չորս կառուցվածքները՝

"As + ածական + as" (օրինակ՝ "as young as")
Ածական, որին հաջորդում է "a" կամ "an" եւ եզակի գոյական (օրինակ՝ "high a level")
Որոշիչ + ածական + գոյական (օրինակ՝ "the huge house")
Նախդիրով ավարտվող նախադասություններ. օրինակ` I love talking about nothing it is the only thing I know anything about (Oscar Wilde)

Բացատրվում է, թե ինչպես օգտագործել խոսքի մասերի պիտակները եւ անհատկանիշնե-րը այս կառուցվածքների որոնման համար: Շեշտվում է բազմազան հնարավորին պիտակ-ների եւ որոնման եզրերի ճկուն գործածման կարեվորությունը: Ցուցադրվում է, թե ինչպես քողարկել պիտակները որոնման արդյունքներում եւ ինչպես փոփոխել AntConc-ի կարգավո-րումները (ձեւակցումը)՝ արդյունքների արտապատկերումը բարելավելու համար:

#7 Searching with Regular Expressions (Regex)

Lecture #7

Ամփոփում

Տեսանյութի նպատակն է սովորեցնել դիտողներին, թե ինչպես կազմել որոնման ավելի թիրախային հայցումներ: Այն կենտրոնանում է կորպուսային լեզվաբանության մեջ կանո-նավոր արտահայտությունների օգտագործման վրա: Հիմնական կետերն են՝

Կանոնավոր արտահայտությունները նիշերի հաջորդականություններ են, որոնք սահ-մանում են որոնման օրինաչափություններ:
Բացատրում է կանոնավոր արտահայտությունների հիմնական շարահյուսությունը, օրի-նակ՝ [a-z]-ը փոքրատառերի համար եւ [A-Z]-ը մեծատառերի համար:
Ցուցադրում է, թե ինչպես կանոնավոր արտահայտությունների օգնությամբ կարելի է խու-սափել անցանկալի արդյունքներից
Կանոնավոր արտահայտությունների կիրառումը ցուցադրվում է նմուշային տեքստի վրա, ինչպիսին է "The strong Viking dude":

Ուսուցողական ծրագիրը հիմնվում է պիտակավորված կորպուսների եւ որոնման հայցումներ կազմելու հնարքների մասին նախնական գիտելիքների վրա: Այն հնարավորություն է տալիս կորպուսներից օգտվողներին որոնել ցանկացած խոսքի մաս կամ կառուցվածք՝ օգտագործե-լով կանոնավոր արտահայտություններ:

Այս ռեսուրսների կարող են օգտակար լինել`

Regexone: https://regexone.com/
Regular Expressions Video Series in "The Coding Train:" • 2.1: Introduction to Regular Expressi...
Gede's Channel: / @primahadi_wijaya

Կորպուսային լեզվաբանություն. Ներածություն

#1 What is Corpus Linguistics?

Ամփոփում

#2 Types of Corpora

Ամփոփում

#3 Compiling and Analyzing our First Corpus

Ամփոփում

Եզրույթներ

Համաձայնեցման տողեր

Համատեղումներ

Նշանակ (token)

#4 Part-of-Speech Tagging and Working with Tagged Data

Ամփոփում

Եզրույթներ

Անհատկանիշ (wildcard)

Քանակիչ (quantifier)

#5 Rank Words that Belong to a Specific Word Class

Ամփոփում

#6 Look for Constructions in a Corpus

Ամփոփում

#7 Searching with Regular Expressions (Regex)

Ամփոփում

Recent Posts

Comments