Այստեղ ներկայացված են Corpus Linguistics for Beginners հաղորդաշարի դասախոսությունների ամփոփումները հայերենով:
#1 What is Corpus Linguistics?
Ամփոփում
Տեսանյութը կորպուսային լեզվաբանության ներածական ակնարկ է։ Կորպուսային լեզվաբանությունը այն ոլորտն է, որն ուսումնասիրում է խոսքը կորպուսների` բնական լեզվով տեքստերի հավաքածուների (շտեմարանների), միջոցով։ Կորպուսը պետք է լինի մեծ եւ իրական (ոչ մեքենական կամ հատուկ գրված), որպեսզի լիարժեք ներկայացնի լեզվի օգտագործումը։ Կորպուսի կառուցումը ներառնում է տեքստերի հավաքումը, համակարգչում դարանումը, եւ հատուկ ծրագրերի միջոցով վերլուծությունը։ Այսպիսի ծրագրերի օրինակներն են LancsBox-ը (Lancaster University) եւ AntConc-ը։ Կորպուսային լեզվաբանությունը լեզվի տեսություն չէ, այլ մեթոդաբանական գործիք։ Այս ոլորտի կարեվոր գիտնականներ են` Սինքլերը եւ Բրեզինան. նրանց աշխատություններին ծանոթանալը կօգնի ավելի խորը հասկանալ կորպուսային լեզվաբանությունը:
#2 Types of Corpora
Ամփոփում
Տեսանյութում քննարկվում են կորպուսների տեսակները: Այն սկսվում է տարբեր տեսակի կորպուսների ըմբռնման կարեվորության վրա՝ հետազոտական նպատակներով տեղեկացված որոշումներ կայացնելու համար. հղվում է, մասնավորապես, Routledge Handbook of Corpus Linguistics-ը: Տեսանյութում ուրվագծվում են կորպուսների տեսակները` բանավոր և գրավոր: Մյուս տեսակներն են.
Նմուշային - արտացոլում են լեզվի օգտագործումը ժամանակի որոշակի կետում: [Լրացուցիչ տեղեկություններ արտաքին աղբյուրներից. Բրաունի համալսարանի կորպուսը ամերիկյան անգլերենի հինադիր կորպուս է, որը կազմվել է 1963-1964 թվականներին: Ահա հակիրճ նկարագրությունը.
Պարունակում է մոտավորապես 1 միլիոն բառ
Բաղկացած է 500 նմուշներից՝ յուրաքանչյուրը մոտ 2000 բառից
Նմուշները տեքստերի 15 տարբեր տեսակներից են (օրինակ՝ նորություններ, գեղար-վեստական գրականություն, գիտական գրականություն, ևն)
Տեքստերն ի սկզբանե հրապարակվել են 1961 թվականին
Բնական լեզվի տեքստերի առաջին համակարգչով ընթեռնելի կորպուսներից մեկն է
Լայնորեն օգտագործվում է լեզվաբանական հետազոտությունների եւ բնական խոսքի վերլուծման համար
Բրաունյան կորպուսը բեկումնային էր կորպուսային լեզվաբանության մեջ. այն ծառայում է որպես մոդել այլ կորպուսների համար, ինչպիսին է բրիտանական անգլերենի Լանկաստեր/Օսլո/Բերգեն (LOB) կորպուսը:]
Համեմատական - աշխարհագրական և պատմական կորպուսները, որոնց համար կարեվոր են ընդհանուր նախագծային հատկանիշները արդյունավետ համեմատության համար.
աշխարհագրական կորպուսներ - օրինակ` LOB-ը ստեղծված է աշխարհագրական տարբերակների համեմատություն համար
պատմական կորպուսներ - երկու տեսակի են՝
դիախրոնիկ եւ
մոնիտորինգային
Ընդհանուր կորպուսներ - բաղկացած են այնպիսի տեքստերից, որոնք չեն պատկանում մի որեւէ տիպի, ոլորտի, ոճի (ռեգիստրի), տիրույթի, ժանրի, ևն: Այն արտացոլում է, թե ինչպես է լեզուն օգտագործվում ընդհանուր առմամբ. օրինակ` Բրիտանական ազգային կորպուսը:
Մասնագիտացված կորպուսներ - կենտրոնանում են մասնակի առարկայական ոլորտ-ների կամ տիրույթների վրա:
Ծանոթագրված (պիտակավորված) կորպուս` ծառադարան - պարունակում է մեկնաբա-նական լեզվական տեղեկույթ` հնչյունաբանական, շարահյուսական, եւ իմաստային ծանո-թագրությունները, որոնք մեծացնում են կորպուսի օգտակարությունը վերլուծության հա-մար: Տես` Խոսքի նկարագրությունը Համընդհանուր Կախվածություններով:
#3 Compiling and Analyzing our First Corpus
Ամփոփում
Տեսանյութի նպատակն է դիտողներին կորպուսի վերլուծության հիմնական հմտությունների գործնական փորձ փոխանցելը: Դրա համար AntConc համակարգի օգնությամբ կորպուս է կազմվում եւ վերլուծվում: Դասախոսը ցույց է տալիս, թե ինչպես կարելի է ստեղծել փոքր կորպուս BBC-ի կայքից վերցված լրատվական հոդվածներից: Քննվում են երեք հիմնական գործառույթներ՝
հաճախականության ցուցակների ստեղծում,
համաձայնեցման տողերի կազմում, եւ
համատեղումների (հարադրությունների՞) հայտնաբերում:
Բացատրվում են հիմնական հասկացությունները, ինչպիսիք են բառային նշանները եւ տեսակները, ցուցադրվում են AntConc-ի հնարավորությունները կորպուսը վերլուծելու համար: Շեշտվում է հետազոտության նպատակների կարեվորությունը կորպուս նախագծելիս եւ որոշումներ կայացնելիս: Գործնական խորհուրդներ են տրվում, օրինակ՝ Just Text-ի օգտա-գործումը կայքէջի բովանդակությունը մաքրելու համար. UTF-8 կոդավորումից օգտվելը, ևն:
Եզրույթներ
Համաձայնեցման տողեր
Համաձայնեցման տողերը ցույց են տալիս, թե ինչպես է կոնկրետ բառը կամ արտահայտությունը (որը կոչվում է «հանգույց» կամ «հիմնաբառ») օգտագործվում համատեքստում, կորպուսում:
Սովորաբար ցույց են տալիս`
Հիմնաբառը կենտրոնում
Մի քանի բառ հիմնաբառից առաջ եւ հետո («համատեքստ»)
Երբեմն յուրաքանչյուր օրինակի աղբյուրը
Համաձայնեցման տողերի ուսումնասիրության գործիքներ:
Համատեղումներ
Համատեղումները բառերի խմբեր են, որոնք հաճախ են հանդիպում: Սրանք բառերի զուտ վիճակագրորեն նշանակալի զույգեր կամ խմբեր են:
Նշանակ (token)
Կորպուսներում նշնակ են անվանում տեքստ կազմող միավորները, որոնք հիմնականում բառերն են: Նշանակներ են նաեւ կետադրական, շեշտադրական, ևն նշանները: Ման-րամասները տես` Խոսքի նկարագրությունը Համընդհանուր Կախվածություններով (Նե-րածություն հատված)
#4 Part-of-Speech Tagging and Working with Tagged Data
Ամփոփում
Տեսանյութի նպատակն է պիտակավորված կորպուսների հետ աշխատելու` լեզվաբանական վերլուծության, գործնական փորձի քննարկումն է:
Այն կենտրոնանում է խոսքի մասերի պիտակավորման եւ պիտակավորված տվյալների հետ աշխատելու վրա: Ցուցադրում է երկու` LancsBox եւ TagAnt համակարգերի գործածումը: Բացա-տրվում է կորպուսի պիտակավորման գործընթացը Բրիտանական ակադեմիական գրավոր անգլերենի BAWE (British Academic Written English) կորպուսի օրինակով: Խոսքի մասերի պիտակները օգտագործվում են որոնման բարդ հայցումներ, օրինակ՝ բայերի որոշակի ձեւեր գտնելու, համար: Քննարկվում են LancsBox-ի օգտագործման առավելություններն ու թերու-թյունները պիտակավորման համար. ա) ավտոմատ պիտակավորումը եւ անկանոն դեպքերի նկատմամբ զգայունությունը, բ) պիտակները ձեռքով խմբագրելու անհնարինությունը, ևն: Ներկայացվում է երկրորդ մեթոդը՝ TagAnt-ի օգտագործմամբ: Ընդգծվում է միաժամանակ մի քանի ֆայլեր պիտակավորելու եւ պիտակները ձեռքով խմբագրելու հնարավորությունը:
Բարդ հայցումներում օգտագործվում են անհատկանիշներ (wildcards), գերազանցապես աստղանիշը (*), ինչպես նաեւ կանոնավոր արտահայտություններ:
Պիտակավորման խնդիրների քննարկումը տես` Խոսքի նկարագրությունը Համընդհանուր Կախվածություններով:
Եզրույթներ
Անհատկանիշ (wildcard)
Հաշվողական գիտություններում (Computer science), ՏՏ-ում գործածվող երկու նշան` '*' (asterisk) եւ '?', որոնք համապատասխանաբար նշանակում են «ցանկացած նշանների ցանկացած եր-կարության հաջորդականություն» եւ «ցանկացած նշան»: Օրինակ` եթե որոնման շարժիչին հայցում տալ եր*կ, այն կվերադարձնի` երեկ, երակ, երջանիկ, երեքնուկ, երեւակ, ևն, բայց եթե տրվում է եր?կ` միայն երկու առաջինը ետ կգան:
Քանակիչ (quantifier)
Ձեւական սեմանտիկայում ընդհանրացված քանակիչը այն արտահայտությունն է, որը նշանակում է բազմությունների բազմություն։ Այս իմաստը սովորաբար վերագրվում է քանակական գոյական բառակապակցություններին: Օրինակ, յուրաքանչյուր տղա ընդհանրացված քանակիչը նշանակում է բազմությունների այն բազմությունը, որի անդամն է յուրաքանչյուր տղա-ն;
Կանոնավոր արտահայտություններ-ում ` '*' եւ '?' անհատկանիշները քանակիչ են համարվում (անվանվում):
#5 Rank Words that Belong to a Specific Word Class
Ամփոփում
Այս տեսադասը նվիրված է AntConc ծրագրաշարի օգնությամբ պիտակավորված (ծանոթա-գրված) կորպուսից որոշակի խոսքի մասերի կամ բառային դասերի հաճախականության ցուցակներ ստեղծեմանը:
Ցույց է տրվում, թե ինչպես ստեղծել հաճախականության ցուցակներ ածականների, գոյա-կանների եւ բայերի համար, օգտագործելով BAWE (British Academic Written English) կորպուսը:
Բացատրվում է, թե ինչպես AntConc-ով որոնում կատարել անհատկանիշների (անհայտա-նիշների) եւ հատուկ պիտակների համադրությամբ՝ որոշակի դասի բառերը մեկուսացնելու համար. ինչ ճիշտ պիտակներ օգտագործելու կարեvորությունը: Տեսանյութն ավարտվում է դիտողների համար վարժությամբ՝ ստեղծել կորպուսում անորոշ դերբայների հաճախականու-թյան ցուցակ:
#6 Look for Constructions in a Corpus
Ամփոփում
Այս տեսադասը կենտրոնանում է AntConc ծրագրաշարի օգնությամբ կորպուսում որոշակի քերականական կառուցվածքներ գտնելու վրա:
Ինչպես որոնել այս չորս կառուցվածքները՝
"As + ածական + as" (օրինակ՝ "as young as")
Ածական, որին հաջորդում է "a" կամ "an" եւ եզակի գոյական (օրինակ՝ "high a level")
Որոշիչ + ածական + գոյական (օրինակ՝ "the huge house")
Նախդիրով ավարտվող նախադասություններ. օրինակ` I love talking about nothing it is the only thing I know anything about (Oscar Wilde)
Բացատրվում է, թե ինչպես օգտագործել խոսքի մասերի պիտակները եւ անհատկանիշնե-րը այս կառուցվածքների որոնման համար: Շեշտվում է բազմազան հնարավորին պիտակ-ների եւ որոնման եզրերի ճկուն գործածման կարեվորությունը: Ցուցադրվում է, թե ինչպես քողարկել պիտակները որոնման արդյունքներում եւ ինչպես փոփոխել AntConc-ի կարգավո-րումները (ձեւակցումը)՝ արդյունքների արտապատկերումը բարելավելու համար:
#7 Searching with Regular Expressions (Regex)
Ամփոփում
Տեսանյութի նպատակն է սովորեցնել դիտողներին, թե ինչպես կազմել որոնման ավելի թիրախային հայցումներ: Այն կենտրոնանում է կորպուսային լեզվաբանության մեջ կանո-նավոր արտահայտությունների օգտագործման վրա: Հիմնական կետերն են՝
Կանոնավոր արտահայտությունները նիշերի հաջորդականություններ են, որոնք սահ-մանում են որոնման օրինաչափություններ:
Բացատրում է կանոնավոր արտահայտությունների հիմնական շարահյուսությունը, օրի-նակ՝ [a-z]-ը փոքրատառերի համար եւ [A-Z]-ը մեծատառերի համար:
Ցուցադրում է, թե ինչպես կանոնավոր արտահայտությունների օգնությամբ կարելի է խու-սափել անցանկալի արդյունքներից
Կանոնավոր արտահայտությունների կիրառումը ցուցադրվում է նմուշային տեքստի վրա, ինչպիսին է "The strong Viking dude":
Ուսուցողական ծրագիրը հիմնվում է պիտակավորված կորպուսների եւ որոնման հայցումներ կազմելու հնարքների մասին նախնական գիտելիքների վրա: Այն հնարավորություն է տալիս կորպուսներից օգտվողներին որոնել ցանկացած խոսքի մաս կամ կառուցվածք՝ օգտագործե-լով կանոնավոր արտահայտություններ:
Այս ռեսուրսների կարող են օգտակար լինել`
Regexone: https://regexone.com/
Regular Expressions Video Series in "The Coding Train:" • 2.1: Introduction to Regular Expressi...
Gede's Channel: / @primahadi_wijaya
Comments