top of page
Search

Հումանիտար Թվանշային Տեխնոլոգիաներ

Updated: 24 hours ago





Ներածություն

Հումանիտար գիտություններում տեղեկատվական տեխնոլոգիաների (ՏՏ), հաշվողական տեխնիկայի, եւ մաթեմատիկայի նվաճումների օգտագործման համար անհրաժեշտ է երկու բան` հումանիտար հե­տա­զոտ­ման նյութերի թվայնացում, թվանշացում (սահմանումները տես Եզրույթներ էջում) եւ այդ նյութերի վեր­լուծ­ման, հետազոտման համակարգչային հատուկ մոտեցումների մշակում: Գիտատեխնիկական այն ոլորտը, որը զբաղվում է այդ երկու խնդիրների լուծմամբ կոչվում է Հումանիտար  Թվանշային Տեխնոլոգիաներ` ՀԹՏ:

Այստեղ թվանշացված կամ թվային ծագում ունեցող աղբյուրաբանական (պատմական, փիլիսոփայական, գրական), գիտական, թանգարանային, արվեստաբանական, հնագիտական, երաժշտական, ևն նյութերի հետազոտության ավանդական մոտեցումներին ավելանում են համակարգչային գործիքները, որոնք նոր հնարավորություններ են բացում։

Քանի որ մշակութային տեղեկատվության փոխանցման հիմնական միջոցը խոսքն է, իսկ վերջին 2-3 հա­զա­րա­մյակներում, գրավոր խոսքը, ապա բնական է կենտրոնանալ խոսքի, մասնավորապես` գրավոր, թվա­նշաց­ման խնդիրների վրա:

Եթե մինչեւ XXI դարը կուտակված գրավոր (բանավոր) ժառանգության թվայնացման նպատակը կարելի էր համարել հետազոտողներին (աղբյուրագետներին, բանասերներին, պատմաբաններին) հարմար գոր­ծիք­ներ ստեղծելը, ապա հիմա այն պարտադիր է տեղեկատվության թիրախավորման համար: Հաղորդումը լսարանին հասցնելու համար բովանդակության ստեղծումը բավական չէ: Այն պետք է ստեղծվի այնպիսի ձեւաչափով, որ ընթերցողը (լսողը) կարողանա գտնել այն, ինչ-որ իրեն պետք է, իսկ տեղեկատվության ստեղծողը` պարտադրել:

Կարճ պատմություն

Թվային տեխնոլոգիաների առաջին կիրառումը հումանիտար բնագավառում ընդունված է համարել 1940-ականներին իրագործված Index Thomisticus նախագիծը: Ճիզվիտ գիտնական Ռ. Բուսան, IBM- ի հետ հա­մագործակցելով, ստեղծեց Թովմա Աքվինացու աշխատանքների համակարգչային համաբարբառը:

Ձայնի թվայնացում

Առաջին բանավոր խոսք սերող սարքը կառուցվել է 1936 թ. [Խոսքի եւ ձայնի ճանաչման ժա­մա­նա­կագ­րու­թյուն], իսկ առաջին խոսք «հասկացող» սարքը 1952-ին:

Ձայնային ազդանշանների ճանաչման առաջին փուլը տատանումների` այսինքն ձայնային պատկերի, թվայնացումն է, իսկ հետո, երկրորդ փուլում, այն փոխարկվում է ձայնույթների:

90-ական թվականներին ստեղծվեցին անընդհատ խոսք ճանաչող սարքեր. Սա որակական մի նոր քայլ էր ձայն-թվանշան փոխարկման բնագավառում: Հաջորդ մեծ քայլը կարելի է համարել համակարգչային երկ­խո­սության եւ մասնավորապես Անհատական Թվային Օգնականների նախագծումն ու գործնական կի­րա­ռու­մը: Սրանց օրինակներ են Siri-ն (Apple, 2011), Cortana-ն (Microsoft, 2014), Alexa-ն (Amazon, 2014): Այս կի­րա­ռու­մները ոչ միայն զուտ բանավոր խոսքը ճանաչում եւ արտահանում են, բայց նաեւ «հասկանում» են այն` գոր­ծողություններ կատարում: Ձայնային միջերես (ինտերֆեյս) լինելով, նրանք համակարգչային հրա­հանգ­ներ են արտածում բնակարանային գործիքներ (լույս, հեռատեսիլ, ռադիո, համացանց, թերմոստատ, ևն) կա­ռավարելու համար: Սակայն ամենագործնական օգնությունը ստացվում է մեքենա վարելիս` SMS/email-նե­րի ընթերցում ու թելադրում, հեռախոսի կառավարում` զանգերի ընդունում ու մեկնարկում, ռադիոյի եւ ին­տերնետի հետ շփում (վերջինի դեպքում էլեկտրոնային քարտեզն ամենաօգտակարն ու կարեւորն է):

Տեքստի թվայնացում

Տպագիր տեքստերի մեքենացված (ի տարբերություն Ռ. Բուսայի նախագծի, երբ տեքստերը մուտքագրվում էին ձեռքով` դակիչներով) մուտքագրման` տեսողական ճանաչման, ռահվիրան նույնպես IBM-ն էր: 1931–1954 թթ. IBM-ը մշակեց առաջին այն գրանշաններ ճանաչող համակարգը, որը գործածելի էր եւ վաճառվում էր [Գրա­նշանների ճանաչման ժամանակագրություն]:

Տեքստերի թվայնացումը նույնպես երկփուլ է` սկզբից թվանշացվում է անալոգ (անընդհատ) պատկերը, այս­ինքն` ձեռագիր կամ տպագիր տեքստի լուսանկարը, իսկ հետո այն վերածվում է տառերը համակարգչում ներկայացնող թվանշանների:

Այսպիսով ե՛ւ ձայնի, ե՛ւ տեքստի դեպքում պետք է տարբերել պատկերի` ձայնային ալիքների եւ տեքստի պատ­ճենի, թվայնացումը ձայնույթների եւ գրույթների (տառերի) թվայնացումից:

Կիրառումներ

Նյութերի թվայնացում եւ վերլուծում

ՏՏ կիրառումը ՀԳ բնագավառում սկսվում է ավանդական կրիչների` ձայնա/տեսա ժապավենների (Ar­me­ni­an Speech-to-Text WebApplication) կամ գրքերի պարունակությունը (User's Guide to OCR Data Pipeline) թվա­նշան­ների վերածելուց: Հետո թվանշացված բնական խոսքի մաթեմատիկական վերլուծման ենթարկելուց

  1. Թվայնացում եւ դարանում, որը ընդգրկում է ինչպես ավանդական այնպես էլ նոր մուտքագրման եւ տվյալների դարանման տեխնոլոգիաներ:

    1. Ավանդական մուտքագրման տեխնոլոգիաներից են`

      1. Մեքենագրում (համակարչային մուտքագրումը ի ծնե թվային է)

      2. Պատճենավորում

      3. Ձայնագրում

      4. Տեսագրում

    2. Ավանդական դարանման տեխնոլոգիաներից են`

      1. Ֆայլային համակարգը

      2. Տվյալների վերաբերական շտեմարանը`տվյալները պահվում են անվանված սյուներով աղյուսակում

      3. Ձայնա/տեսաժապավենների պատկերների թվայնացում, սեղմում եւ BD/CD/DVD (Blu-ray/Compact/Digital video սկավառակներ)

    3. Նոր մուտքագրման տեխնոլոգիաներից են`

      1. Տեքստի պատճենի թվայնացում տեսողական ճանաչման համակարգերով (User's Guide to OCR Data Pipeline)

      2. Բանավոր (անընդհատ) խոսքի ճանաչում եւ թվայնացում (Armenian Speech-to-Text WebApplication)

    4. Նոր, հավելյալ դարանման տեխնոլոգիաներից են`

      1. Մեծածավալ, կառուցվածք չունեցող տվյալների դարանները (NoSQL DB)

      2. Օբյեկտների, այսինքն տվյալների [ծառատիպ] կառույցների դարանները (S3)

  2. Թվայնացված տվյալների կամ տեղեկույթի վերլուծում`

    1. Բանավոր խոսքը տեքստի վերածում (Armenian Speech-to-Text WebApplication) եւ հակառակը

    2. Բնական խոսքի վերլուծություն (Armenian Parser)

    3. Տեսային (Visual search engine), ձայնային (Audio search engine ), եւ տեսագրական (Video search engine) որոնում

    4. Բնալեզվական որոնում (Semantic search, Vector database, Word embeddings, Inverted index)

    5. Օրինաչափությունների հաշվարկում

    6. Տեսային պատկերների անվանում եւ նկարագրում (astica, imagedescriber, docsbot)

    7. ԲԾ ծառադարանների կառուցում (Կորպուսների կառուցում)

Թվայնացումից հետո նյութը պատրաստ է մեքենական կիրառումների համար:

Կիրառման ոլորտները

Թվայնացված խոսքը մի կողմից ուսումնասիրման առարկա է, իսկ մյուս` բազմաթիվ կիրառումների նախապայման`

  1. Էլեկտրոնաին քարտարաններ, բառարաններ, գանձարաններ`

    1. Բացատրական/հանրագիտական բառարան

    2. Երկլեզու/բազմալեզու բառարան

    3. Բառապաշարի գանձարաններ (thesaurus)

    4. Եզրույթների բառարան

    5. Քարտարաններ. օրինակ` ֆիզիկական կամ վիրտուալ գրադարանների

  2. Ձայն - տեքստ – ձայն. տարածված կիրառումներ.

    1. աուդիոգրքեր,

    2. կրկնօրինակում (տեքստի ընթերցում) եւ ենթագրեր, օրինակ` YouTube-ի տեսանյութերում

    3. ձայնային ֆայլերի թվայնացում, տեքստային ֆայլի վերածում (օրինակ՝ բարբառներով վկայությունների ձայնագրումների, ռադիո/հեռուստահաղորդումների)

    4. հաշմանդամների (օրինակ` կույրերի) միջերես (Առցանց բովանդակության հասանելիության հանձնարարականներ)

    5. միջերեսը էլեկտրոնային սարքերի կամ արհեստականա բանականության (ԱԲ) հետ: Օրինակ` է-փոստի կամ SMS-ի կարդալու կամ ձայնով կազմելու ծրագրեր (թելադրող), ինչպես նաեւ Siri-ն կամ Alexa-ն բնակարանային սարքավորումների կառավարման կամ համացանցի հետ շփման համար:

    6. տեքստի թելադրում

  3. Տեքստ - բովանդակության ծառ (ԲԾ) – տեքստ փոխակերպում [Բնական խոսքի ընդհանրական ներկայացման մի տարբերակի մասին]. Կիրառումներ`

    1. բազմալեզու տեքստերի նույնաձեւ (հիմնօրինակ) դարանում

    2. կորպուսների բազմալեզու արտապատկերում

    3. բազմալեզու հանրագիտարաններ

    4. բազմալեզու թարգմանություններ

  4. Արհեստական բանականություն (ԱԲ)/Մեքենայի ուսանում (ՄՈւ)` մուտքագրվող տեքստի բո­վան­դա­կու­թյան

    1. գուշակում (բառակապակցության շարունակում)` խմբագրիչներ (է-փոստի SMS-ի, ևն), որոնման շարժիչների միջերես

    2. վերլուծություն (օրինակ` սոցիալական ցանցերի գրառումներում կարծիքների [Ի՞նչ է տրա­մադ­րու­թյուն­ների վերլուծությունը] դասակարգում)

  5. Իմաստի «ճանաչում»` մեսենջերների եւ վիքի-էջերի բոտեր

  6. Տպագիր (ձեռագիր) տեքստի փոխակերպում թվայնայինի. տեսագրիչ (սկաներ) – ճանաչող (թվայ­նաց­նող, թվանշաց­նող) - սրբագրիչ

  7. Ուղղագրության և քերականության ստուգում (spell check, grammar check)

    1. տեքստային տեղեկույթի մուտքագրում` ստեղնաշարից, տեսագրիչից, միկրոֆոնից

    2. գրքերի պատրաստումը հրատարակության

    3. էլեկտրոնային հաղորդակցում` է-փոստ, SMS

  8. Կորպուսների կազմում եւ հետազոտում (տե՛ս 4a)

    1. տեքստերի ոճային ուսումնասիրում, օրինակ` հեղինակին որոշելու կամ գրագողությունը (պլա­գի­ա­րիզ­մը) բացահայտելու համար.

    2. ՄՈւ համար միալեզու եւ երկլեզու, զուգահեռ (օրինակ`ռուս-հայերեն երկլեզու ծառադարան) տվյալ­նե­րի պատրաստում

  9. Ինդեքսավորում`

    1. կորպուսների, [թվայնացված] գրադարանների, ցանցային ռեսուրսների (որոնող համակարգերի հա­մար),

    2. գիտական աշխատությունների, սկզբնաղբյուրների եւ ուսուցողական ձեռնարկների (դասագրքերի) ցու­ցիչի մեքենացված կառուցում

    3. Գրասենյակային (վարչական, դատարանային, անձնական) փաստաթղթերի դարանում եւ ցուց­չա­վո­րում:

Հումանիտար թվային տեխնոլոգիաներ (ՀԹՏ)

Թվայնացված հաղորդակցության դարանման եւ արտահանման համակարգերի համայնապատկերը կա­րե­լի է ներկայացնել հետեւյալ գծագրով`


Գծագրի ձախ հատվածում ամփոփված են ՀԳ տեղեկույթի թվանշացման ուղիները` a-d շերտեր, կեն­տրո­նա­կան մասում` e1 հանգույցը, [ծառա]դարանն է, իսկ աջ մասում տեղեկույթի արտապատկերման հնա­րա­վո­րությունները: Այլ կերպ ասած, ձախ մասում թվարկված այն կիրառումները, որոնց միջոցով ստեղծվում [ար­ժեքավոր լեզվաբանական] տվյալների շտեմարաններ, իսկ աջում` այդ շտեմարանների բազ­մա­նպա­տակ կիրառումները:

d2 եւ f3 տարրերը համապատախանաբար տեքստի վերլուծման (formatting, indexing, parsing: tagging and delinearization) եւ սերման (generating: linearization) համակարգերն են ( Բնական խոսքի ընդհանրական ներկայացման մի տարբերակի մասին, հատվածներ` #11 #10):

Տպագիր տեքստի դարանման ուղին բաղկացած է a2 տեսագրիչից (scanner), b2 գրանշանների ճանաչման (OCR), c2 սրբագրման եւ d2 տեքստը ԲԾ-ի վերածման հանգույցներից:

Ծառադարանում մի որեւէ աղբյուրի, օրինակ` Մ. Խորենացու «Պատմություն Հայոց», առկայությունը հնա­րա­վո­րություն է տալիս այն արտահանել տպագիր` f3, f4, ձայնային` f3, f1, կամ էլեկտրոնային ձեւով`f3:

Առցանց որոնման շարժիչը (e4) նախապես ԲԾ-ի փոխարկված տեքստը կինդեքսավորի (c3, d3) եւ կորոնի (e4) ԲԾ-ի վերածված բառակապակցությունը ծառադարանում (e1):

Որոնման առարկա կդառնան ռադիոհաղորդումները, դատական քնությունները (ցուցումները), ձայ­նա­գրված հարցազրույցները, տեսահոլովակների թվայնացված կինոֆիլմերի խոսքային շարքը, ևն:

Անցյալ դարում տպված գրքերը հնարավոր կլինի հրատարակել որպես ձայնային կամ էլեկտրոնային գրքեր: Նյութը կանցնի` գիրքը a1, a2, իսկ ձայնագրությունը` a4, a3, հետո b2, c2, d2, e1, f3 հանգույցներով մինչեւ էլեկտրոնային, ձայնային, կամ տպագիր գիրք դառնա:

Եթե d2 եւ f3 հանգույցներից յուրաքանչյուրը մի քանի լեզվի համար իրագործված լինի, ապա տարբեր լե­զու­նե­րի d2 եւ f3 հանգույցներ գործածելով կստանանք նյութի թարգմանություն:

ՀՏ այսպիսի ինտեգրումը մեքենաբար կլուծի մի շարք երկրներում արդեն հիմնօրինակներով պար­տա­դրվող, ՏՏ կիրառումների մատչելիության պահանջը:

ՀԹՏ համալսարանային կուրսեր







 
 
 

Recent Posts

See All
Եզրույթներ

Այստեղ բերված են այն եզրույթները, որոնք բացակայում են գրքում կամ անհաջող են ձեւավակերպված այնտեղ: Անհատկանիշ ( անգլ.՝ wildcard) - Հաշվողական գիտություններում (Computer science), ՏՏ-ում գործածվող ե

 
 
 
Գունային եզրույթներ

Հարյուր տարվա իմ մենության ընթացքում մի քանի փորձ արեցի գույների մասին գրել [1] : Լեզու․ իրականության հայելին և ճարտարապետը նայելիս, զգացի, որ թե­ման հասունացել է: Չնայած, որ սպիտակի երանգրերի մասին

 
 
 
Եղանակ

Grammatical_mood Grammatical_moods Causative mood Wikipedia: Causative mood is not to be confused with the unrelated notion of causative voice , a valency-shifting operation in many languages. Chrome

 
 
 

3 Comments


Unknown member
Oct 31, 2025

Face GPT: AI Face Swap, Analyzer & Analysis https://facegpt.io/

Like

Unknown member
Sep 04, 2025

I appreciate the author for such useful content. Here are some sites that I think are good and I want to share them.


ShowMeBestAI: https://www.showmebest.ai


Rizz AI: https://www.rizzlines.app


Profile AI Pro: https://www.profileaipro.com


DeepSeek Generator: https://www.dskgenerator.com


AI Line Art: https://www.ailineart.com


DeepSong: https://www.deepsong.ai

Like

Unknown member
Jun 30, 2025

I appreciate the author for such useful content. Here are some sites that I think are good and I want to share them.

DeepSite AI: https://deepsiteai.com/

Flux Kontext AI:https://flux-kontext-ai.com/

IC Light AI: https://iclightai.com/

AI Kissing: https://kissing-ai.com/

Mixz AI: https://mixzai.com/

Abgerny Game: https://abgerny.net/

Like
bottom of page