Ներածություն
Հումանիտար գիտություններում տեղեկատվական տեխնոլոգիաների (ՏՏ), հաշվողական տեխնիկայի, եւ մաթեմատիկայի նվաճումների օգտագործման համար անհրաժեշտ է երկու բան` հումանիտար հետազոտման նյութերի թվայնացում եւ այդ նյութերի վերլուծման, հետազոտման համակարգչային հատուկ մոտեցումների մշակում: Գիտատեխնիկական այն ոլորտը, որը զբաղվում է այդ երկու խնդիրների լուծմամբ կոչվում է Թվային Հումանիտար Գիտություններ (ԹՀԳ):
Այստեղ թվայնացված կամ թվային ծագում ունեցող աղբյուրաբանական (պատմական, փիլիսոփայական, գրական), գիտական, թանգարանային, արվեստաբանական, հնագիտական, երաժշտական, ևն նյութերի հետազոտության ավանդական մոտեցումներին ավելանում են համակարգչային գործիքները, որոնք նոր հնարավորություններ են բացում։
Քանի որ մշակութային տեղեկատվության փոխանցման հիմնական միջոցը խոսքն է, իսկ վերջին 2-3 հազարամյակներում, գրավոր խոսքը, ապա բնական է կենտրոնանալ խոսքի, մասնավորապես` գրավոր, թվայնացման խնդիրների վրա:
Եթե մինչեւ XXI դարը կուտակված գրավոր (բանավոր) ժառանգության թվայնացման նպատակը կարելի էր համարել հետազոտողներին (աղբյուրագետներին, բանասերներին, պատմաբաններին) հարմար գործիքներ ստեղծելը, ապա հիմա այն պարտադիր է տեղեկատվության թիրախավորման համար: Հաղորդումը լսարանին հասցնելու համար բովանդակության ստեղծումը բավական չէ: Այն պետք է ստեղծվի այնպիսի ձեւաչափով, որ ընթերցողը (լսողը) կարողանա գտնել այն, ինչ-որ իրեն պետք է, իսկ տեղեկատվության ստեղծողը` պարտադրել:
Կարճ պատմություն
Թվային տեխնոլոգիաների առաջին կիրառումը հումանիտար բնագավառում ընդունված է համարել 1940-ականներին իրագործված Index Thomisticus նախագիծը: Ճիզվիտ գիտնական Ռ. Բուսան, IBM- ի հետ համագործակցելով, ստեղծեց Թովմա Աքվինացու աշխատանքների համակարգչային համաբարբառը:
Ձայնի թվայնացում
Առաջին բանավոր խոսք սերող սարքը կառուցվել է 1936 թ. [Խոսքի եւ ձայնի ճանաչման ժամանակագրություն], իսկ առաջին խոսք «հասկացող» սարքը 1952-ին:
Ձայնային ազդանշանների ճանաչման առաջին փուլը տատանումների` այսինքն ձայնային պատկերի, թվայնացումն է, իսկ հետո, երկրորդ փուլում, այն փոխարկվում է ձայնույթների:
90-ական թվականներին ստեղծվեցին անընդհատ խոսք ճանաչող սարքեր. Սա որակական մի նոր քայլ էր ձայն-թվանշան փոխարկման բնագավառում: Հաջորդ մեծ քայլը կարելի է համարել համակարգչային երկխոսության եւ մասնավորապես Անհատական Թվային Օգնականների նախագծումն ու գործնական կիրառումը: Սրանց օրինակներ են Siri-ն (Apple, 2011), Cortana-ն (Microsoft, 2014), Alexa-ն (Amazon, 2014): Այս կիրառումները ոչ միայն զուտ բանավոր խոսքը ճանաչում եւ արտահանում են, բայց նաեւ «հասկանում» են այն` գործողություններ կատարում: Ձայնային միջերես (ինտերֆեյս) լինելով, նրանք համակարգչային հրահանգներ են արտածում բնակարանային գործիքներ (լույս, հեռատեսիլ, ռադիո, համացանց, թերմոստատ, ևն) կառավարելու համար: Սակայն ամենագործնական օգնությունը ստացվում է մեքենա վարելիս` SMS/email-ների ընթերցում ու թելադրում, հեռախոսի կառավարում` զանգերի ընդունում ու մեկնարկում, ռադիոյի եւ ինտերնետի հետ շփում (վերջինի դեպքում էլեկտրոնային քարտեզն ամենաօգտակարն ու կարեւորն է):
Տեքստի թվայնացում
Տպագիր տեքստերի մեքենացված (ի տարբերություն Ռ. Բուսայի նախագծի, երբ տեքստերը մուտքագրվում էին ձեռքով` դակիչներով) մուտքագրման` տեսողական ճանաչման, ռահվիրան նույնպես IBM-ն էր: 1931–1954 թթ. IBM-ը մշակեց առաջին այն գրանշաններ ճանաչող համակարգը, որը գործածելի էր եւ վաճառվում էր [Գրանշանների ճանաչման ժամանակագրություն]:
Տեքստերի թվայնացումը նույնպես երկփուլ է` սկզբից թվանշացվում է անալոգ (անընդհատ) պատկերը, այսինքն` ձեռագիր կամ տպագիր տեքստի լուսանկարը, իսկ հետո այն վերածվում է տառերը համակարգչում ներկայացնող թվանշանների:
Այսպիսով ե՛ւ ձայնի, ե՛ւ տեքստի դեպքում պետք է տարբերել պատկերի` ձայնային ալիքների եւ տեքստի պատճենի, թվայնացումը ձայնույթների եւ գրույթների (տառերի) թվայնացումից:
Կիրառումներ
Նյութերի թվայնացում եւ վերլուծում
ՏՏ կիրառումը ՀԳ բնագավառում սկսվում է ավանդական կրիչների` ձայնա/տեսա ժապավենների կամ գրքերի պարունակությունը թվանշանների վերածելուց: Հետո թվանշացված բնական խոսքի մաթեմատիկական վերլուծման ենթարկելուց
Թվայնացում եւ դարանում, որը ընդգրկում է ինչպես ավանդական այնպես էլ նոր մուտքագրման եւ տվյալների դարանման տեխնոլոգիաներ:
Ավանդական մուտքագրման տեխնոլոգիաներից են`
Մեքենագրում (համակարչային մուտքագրումը ի ծնե թվային է)
Պատճենավորում
Ձայնագրում
Տեսագրում
Ավանդական դարանման տեխնոլոգիաներից են`
Ֆայլային համակարգը
Տվյալների վերաբերական շտեմարանը`տվյալները պահվում են անվանված սյուներով աղյուսակում
Ձայնա/տեսաժապավենների պատկերների թվայնացում, սեղմում եւ BD/CD/DVD (Blu-ray/Compact/Digital video սկավառակներ)
Նոր մուտքագրման տեխնոլոգիաներից են`
Տեքստի պատճենի թվայնացում տեսողական ճանաչման համակարգերով
Բանավոր (անընդհատ) խոսքի ճանաչում եւ թվայնացում
Նոր, հավելյալ դարանման տեխնոլոգիաներից են`
Մեծածավալ, կառուցվածք չունեցող տվյալների դարանները
Օբյեկտների, այսինքն տվյալների [ծառատիպ] կառույցների դարանները (S3)
Թվայնացված տվյալների կամ տեղեկույթի վերլուծում`
Բանավոր խոսքը տեքստի վերածում եւ հակառակը
Բնական խոսքի վերլուծություն
Ձայնային եւ տեքստային պատկերների որոնում
Օրինաչափությունների հաշվարկում
Տեսային պատկերների անվանում եւ նկարագրում
ԲԾ ծառադարանների կառուցում
Թվայնացումից հետո նյութը պատրաստ է մեքենական կիրառումների համար:
Կիրառման ոլորտները
Թվայնացված խոսքը մի կողմից ուսումնասիրման առարկա է, իսկ մյուս` բազմաթիվ կիրառումների նախապայման`
Էլեկտրոնաին քարտարաններ, բառարաններ, գանձարաններ`
Բացատրական/հանրագիտական բառարան
Երկլեզու/բազմալեզու բառարան
Բառապաշարի գանձարաններ (thesaurus)
Եզրույթների բառարան
Քարտարաններ. օրինակ` ֆիզիկական կամ վիրտուալ գրադարանների
Ձայն - տեքստ – ձայն. տարածված կիրառումներ.
աուդիոգրքեր,
կրկնօրինակում (տեքստի ընթերցում) եւ ենթագրեր, օրինակ` YouTube-ի տեսանյութերում
ձայնային ֆայլերի թվայնացում, տեքստային ֆայլի վերածում (օրինակ՝ բարբառներով վկայությունների ձայնագրումների, ռադիո/հեռուստահաղորդումների)
հաշմանդամների (օրինակ` կույրերի) միջերես (Առցանց բովանդակության հասանելիության հանձնարարականներ)
միջերեսը էլեկտրոնային սարքերի կամ արհեստականա բանականության (ԱԲ) հետ: Օրինակ` է-փոստի կամ SMS-ի կարդալու կամ ձայնով կազմելու ծրագրեր (թելադրող), ինչպես նաեւ Siri-ն կամ Alexa-ն բնակարանային սարքավորումների կառավարման կամ համացանցի հետ շփման համար:
տեքստի թելադրում
Տեքստ - բովանդակության ծառ (ԲԾ) – տեքստ փոխակերպում [Բնական խոսքի ընդհանրական ներկայացման մի տարբերակի մասին]. Կիրառումներ`
բազմալեզու տեքստերի նույնաձեւ (հիմնօրինակ) դարանում
կորպուսների բազմալեզու արտապատկերում
բազմալեզու հանրագիտարաններ
բազմալեզու թարգմանություններ
Արհեստական բանականություն (ԱԲ)/Մեքենայի ուսանում (ՄՈւ)` մուտքագրվող տեքստի բովանդակության
գուշակում (բառակապակցության շարունակում)` խմբագրիչներ (է-փոստի SMS-ի, ևն), որոնման շարժիչների միջերես
վերլուծություն (օրինակ` սոցիալական ցանցերի գրառումներում կարծիքների [Ի՞նչ է տրամադրությունների վերլուծությունը] դասակարգում)
Տպագիր (ձեռագիր) տեքստի փոխակերպում թվայնայինի. տեսագրիչ (սկաներ) – ճանաչող (թվայնացնող) - սրբագրիչ
Ուղղագրության և քերականության ստուգում (spell check, grammar check)
տեքստային տեղեկույթի մուտքագրում` ստեղնաշարից, տեսագրիչից, միկրոֆոնից
գրքերի պատրաստումը հրատարակության
էլեկտրոնային հաղորդակցում` է-փոստ, SMS
Կորպուսների կազմում եւ հետազոտում (տե՛ս 4a)
տեքստերի ոճային ուսումնասիրում, օրինակ` հեղինակին որոշելու կամ գրագողությունը (պլագիարիզմը) բացահայտելու համար.
ՄՈւ համար միալեզու եւ երկլեզու, զուգահեռ (օրինակ`ռուս-հայերեն երկլեզու ծառադարան) տվյալների պատրաստում
Ինդեքսավորում`
կորպուսների, [թվայնացված] գրադարանների, ցանցային ռեսուրսների (որոնող համակարգերի համար),
գիտական աշխատությունների, սկզբնաղբյուրների եւ ուսուցողական ձեռնարկների (դասագրքերի) ցուցիչի մեքենացված կառուցում
Գրասենյակային (վարչական, դատարանային, անձնական) փաստաթղթերի դարանում եւ ցուցչավորում:
Հումանիտար թվային տեխնոլոգիաներ (ՀԹՏ)
Թվայնացված հաղորդակցության դարանման եւ արտահանման համակարգերի համայնապատկերը կարելի է ներկայացնել հետեւյալ գծագրով`
Գծագրի ձախ հատվածում ամփոփված են ՀԳ տեղեկույթի թվայնացման ուղիները` a-d շերտեր, կենտրոնական մասում` e1 հանգույցը, ծառադարանն է, իսկ աջ մասում տեղեկույթի արտապատկերման հնարավորությունները:
Տպագիր տեքստի դարանման ուղին բաղկացած է a2 տեսագրիչից (scanner), b2 գրանշանների ճանաչման (OCR), c2 սրբագրման եւ d2 տեքստը ԲԾ-ի վերածման հանգույցներից:
Ծառադարանում մի որեւէ աղբյուրի, օրինակ` Մ. Խորենացու «Պատմություն Հայոց», առկայությունը հնարավորություն է տալիս այն արտահանել տպագիր` f3, f4, ձայնային` f3, f1, կամ էլեկտրոնային ձեւով`f3:
Առցանց որոնման շարժիչը (e4) նախապես ԲԾ-ի փոխարկված տեքստը կինդեքսավորի (c3, d3) եւ կորոնի (e4) ԲԾ-ի վերածված բառակապակցությունը ծառադարանում (e1):
Որոնման առարկա կդառնան ռադիոհաղորդումները, դատական քնությունները (ցուցումները), ձայնագրված հարցազրույցները, տեսահոլովակների թվայնացված կինոֆիլմերի խոսքային շարքը, ևն:
Անցյալ դարում տպված գրքերը հնարավոր կլինի հրատարակել որպես ձայնային կամ էլեկտրոնային գրքեր: Նյութը կանցնի` գիրքը a1, a2, իսկ ձայնագրությունը` a4, a3, հետո b2, c2, d2, e1, f3 հանգույցներով մինչեւ էլեկտրոնային, ձայնային, կամ տպագիր գիրք դառնա:
Եթե d2 եւ f3 հանգույցներից յուրաքանչյուրը մի քանի լեզվի համար իրագործված լինի, ապա տարբեր լեզուների d2 եւ f3 հանգույցներ գործածելով կստանանք նյութի թարգմանություն:
ՀՏ այսպիսի ինտեգրումը մեքենաբար կլուծի մի շարք երկրներում արդեն հիմնօրինակներով պարտադրվող, ՏՏ կիրառումների մատչելիության պահանջը:
Comments