Technologies numériques humanitaires
Ներածություն
Երբ 2022 վերջերին միտք առաջացավ հայկական Թվանշային Հումանիտար Տեխնոլոգիաներին (ԹՀՏ, երբեմն Թվանշային Հումանիտար Գիտություններ. գիտություններ անվանելը միգուցե ճիշտ չէ, քանի որ ԹՀՏ-ն ՏՏ-ի ենթաբազմություն է, այլ ոչ թե գիտական տեսությունների եւ մեթոդների [յուրահատուկ] հավաքածու) նվիրված կայք ստեղծել, հիմնական նպատակներից էր ստեղծել հայերենով գիտելիքները մի աղբյուր (շտեմարան), որը ա) կուրվագծի ԹՀՏ ոլորտը եւ նպատակները, եւ բ) կամփոփի հայկական ԹՀՏ վիճակն ու անելիքները: Այն դիտարկվում էր, որպես ԹՀՏ զարգացումների եւ նվաճումների քննարկման պլատֆորմ, որի արտահանումը, արտադրանքը կլիներ ԹՀՏ ուսումնական ծրագրերի մշակում, գիտահետազոտական աշխատանքների ուղղորդում ու սատարում, եւ արդյունքները [դասա]գրքերի, հոդվածների, բլոգերի, վիդեոների, ինտերնետային ինտերակտիվ կիրառումների, ևն տեսքով հրապարակումը:
Կայքի ամենաառաջին գրված էջերում` Թվանշային հումանիտար գիտություններ եւ Հումանիտար տեխնոլոգիաների կայքէջեր (որից հետագայում դուրս հանվեցին Լեզվաբանություն, ԱԲ, եւ ՀԹՏ եւ Բնական խոսքի մշակում էջերը) ուրվագծվեցին ԹՀՏ ոլորտի սահմանները եւ արդի վիճակը: Ենթադրվում էր, այս երկու էջերը բավական տեղեկություն են պարունակում, որպեսզի բանավեճեր եւ քննարկումներ առաջացնեն բնագավառի զարգացման հեռանկարների եւ հնարավորությունները մասին եւ հետաքրքրություն կառաջացնեն Բնական խոսքի ընդհանրական ներկայացման հիման վրա (կամ, այլ, օրինակ` Համընդհանուր Կախվածություններով ) բնական լեզվի կոմպյուտերային մոդել կառուցելու շուրջը: Այդ մոդելը նախատեսված էր որպես Բնական խոսքի ընդհանրական ներկայացման մի տարբերակի մասին գիրքում ուրվագծված Լեզվաբանի Աշխատանոց կիրառման (application) գիտական եւ տեխնոլոգիական հիմք: Վերջինս հնարավորություն կտա լեզվաբաններին լեզուն ուսումնասիրել (նաեւ դասավանդել) հաշվողական գիտությունների եւ կոմպյուտերային տեխնոլոգիաների միջոցներով, ճիշտ այնպես, ինչպես ֆիզիկոսներն են օգտվում ՄՀԲ-ն կամ JWST-ն իրենց խնդիրների համար:
Կայքի նպատակն է նաեւ ԹՀՏ ուսումնասիրությունների եւ ուսանման համար ռեսուրսների մի կառուցվածք` Հաշվողական լեզվաբանության միջբուհական կենտրոն ստեղծելը, որտեղ, հիմնվելով լեզվի եւ լեզվաբանության ժամանակակից ընկալման հենքի վրա (տե՛ս Ի՞նչ է լեզուն էջերը Կայքի քարտեզում ստորեւ, #4) ուսանողները եւ գիտնականները, աշխատելով Լեզվաբանի Աշխատանոց-ի եւ բնալեզվական մոդելի բարելավվման վրա կգրեն ուսանողական կամ գիտական թեզեր, հոդվածներ, ձեռնարկներ, եւ հենց Լեզվաբանի Աշխատանոց-ի օգնությամբ կկատարեն հետազոտություններ, ուսումնասիրություններ: ՀՀ-ում պետք է կգտնվեն 10-15 երիտասարդներ, որոնք հակված են մտածել մաթեմատիկորեն լեզվաբանության եւ լեզվաբանորեն մաթեմատիկայի մասին: Այդ երիտասարդներին (եւ հասուն անձանց նմանապես) կայքի մասին տեղյակ պահեք` խնդրեք, որ այցելեն:
Կայքի նորությունների մասին անդամները ամիսը մեկ նամակ են ստանում:
Հավելյալ բացատրություններ
Ի՞նչ է լեզուն խորագրի տակ (տե՛ս ներքեւում, Կայքի քարտեզի #4) ամփոփված էջերից Դեպի լեզվի զարգացման կենսաբանական տեսություն էջն ամենակարեվորն է: Ովքեր պատրաստ են ռացիոնալ, բանական (այլ ոչ թե էմոցիոնալ, զգայական) լեզվաբանությամբ զբաղվել պետք է դա կարդան:
Հայոց ՀԹՏ իրացումներ էջում (տես #1.4 ստորեւ) փորձ է կատարված նկարագրել հայկական ԹՀՏ արդի վիճակը եւ պարզաբանել «կոթողային» եւ «ճարտարագիտական» ստեղծածոների տարբերությունը: Այստեղ նաեւ առաջարկվում է գիտատեխնիկական գրանտերի (կամ բարեգործական գումարների) հատկացման այնպիսի սխեմա, որով գումարները կբաշխվեն ոչ միայն «լավ խնդրողների» շրջանակում, այլ նաեւ «լավ կատարողների», լավ, օգտակար ծրագրեր, հոդվածներ, գրքեր գրողների մեջ:
Ներկայումս մեզ հայտնի են կայքի քարտեզի #1.4 կետում թվարկված տպագիր տեքստի (գրավոր խոսք) կամ ձայնային (բանավոր խոսք) պատկերից պարզ տեքստ ստացող ծրագրեր: Այդպիսի տեքստերը կարելի հաջորդիվ վերլուծել (պիտակավորել) եւ սրբագրել, ինչպես նաեւ թարգմանել ~200 լեզվով:
Ինչո՞ւ ե Գյոդելի թեորեմները ոչ թե «Սուտասանի պարադոքսի» մասին, այլ «այս նախադասությունը սուտ է» նախադասության: Իմաստային պարադոքսներ էջում մի բացատրություն է տրվում: Բացի այդ այստեղ օգտագործվում է ճշգրտված եզրաբանություն` իմաստ – նշանակություն (այլ ոչ թե իմաստի փոխարեն հաճախ բովանդակություն եւ նշանակության փոխարեն իմաստ գործածումը, ինչպես արված է Բնական խոսքի ընդհանրական ներկայացման մի տարբերակի մասին գիրքում), եւ սրանով ավելի ցայտուն է դարձվում Ֆրեգեի իմաստի եւ նշանակության տարբերակումը:
======================================================================================
Կայքի քարտեզը - Site Map
Էջեր [հիմնականում] հայերենով
-
Թվային հումանիտար գիտություններ
-
-
Armenian Parser - Հայերենի վերլուծիչ
-
OCR Data Pipeline - Գրանշանների Օպտիկական Ճանաչման` ԳՕՃ, Տեղեկատար (Data Pipeline)
-
User's Guide to OCR Data Pipeline - ԳՕՃ Տեղեկատարի գործածման ուղեցույց
-
Armenian Speech-to-Text WebApplication - Հայերեն խոսքի վերածումը տեքստի
-
Բնական լեզուների մոդելավորում
-
Ի՞նչ է լեզուն
Էջեր անգլերենով - Pages in English
-
Մեքենայի ուսանում (ՄՈւ) եւ Արհեստական բանականություն (ԱԲ)
-
Thinking without Words
-
On Syntactic Structure Representation
-
Running the Armenian Parser - Linux command line Eastern Armenian Parser (spellcheck, tagging)
-
-
Character set standardization
-
DH technologies for Armenian
Ռուսերեն էջեր - Страницы на русском
-
https://aramhayr.wixsite.com/aram-hayrapetyan/post/տարարժեք-երկրորդական-նախադասությունները-ժամանակակից-հայերենում
-
https://aramhayr.wixsite.com/aram-hayrapetyan/post/բազմագործառույթ-շաղկապնեը-ժամանակակից-հայերենում
-
https://aramhayr.wixsite.com/aram-hayrapetyan/post/նախադասությունների-կապակցման-բառական-միջոցները-տեքստում
-
https://www.academia.edu/129638433/Conjunctions_in_Eastern_Armenian
Այցելեք կայքը սատարող գրախանութները` https://www.agoulis.com/ եւ գնումներ կատարեք
Collaboration
Volunteer help needed to:
-
Review and compare technologies listed on Բնական խոսքի մշակում page.
-
UX designer for the site, as well as editors/creators/contributors. I envisioned the ՀԹՏ site as a collaboration platform, rather than a site for promoting my Բնական խոսքի ընդհանրական ներկայացման մի տարբերակի մասին or - other books. Unfortunately, for potential readers the majority of pages are write-only.
-
Investigate phases of [Armenian] language produced by neural networks (GPT) and verify if "poverty of input" is applicable to neural nets - for more details see Why GPT is not a language model? section in What is language? and Armenian Corpora and morphology test.
-
Edit Wikipedia Armenian articles: we can make it a valuable knowledge base for laymen, students, and researches alike for free (no elusive grants needed) by laymen, students, and researches alike. Do you know a forum, a hang out for Armenian Wikipedia activists (enthusiasts)?
-
Work on introducing generative AI (GPT) into Armenian science and education system - prepare courses to learn AI usage basics, prompt engineering.
-
Linguists and Software, DevOps, DataOps engineers for developing and supporting:
-
Լեզվաբանի Աշխատանոց - Linguists'/Philogists'/Lexicographers' Workbench (see section 16 in Բնական խոսքի ընդհանրական ներկայացման մի տարբերակի մասին and Lecture #4 in Կորպուսային լեզվաբանություն. Ներածություն, as well as the diagram in Թվային հումանիտար գիտություններ).
Please help finding paying customers and/or investors:
-
for the OCR functionality (User's Guide to OCR Data Pipeline, OCR Data Pipeline. Possible interested parties are:
-
Libraries: National, Academy of Sciences, University, Local, Personal, etc.
-
Museums
-
Publisher houses
-
Archives
-
Courtrooms
-
Individuals, that want to digitize old books.
-
-
for xosum.am (Armenian Speech-to-Text WebApplication) please contact support@xosum.am. Possible interested parties are:
-
Creators to add automatic subtitles (transcript) to video
-
Organizations/corporations that need high-quality, high-speed stenographers, high-quality and quick meeting transcripts (notes), etc.
-
Applications (such as MS Word, Messengers, text editors, etc.) that lack Armenian speech-to-texts plugins
-
Speech researchers (maybe` therapists)
-
Journalists/reporters - interviewers
-
Courtrooms/police - interviewers
-
Synchronic translation (simultaneous interpretation) software developers - Armenian speech-to-text - GoogleTranslate to Vietnamese - Vietnamese text-to-speech
-
Anyone who talks better than writes
-
-
for the Translation processor - in addition to the above - #2: Notary services