Ներածություն
Այստեղ թվարկված են ԲԽՄ (Բնական խոսքի մշակում) տեխնոլոգիաները, որոնք կիրառելի են հայոց լեզվին: Այդ թվում են ինչպես պատրաստի կիռարումներ (applicaions), այնպես էլ գործիքակազմեր, որոնց հիման վրա կարելի է կառուցել տարբեր կիրառումներ. օրինակ` Keras-ը:
Սկզբից ես չէի ուզում այստեղ բերել Keras-ները, LLM-ները, RNN-ները, GPT-ները, ևն, քանի որ ես դրանք լեզվական մոդելներ չեմ համարաում: Թե ինչո՞ւ, շարադրել եմ What is language? (Что такое язык?) էջի Why GPT is not a language model? հատվածում: Սակայն վիճակագրական մեթոդներն էլ որոշեցի թվարկել այդ նույն հատվածի տրամաբանաությանը հետեւելով:
Այս ցանկում ընդգրկել ենք Թվային հումանիտար գիտություններ կայքէջի Գծագրի տեխնոլոգիաները:
Կիրառումներ
Հայերեն խոսքի սրբագրում (spell checking)
Armenian Spell Checker - Հայերեն ուղղագրության բառարաններ GNU Aspell-ի եւ MySpell-ի համար, ինչպես նաեւ OpenOffice.org ընդլայնում եւ Mozilla հավելում:
HySpell Armenian Language and Cultural site - Հայերէն Լեզուի եւ Մշակութային կայք. Հայերէնի Ուղղագրիչ (3.0 տարբերակ)՝ Microsoft Office Word 2007/2010/2013/2016 ծրագրերի համար։
Powerspell - Ծրագիրը ստուգում է քո տեքստի ուղղագրությունը, կետադրությունը և շարահյուսությունը, ինչպես քո հայերենի ուսուցիչը:
Հայերեն խոսքի վերլուծում (parsing)
uniparser-grammar-eastern-armenian - Կանոնային (ալգորիթմային) ձևաբանական վերլուծիչ ժամանակակից արեւելահայերենի համար - Սա թեկնածու է d2 -> ծառադարան կածանի (տե՛ս Թվային հումանիտար գիտություններ) իրացման համար
HyeTagger (source code) in gitHub - Պիտակավորման համակարգ եռգրամների պիտակ-ների հաջորդականություններին Բայեսյան «միամիտ» դասակարգչի եւ քողարկված Մարկովյան մոդելի զուգահեռ կիրառումով:
Armenian Parser - Արեւելահայերեն [պարզ] տեքստի սրբագրում, պիտակավորում, եւ լեմմավորում Linux համակարգի համար: Առաքվում է Java .jar արխիվային ֆայլի տես-քով: Աշխատացնելու համար ,պարզագույն bash հրահանգ է կանչվում - Սա թեկնածու է d2 -> ծառադարան կածանի (տե՛ս Թվային հումանիտար գիտություններ) իրացման համար
The ANR DALIH (Digitizing Armenian Linguistic Heritage) - team has developed three AI models for morphological analysis of the Armenian language: for classical, Eastern and Western Armenian:
The end-users can access the functionality at https://dh.chartes.psl.eu/deucalion/
For training data: The Universal Dependencies of Armenian developed in recent years (Marat Yavrumian, ArmTDP team, Petr Kocharov, Lilit Kharatyan). The models are documented and available on Zenodo:
Հայերեն գրավոր խոսքի ճանաչում
OCR Data Pipeline - Սա լավ թեկնածու է a2 -> b2 -> c2 կածանի (տե՛ս Թվային հումանիտար գիտություններ) իրացման համար
Calfa OCR online tool - This is a link to announcement: Association internationale des études arméniennes: New Page AIEA researchers will gain access to Automated Text Recognition in Armenian for both printed and handwritten documents, on the Calfa OCR online tool. The model covers a wide range of materials, from historical manuscripts to modern handwritten archives, old printed books, and newspapers, with 300 pages offered to every researcher. [It will be great to get more [technical] info about the tool.]
Հայերեն բանավոր խոսքի ճանաչում
Localize Mozilla: Pontoon.
Transcribe Armenian - Notta-ն հայկական աուդիո-տեքստի լավագույն առցանց ան-վճար փոխարկիչն է: Մի քանի կտտոցով անմիջապես արտագրեք եւ թարգմանեք ձեր հայերեն աուդիո եւ տեսանյութը անգլերեն, գերմաներեն, ֆրանսերեն եւ այլ լեզուներով:
Xosum.am - Արհեստական բանականությամբ (AI) աշխատող այս ծրագիրը ԱՆՎՃԱՐ և ԱՆՍԱՀՄԱՆԱՓԱԿ կլսի ինչ ես ասում ու կդարձնի այն տեքստ, որը կարող ես օգտագործել ցանկացած նպատակների համար.
աշխատում է Android և iPhone հեռախոսների վրա
պահպանում է վերծանումների պատմությունը
անհամեմատ ավելի լավ է աշխատում աղմուկների դեպքում
Ծրագիրը օգտագործում է Google-ի խոսակցային տեխնոլոգիաները, որ հենված են արհեստական բանականության վրա:
Այս համակարգը շատ որակյալ է: Այն բացի ձայնը տեքստի փոխարկելը, ապահովում է նաեւ կետադրում/սրբագրում: Սա լավ թեկնածու է a4 -> a3 -> b3 -> c2 կածանի (տե՛ս Թվային հումանիտար գիտություններ) իրացման համար
https://hispeech.ai/ - միկրոֆոնից ձայնագրությունը չաշխատեց.
Թարգմանիչներ`
Yandex Translate (English-Armenian) — synchronized translation for 102 languages, predictive typing, dictionary with transcription, pronunciation, context and usage examples, and many other features.
Translate.com (8 cents per word)
GPT - ChatbotGPT, Perplexity.ai.
Գործիքակազմ
Keras - Python-ի միջերեսով ծրագրային բաց գրադարան է արհեստական նեյրոնային ցանցեր կառուցելու, ուսուցանելու, եւ հետազոտելու համար: Keras-ը միջերես է TensorFlow գրադարանի համար:
Google OCR - Introduction to Google Vision OCR, Google Cloud Vision OCR-ը Google cloud vision API-ի մի մասն է՝ պատկերներից տեքստը արտահանելու համար: Համեմատվում են` ABBYY FineReader, Microsoft Azure Read API for OCR, Kofax, AWS Textract, եւ Nanonets’ OCRs ճանաչող համակարգերը:
Google Translation Hub
Translation Hub Overview - Translation Hub-ը տեքստերի թարգմանության ինքնասպա-սարկման ծառայություն է: Այն կազմակերպությունները, որոնք տարբեր լեզուներով մեծ ծավալով թարգմանության կարիք ունեն կարող են Translation Hub-ից օգտվել` հարկավոր չէ ստեղծել ձեր սեփական առցանց կիրառումը կամ ինքնուրույն սպասար-կել ծրագրային ենթակառույցներ
Translation Hub - Translation Hub-ը հնարավորություն է տալիս թարգմանել 135 լեզուներով ստեղծված բովանդակությունը գործարար մարդուն հարմար միջերեսով, ինչպես նաեւ անհրաժեշտության դեպքում ինտեգրել գործածողի կարծիքը: Այն հնարավորություն է տալիս ձեռնարկություններին կառավարել թարգմանության ծավալները աննախադեպ մասշտաբով եւ գնով
Ձայնային ֆայլերի փոխարկիչներ (ԽՈՍՈւՄ.ԵՄ ծառայությունից օգտվելու համար)`
YouTube to MP3 Converter - Y2Mate
Youtube to MP3 - AISEO
Convert YouTubeVideo Into MP3 - SAVEMP3
Գրականություն
Введение в обработку естественного языка - Բնական խոսքի մշակման (ԲԽՄ) ներա-ծություն (ռուսերեն): Տեսադասընթացը ուսանողներին ծանոթացնում է ԲԽՄ առարկայի հիմնական հասկացություններին, մեթոդներին, գործիքներին և կիրառումներին
Speech and Language Processing (3rd ed. draft) - Դ. Ժուրավսկի, Ջ.Հ. Մարտին. Խոսքի և լեզվի մշակում. Էլեկտրոնային առցանց գիրք.
Artak Hovsepian's Post - Մենք ներկայացրել ենք երկու տեխնոլոգիա՝ մեքենայական թարգմանություններով, որոնք թույլ են տալիս թարգմանել մոտ 15 օտար լեզուներից հայերեն և հայերենից՝ օտար լեզուներ։
Comments