top of page

Բնական խոսքի մշակում

aramhayr

Updated: Jan 15

Ներածություն

Այստեղ թվարկված են ԲԽՄ (Բնական խոսքի մշակում) տեխնոլոգիաները, որոնք կիրառելի են հայոց լեզվին: Այդ թվում են ինչպես պատրաստի կիռարումներ (applicaions), այնպես էլ գործիքակազմեր, որոնց հիման վրա կարելի է կառուցել տարբեր կիրառումներ. օրինակ` Keras-ը:

Սկզբից ես չէի ուզում այստեղ բերել Keras-ները, LLM-ները, RNN-ները, GPT-ները, ևն, քանի որ ես դրանք լեզվական մոդելներ չեմ համարաում: Թե ինչո՞ւ, շարադրել եմ What is language? (Что такое язык?) էջի Why GPT is not a language model? հատվածում: Սակայն վիճակագրական մեթոդներն էլ որոշեցի թվարկել այդ նույն հատվածի տրամաբանաությանը հետեւելով:

Այս ցանկում ընդգրկել ենք Թվային հումանիտար գիտություններ կայքէջի Գծագրի տեխնոլոգիաները:

Կիրառումներ

  1. Հայերեն խոսքի սրբագրում (spell checking)

    1. Armenian Spell Checker - Հայերեն ուղղագրության բառարաններ GNU Aspell-ի եւ MySpell-ի համար, ինչպես նաեւ OpenOffice.org ընդլայնում եւ Mozilla հավելում:

    2. HySpell Armenian Language and Cultural site - Հայերէն Լեզուի եւ Մշակութային կայք. Հայերէնի Ուղղագրիչ (3.0 տարբերակ)՝ Microsoft Office Word 2007/2010/2013/2016 ծրագրերի համար։

    3. Powerspell - Ծրագիրը ստուգում է քո տեքստի ուղղագրությունը, կետադրությունը և շարահյուսությունը, ինչպես քո հայերենի ուսուցիչը:

  2. Հայերեն խոսքի վերլուծում (parsing)

    1. uniparser-grammar-eastern-armenian - Կանոնային (ալգորիթմային) ձևաբանական վերլուծիչ ժամանակակից արեւելահայերենի համար - Սա թեկնածու է d2 -> ծառադարան կածանի (տե՛ս Թվային հումանիտար գիտություններ) իրացման համար

    2. HyeTagger (source code) in gitHub - Պիտակավորման համակարգ եռգրամների պիտակ-ների հաջորդականություններին Բայեսյան «միամիտ» դասակարգչի եւ քողարկված Մարկովյան մոդելի զուգահեռ կիրառումով:

    3. Armenian Parser - Արեւելահայերեն [պարզ] տեքստի սրբագրում, պիտակավորում, եւ լեմմավորում Linux համակարգի համար: Առաքվում է Java .jar արխիվային ֆայլի տես-քով: Աշխատացնելու համար ,պարզագույն bash հրահանգ է կանչվում - Սա թեկնածու է d2 -> ծառադարան կածանի (տե՛ս Թվային հումանիտար գիտություններ) իրացման համար

    4. The ANR DALIH (Digitizing Armenian Linguistic Heritage) - team has developed three AI models for morphological analysis of the Armenian language: for classical, Eastern and Western Armenian:

      1. The end-users can access the functionality at https://dh.chartes.psl.eu/deucalion/

      2. For training data: The Universal Dependencies of Armenian developed in recent years (Marat Yavrumian, ArmTDP team, Petr Kocharov, Lilit Kharatyan). The models are documented and available on Zenodo:

        1. Western Armenian,

        2. Eastern Armenian,

        3. Classical Armenian.

      3. Descriptive article 

  3. Հայերեն գրավոր խոսքի ճանաչում

    1. OCR Data Pipeline - Սա լավ թեկնածու է a2 -> b2 -> c2 կածանի (տե՛ս Թվային հումանիտար գիտություններ) իրացման համար

    2. Calfa OCR online tool - This is a link to announcement: Association internationale des études arméniennes: New Page AIEA researchers will gain access to Automated Text Recognition in Armenian for both printed and handwritten documents, on the Calfa OCR online tool. The model covers a wide range of materials, from historical manuscripts to modern handwritten archives, old printed books, and newspapers, with 300 pages offered to every researcher. [It will be great to get more [technical] info about the tool.]

  4. Հայերեն բանավոր խոսքի ճանաչում

    1. Հայերեն խոսքի փոխարկում 

    2. Localize Mozilla: Pontoon.

    3. Transcribe Armenian audio to text: Sonix

    4. Armenian Voice Typing (Speech To Text) 

    5. Transcribe Armenian  - Notta-ն հայկական աուդիո-տեքստի լավագույն առցանց ան-վճար փոխարկիչն է: Մի քանի կտտոցով անմիջապես արտագրեք եւ թարգմանեք ձեր հայերեն աուդիո եւ տեսանյութը անգլերեն, գերմաներեն, ֆրանսերեն եւ այլ լեզուներով:

    6. Xosum.am - Արհեստական բանականությամբ (AI) աշխատող այս ծրագիրը ԱՆՎՃԱՐ և ԱՆՍԱՀՄԱՆԱՓԱԿ կլսի ինչ ես ասում ու կդարձնի այն տեքստ, որը կարող ես օգտագործել ցանկացած նպատակների համար.

      1. աշխատում է Android և iPhone հեռախոսների վրա

      2. պահպանում է վերծանումների պատմությունը

      3. անհամեմատ ավելի լավ է աշխատում աղմուկների դեպքում

      Ծրագիրը օգտագործում է Google-ի խոսակցային տեխնոլոգիաները, որ հենված են արհեստական բանականության վրա:

      Այս համակարգը շատ որակյալ է: Այն բացի ձայնը տեքստի փոխարկելը, ապահովում է նաեւ կետադրում/սրբագրում: Սա լավ թեկնածու է a4 -> a3 -> b3 -> c2 կածանի (տե՛ս Թվային հումանիտար գիտություններ) իրացման համար

    7. https://hispeech.ai/ - միկրոֆոնից ձայնագրությունը չաշխատեց.

  5. Թարգմանիչներ`

    1. Google Translate 

    2. English-Armenian Medical Terms Dictionary

    3. Հայերեն-Անգլերեն 

    4. Yandex Translate (English-Armenian) — synchronized translation for 102 languages, predictive typing, dictionary with transcription, pronunciation, context and usage examples, and many other features.

    5. Translate.com  (8 cents per word)

    6. GPT - ChatbotGPT, Perplexity.ai.

Գործիքակազմ

  1. Keras - Python-ի միջերեսով ծրագրային բաց գրադարան է արհեստական նեյրոնային ցանցեր կառուցելու, ուսուցանելու, եւ հետազոտելու համար: Keras-ը միջերես է TensorFlow գրադարանի համար:

  2. Google OCR - Introduction to Google Vision OCR, Google Cloud Vision OCR-ը Google cloud vision API-ի մի մասն է՝ պատկերներից տեքստը արտահանելու համար: Համեմատվում են` ABBYY FineReader, Microsoft Azure Read API for OCR, Kofax, AWS Textract, եւ Nanonets’ OCRs ճանաչող համակարգերը: 

  3. Google Translation Hub

    1. Translation Hub Overview - Translation Hub-ը տեքստերի թարգմանության ինքնասպա-սարկման ծառայություն է: Այն կազմակերպությունները, որոնք տարբեր լեզուներով մեծ ծավալով թարգմանության կարիք ունեն կարող են Translation Hub-ից օգտվել` հարկավոր չէ ստեղծել ձեր սեփական առցանց կիրառումը կամ ինքնուրույն սպասար-կել ծրագրային ենթակառույցներ

    2. Translation Hub - Translation Hub-ը հնարավորություն է տալիս թարգմանել 135 լեզուներով ստեղծված բովանդակությունը գործարար մարդուն հարմար միջերեսով, ինչպես նաեւ անհրաժեշտության դեպքում ինտեգրել գործածողի կարծիքը: Այն հնարավորություն է տալիս ձեռնարկություններին կառավարել թարգմանության ծավալները աննախադեպ մասշտաբով եւ գնով

  4. Ձայնային ֆայլերի փոխարկիչներ (ԽՈՍՈւՄ.ԵՄ ծառայությունից օգտվելու համար)`

    1. YouTube to MP3 Converter - Y2Mate

    2. Youtube to MP3 - AISEO

    3. Convert YouTubeVideo Into MP3 - SAVEMP3

Գրականություն

  1. Введение в обработку естественного языка - Բնական խոսքի մշակման (ԲԽՄ) ներա-ծություն (ռուսերեն): Տեսադասընթացը ուսանողներին ծանոթացնում է ԲԽՄ առարկայի հիմնական հասկացություններին, մեթոդներին, գործիքներին և կիրառումներին

  2. Speech and Language Processing (3rd ed. draft) - Դ. Ժուրավսկի, Ջ.Հ. Մարտին. Խոսքի և լեզվի մշակում. Էլեկտրոնային առցանց գիրք.

  3. Բնական խոսքի ընդհանրական ներկայացման մի տարբերակի մասին

  4. Artak Hovsepian's Post - Մենք ներկայացրել ենք երկու տեխնոլոգիա՝ մեքենայական թարգմանություններով, որոնք թույլ են տալիս թարգմանել մոտ 15 օտար լեզուներից հայերեն և հայերենից՝ օտար լեզուներ։

 
 
 

Recent Posts

See All

Լեզվական էվոլյուցիա

Տեսություն Լեզվաբանությանը առնչվող հերթական մի հատոր կարդալու ժամանակ պահանջ զգացի մեկ անգամ եւս անդրադառնալու լեզու, խոսք, մշակութային...

Comments


bottom of page