top of page
Search

Բնական խոսքի մշակում

Updated: Sep 10

Ներածություն

Այստեղ թվարկված են ԲԽՄ (Բնական խոսքի մշակում) տեխնոլոգիաները, որոնք կիրառելի են հայոց լեզվին: Այդ թվում են ինչպես պատրաստի կիռարումներ (applicaions), այնպես էլ գործիքակազմեր, որոնց հիման վրա կարելի է կառուցել տարբեր կիրառումներ. օրինակ` Keras-ը:

Սկզբից ես չէի ուզում այստեղ բերել Keras-ները, LLM-ները, RNN-ները, GPT-ները, ևն, քանի որ ես դրանք լեզվական մոդելներ չեմ համարաում: Թե ինչո՞ւ, շարադրել եմ What is language? (Что такое язык?) էջի Why GPT is not a language model? հատվածում: Սակայն վիճակագրական մեթոդներն էլ որոշեցի թվարկել այդ նույն հատվածի տրամաբանաությանը հետեւելով:

Այս ցանկում ընդգրկել ենք Թվային հումանիտար գիտություններ կայքէջի Գծագրի տեխնոլոգիաները:

Կիրառումներ

  1. Հայերեն խոսքի սրբագրում (spell checking)

    1. Armenian Spell Checker - Հայերեն ուղղագրության բառարաններ GNU Aspell-ի եւ MySpell-ի համար, ինչպես նաեւ OpenOffice.org ընդլայնում եւ Mozilla հավելում:

    2. HySpell Armenian Language and Cultural site - Հայերէն Լեզուի եւ Մշակութային կայք. Հայերէնի Ուղղագրիչ (3.0 տարբերակ)՝ Microsoft Office Word 2007/2010/2013/2016 ծրագրերի համար։

    3. Powerspell - Ծրագիրը ստուգում է քո տեքստի ուղղագրությունը, կետադրությունը և շարահյուսությունը, ինչպես քո հայերենի ուսուցիչը:

    4. Տես 2.c. ստորեւ

  2. Հայերեն խոսքի վերլուծում (parsing)

    1. uniparser-grammar-eastern-armenian - Կանոնային (ալգորիթմային) ձևաբանական վերլուծիչ ժամանակակից արեւելահայերենի համար - Սա թեկնածու է d2 -> ծառադարան կածանի (տե՛ս Թվային հումանիտար գիտություններ) իրացման համար

    2. HyeTagger (source code) in gitHub - Պիտակավորման համակարգ եռգրամների պիտակների հաջորդականություններին Բայեսյան «միամիտ» դասակարգչի եւ քողարկված Մարկովյան մոդելի զուգահեռ կիրառումով:

    3. apertium-hyw (Readme) - This is an Apertium monolingual language package for Armenian: a) Morphological analysis of Armenian, b) Morphological generation of Armenian, c) Part-of-speech tagging of Armenian. A Free/Open-Source Morphological Transducer for Western Armenian.

    4. Armenian Parser - Արեւելահայերեն [պարզ] տեքստի սրբագրում, պիտակավորում, եւ լեմմավորում Linux համակարգի համար: Առաքվում է Java .jar արխիվային ֆայլի տես-քով: Աշխատացնելու համար ,պարզագույն bash հրահանգ է կանչվում - Սա թեկնածու է d2 -> ծառադարան կածանի (տե՛ս Թվային հումանիտար գիտություններ) իրացման համար

    5. The ANR DALIH (Digitizing Armenian Linguistic Heritage) - team has developed three AI models for morphological analysis of the Armenian language: for classical, Eastern and Western Armenian:

      1. The end-users can access the functionality at https://dh.chartes.psl.eu/deucalion/

      2. For training data: The Universal Dependencies of Armenian developed in recent years (Marat Yavrumian, ArmTDP team, Petr Kocharov, Lilit Kharatyan). The models are documented and available on Zenodo:

        1. Western Armenian, (application)

        2. Eastern Armenian, (application)

        3. Classical Armenian. (application)

      3. Descriptive article 

  3. Հայերեն գրավոր խոսքի ճանաչում

    1. OCR Data Pipeline - Սա լավ թեկնածու է a2 -> b2 -> c2 կածանի (տե՛ս Թվային հումանիտար գիտություններ) իրացման համար

    2. Calfa OCR online tool - This is a link to announcement: Association internationale des études arméniennes: New Page AIEA researchers will gain access to Automated Text Recognition in Armenian for both printed and handwritten documents, on the Calfa OCR online tool. The model covers a wide range of materials, from historical manuscripts to modern handwritten archives, old printed books, and newspapers, with 300 pages offered to every researcher. [It will be great to get more [technical] info about the tool.]

    3. Armenian Document OCR - a git project that contains an Armenian Document OCR solution that also supports Latin and Cyrillic characters. The solution is designed to work with scanned documents. It supports documents with different layouts, densities and scan qualities. Used in the National Library of Armenia.

    4. TUMO Workshop - Preserving the Past with AI- a git project that contains main code and tasks for the TUMO workshop "Preserving the Past with AI", led by Chahan Vidal-Gorène (Calfa) and Baptiste Queuche (Calfa). Done in partnership with the National Library of Armenia.

  4. Հայերեն բանավոր խոսքի ճանաչում

    1. Հայերեն խոսքի փոխարկում 

    2. Localize Mozilla: Pontoon.

    3. Transcribe Armenian audio to text: Sonix

    4. Armenian Voice Typing (Speech To Text) 

    5. Transcribe Armenian  - Notta-ն հայկական աուդիո-տեքստի լավագույն առցանց ան-վճար փոխարկիչն է: Մի քանի կտտոցով անմիջապես արտագրեք եւ թարգմանեք ձեր հայերեն աուդիո եւ տեսանյութը անգլերեն, գերմաներեն, ֆրանսերեն եւ այլ լեզուներով:

    6. Xosum.am - Արհեստական բանականությամբ (AI) աշխատող այս ծրագիրը ԱՆՎՃԱՐ և ԱՆՍԱՀՄԱՆԱՓԱԿ կլսի ինչ ես ասում ու կդարձնի այն տեքստ, որը կարող ես օգտագործել ցանկացած նպատակների համար.

      1. աշխատում է Android և iPhone հեռախոսների վրա

      2. պահպանում է վերծանումների պատմությունը

      3. անհամեմատ ավելի լավ է աշխատում աղմուկների դեպքում

      Ծրագիրը օգտագործում է Google-ի խոսակցային տեխնոլոգիաները, որ հենված են արհեստական բանականության վրա:

      Այս համակարգը շատ որակյալ է: Այն բացի ձայնը տեքստի փոխարկելը, ապահովում է նաեւ կետադրում/սրբագրում: Սա լավ թեկնածու է a4 -> a3 -> b3 -> c2 կածանի (տե՛ս Թվային հումանիտար գիտություններ) իրացման համար

    7. https://hispeech.ai/ - միկրոֆոնից ձայնագրությունը չաշխատեց.

    8. https://elevenlabs.io/speech-to-text/armenian (API reference) - Անվճար հայերեն խոսքի ավտոմատ ճանաչում (ASR): Հիմքում ԱԲ սղագրական (?) Scribe գործիքն է: ElevenLabs-ը առաջ է OpenAI Whisper-ից՝ սխալի գործակիցը ընդամենը 9,1% է FLEURS եւ 12,0%՝ Common Voice չափանիշներով: Հայկական ֆիլմերի, փոդքասթերի, գործնական հանդիպումների, բժշկական թելադրանքների եւ այլնի համար է:

    9. WAV - WAV-ը նորաստեղծ ստարտափ է, որը ձևավորվել է Առաջատար Ծրագրային Տեխնոլոգիաների Կենտրոնի (CAST) հետ համատեղ։ Մեր թիմն ունի լայն փորձառություն բնական լեզուների և խոսքի մշակման բնագավառներում, հատկապես սակավառեսուրս լեզուների ուղղությամբ։

  5. Հայերեն տեքստը բանավոր խոսքի վերածում

    1. Go Get International LLC վերածում - Այս հավելվածը հասանելի է ձեր բոլոր սարքերի համար

    2. IT WING TECHNOLOGIES - Այս հավելվածը հասանելի է ձեր բոլոր սարքերի համար

    3. Narakeet - Վերածեք տեքստը խոսքի իրական խոսքի սինթեզ ապահովող 800 ձայներով եւ 100 լեզուներով։ Փորձեք հայերեն տեքստ կարդալու մեր ծրագիրն անվճար

    4. Հայկական տեքստը՝ ձայնին - Օգտագործիր հայկական TTS գործիքը, որպեսզի տեքստը վերածվի ներբեռնվող աուդիո ֆայլերի

    5. AI ձայնային գեներատոր՝ իրատեսական տեքստից խոսքի

    6. Տեքստը խոսքի հայերեն

  6. Թարգմանիչներ`

    1. 4.е (վերեւում)

    2. Google Translate 

    3. English-Armenian Medical Terms Dictionary

    4. Հայերեն-Անգլերեն 

    5. Yandex Translate (English-Armenian) — synchronized translation for 102 languages, predictive typing, dictionary with transcription, pronunciation, context and usage examples, and many other features.

    6. Translate.com  (8 cents per word)

    7. GPT - ChatbotGPT, Perplexity.ai.

Գործիքակազմ

  1. Keras - Python-ի միջերեսով ծրագրային բաց գրադարան է արհեստական նեյրոնային ցանցեր կառուցելու, ուսուցանելու, եւ հետազոտելու համար: Keras-ը միջերես է TensorFlow գրադարանի համար:

  2. Google OCR - Introduction to Google Vision OCR, Google Cloud Vision OCR-ը Google cloud vision API-ի մի մասն է՝ պատկերներից տեքստը արտահանելու համար: Համեմատվում են` ABBYY FineReader, Microsoft Azure Read API for OCR, Kofax, AWS Textract, եւ Nanonets’ OCRs ճանաչող համակարգերը: 

  3. Google Translation Hub

    1. Translation Hub Overview - Translation Hub-ը տեքստերի թարգմանության ինքնասպա-սարկման ծառայություն է: Այն կազմակերպությունները, որոնք տարբեր լեզուներով մեծ ծավալով թարգմանության կարիք ունեն կարող են Translation Hub-ից օգտվել` հարկավոր չէ ստեղծել ձեր սեփական առցանց կիրառումը կամ ինքնուրույն սպասար-կել ծրագրային ենթակառույցներ

    2. Translation Hub - Translation Hub-ը հնարավորություն է տալիս թարգմանել 135 լեզուներով ստեղծված բովանդակությունը գործարար մարդուն հարմար միջերեսով, ինչպես նաեւ անհրաժեշտության դեպքում ինտեգրել գործածողի կարծիքը: Այն հնարավորություն է տալիս ձեռնարկություններին կառավարել թարգմանության ծավալները աննախադեպ մասշտաբով եւ գնով

  4. Ձայնային ֆայլերի փոխարկիչներ (ԽՈՍՈւՄ.ԵՄ ծառայությունից օգտվելու համար)`

    1. YouTube to MP3 Converter - Y2Mate

    2. Youtube to MP3 - AISEO

    3. Convert YouTubeVideo Into MP3 - SAVEMP3

Գրականություն

  1. Введение в обработку естественного языка - Բնական խոսքի մշակման (ԲԽՄ) ներա-ծություն (ռուսերեն): Տեսադասընթացը ուսանողներին ծանոթացնում է ԲԽՄ առարկայի հիմնական հասկացություններին, մեթոդներին, գործիքներին և կիրառումներին

  2. Speech and Language Processing (3rd ed. draft) - Դ. Ժուրավսկի, Ջ.Հ. Մարտին. Խոսքի և լեզվի մշակում. Էլեկտրոնային առցանց գիրք.

  3. Բնական խոսքի ընդհանրական ներկայացման մի տարբերակի մասին

  4. Artak Hovsepian's Post - Մենք ներկայացրել ենք երկու տեխնոլոգիա՝ մեքենայական թարգմանություններով, որոնք թույլ են տալիս թարգմանել մոտ 15 օտար լեզուներից հայերեն և հայերենից՝ օտար լեզուներ։

  5. Chakmakjian, S., & Wang, I. Towards a Unified ASR System for the Armenian Standards

  6. Malajyan, A., Khurshudyan, V., & Avetisyan, K. Bi-dialectal ASR of Armenian from Naturalistic and Read Speech.

  7. A. Yeroyan, N. Karpov. Creating ASR dataset for low resource languages

  8. Boyacıoğlu, A. N., & Niehues, J. (n.d.). The First Parallel Corpus and Neural Machine Translation Model of Western Armenian and English. (Western Armenian - English Parallel Corpus)


 
 
 

Recent Posts

See All
Շրջածանց

Այս հասկացության հետ ծանոթացա Դր. Հ.Ջիվանյանի շնորհիվ: Մինչ օրս (2025-10-15) չէի հանդիպել circumfix եզրույթին պարզ պատճառով` հայերենում դեռ այդպիսի ածանցներ չեն նկարագրվել: Պարզվեց, որ դրանք կան ռուս

 
 
 
Արհեստական Բանականություն

Բնական խոսք սերող համակարգերի մասին (OpenAI-ի chatGPT երկխոսական գործիքից օգտվելու համար պետք է հաշվեհամար ստանալ` տես Ընդհանրական  ցանկի #4 կետը) AI Search Engine for Research  - Consensus: Find & un

 
 
 

Comments


bottom of page