სიტყვამნერგი

მასალა ვიკიპედიიდან — თავისუფალი ენციკლოპედია

სიტყვამნერგი არის ტექსტის ანალიზატორი, რომელიც გამოიყენება ბუნებრივი ენის ტექსტების კომპიუტერული დამუშავებისთვის (NLP).  იგი ახდენს ბუნებრივი ენობრივი მონაცემების ტრანსფორმაციას ვექტორების საშუალებით, მათ ციფრულ ეკვივალენტებში.  

ვექტორი არის მრავალგანზომილებიან სივრცეში არსებულ ორ წერტილს შორის უმოკლესი მანძილი და გამოიხატება წერტილების ციფრულ დახასიათებაში, რომლებიც წარმოადგენენ მათ კოორდინატებს. ვექტორული რეპრეზენტაციის დროს სიტყვამნერგის ფარგლებში სივრცე შეიძლება უსაზღვრო იყოს და მოიცავდეს ასზე მეტ განზომილებას.

ვექტორს აქვს სიტყვის ეკვივალენტური მახასიათებელი. იმის მიხედვით თუ რამდენად ხშირად გაჩნდება ორი სიტყვა კონტექსტში ერთად მათ ვექტორებს შორის მანძილიც იქნება შესაბამისი, მაგალითად, თუ სიტყვებს შორის მანძილი მოკლეა, ასევე მოკლე იქნება მათ ვექტორებს შორის დაშორება.

სიტყვებისგან ვექტორების გამოყვანას გაწვრთნას უწოდებენ, რის შედეგადაც ვიღებთ სემანტიკურად მსგავს სიტყვებს.

სიტყვამნერგი სიტყვის ტიპურ თვისებებს ასახავს მთლიან ტექსტთან, ანუ კორპუსთან, მიმართებაში, რაც მოიცავს სემანტიკურ მსგავსება-განსხვავებებს, კონტექსტსა და სიხშირეს.

პროგრამული ინსტრუმენტები[რედაქტირება | წყაროს რედაქტირება]

სიტყვამნერგის პროგრამული ინსტრუმენტებია ტომაშ მიკოლოვის Word2vec, Stanford University's GloVe, fastText, Gensim. ასევე ამ ეტაპზე შექმნილია შემდეგი სიტყვამნერგები ქართული ენისათვის: სიტყვამნერგი, Semantic similarity of words.