Σημασιολογική Ομοιότητα (similarity) ή απόσταση (distance)

Στην Επεξεργασία Φυσικής Γλώσσας, ειδικά όταν χρησιμοποιούνται μεθοδολογίες μηχανικής μάθησης (machine learning) και διανύσματα (vectors), αξιοποιούνται τεχνικές για την μέτρηση της εγγύτητας (proximity) των διανυσμάτων. Δυο τέτοιες τεχνικές είναι η Ευκλείδειος απόσταση (Euclidean distance) και η ομοιότητα συνημίτονου (cosine similarity).

Το πρόγραμμα αυτό δέχεται μια λέξη ως είσοδο και επιστρέφει έναν αριθμό «κοντινών» λέξεων (με βάση μια συλλογή Ελληνικών κειμένων).

Παράμετροι

Υπάρχουν οι παρακάτω παράμετροι που μπορούν να χρησιμοποιηθούν:

  • Αριθμός λέξεων (K): Με την παράμετρο αυτή, ορίζουμε τον αριθμό των λέξεων που θέλουμε να μας επιστρέφεται
  • Τεχνική (method): Παίρνει τιμές cosine ή euclidean και έχει να κάνει με τον τρόπο υπολογισμού της εγγύτητας των λέξεων. Euclidean είναι η κλασική απόσταση δυο σημείων, ενώ η cosine το συνημίτονο της γωνίας που δείχνει προς την ίδια κατεύθυνση στο χώρο.
  • Μοντέλο (model): Παίρνει τις τιμές cbow ή skipgram για τα λεξικά με μια λέξη.
    Στο μοντέλο cbow κωδικοποιείται η μεσαία λέξη σε μια πλειάδα λέξεων, οπότε οι λέξεις που μας επιστρέφονται στην πράξη, έχουν την ίδια χρήση (σημασιολογία) με αυτή τη λέξη στο μέσο κοινών φράσεων.
    Στο μοντέλο SkipGram κωδικοποιείται μια λέξη που γειτνιάζει με μια πλειάδα λέξεων, οπότε οι λέξεις που μας επιστρέφονται στην πράξη, έχουν την ίδια χρήση με αυτή τη λέξη που γειτνιάζει με κοινές φράσεις