آموزش word2vec و text embedding با پایتون

Text Embedding چیه و چرا اصلا بهش نیاز داریم؟

تصور کن می‌خوای به یه کامپیوتر یاد بدی که «سیب» و «پرتقال» به هم شبیهن ولی «سیب» و «ماشین» نه. کامپیوتر فقط عدد می‌فهمه، نه مفهوم! اینجا Text Embedding میاد وسط. این تکنیک، کلمات یا جملات رو به بردارهای عددی (لیستی از اعداد) تبدیل می‌کنه. اما نه هر عددی؛ این بردارها تو فضای چندبعدی جوری قرار می‌گیرن که کلمات با معنای مشابه، نزدیک به هم باشن. مثلاً بردار «سیب» و «پرتقال» تو این فضا فاصله کمی از هم دارن، در حالی که «سیب» و «ماشین» فاصله‌شون زیاده. این یعنی کامپیوتر می‌تونه شباهت معنایی رو «محاسبه» کنه.

چرا بهش نیاز داریم؟ خب، دیگه نمی‌تونیم برای هر کلمه یه عدد رندوم بدیم. باید این اعداد معنی داشته باشن. در دنیای پایتون و یادگیری ماشین، برای انجام کارهایی مثل:

تحلیل احساسات: فهمیدن اینکه یه متن مثبته یا منفی.
ترجمه ماشینی: تبدیل زبان‌ها به هم.
سیستم‌های توصیه‌گر: پیشنهاد محصول یا محتوای مشابه.
جستجوی معنایی: پیدا کردن نتایج مرتبط حتی اگه کلمات دقیقا یکی نباشن.
خوشه‌بندی و دسته‌بندی متن: گروه‌بندی اسناد یا نظرات.

بدون اِمبِدینگ‌ها، کامپیوترها فقط با توالی کاراکترها سروکار دارن و از فهم عمیق زبان عاجزن. این وکتورها به کامپیوتر دیدی می‌ده که قبلاً نداشت.

Word2Vec: پدرخوانده دنیای Embedding

آموزش word2vec و text embedding با پایتون — تصویر 2

بین کلی مدل اِمبِدینگ، Word2Vec یکی از مشهورترین‌ها و پیشگامانه. این مدل که توسط تیم گوگل در سال ۲۰۱۳ معرفی شد، انقلابی در حوزه NLP به پا کرد. ایده اصلیش اینه: “شما معنی یک کلمه را با کلماتی که در کنارش می‌آیند، می‌فهمید.” یعنی «هم‌متنی» (Context) کلمات خیلی مهمه.

Word2Vec دو تا معماری اصلی داره:

CBOW (Continuous Bag-of-Words): این مدل سعی می‌کنه با استفاده از کلمات اطراف (Context Words)، کلمه مرکزی رو پیش‌بینی کنه. مثلاً اگه “قهوه” و “داغ” رو داشته باشه، می‌خواد “می‌چسبه” رو حدس بزنه.
Skip-gram: برعکس CBOW، Skip-gram با داشتن کلمه مرکزی، کلمات اطرافش رو پیش‌بینی می‌کنه. اگه “قهوه” رو داشته باشه، سعی می‌کنه “داغ” و “می‌چسبه” رو پیش‌بینی کنه. این مدل معمولاً برای دیتای کوچیک بهتر عمل می‌کنه و اِمبِدینگ‌های باکیفیت‌تری تولید می‌کنه.

هر دو معماری، در نهایت خروجی‌شون یه سری بردار عددی برای هر کلمه‌ست که تو فضای برداری موقعیتش رو نشون می‌ده. این بردارها خاصیت‌های جالبی دارن؛ مثلاً اگه بردار «پادشاه» رو از «مرد» کم کنی و بهش بردار «زن» رو اضافه کنی، به بردار «ملکه» نزدیک می‌شی! باحال نیست؟

آماده‌سازی داده برای Word2Vec در پایتون

آموزش word2vec و text embedding با پایتون — تصویر 3

قبل از اینکه بتونیم مدل Word2Vec رو با پایتون آموزش بدیم، باید داده‌هامون رو آماده کنیم. این شامل چند مرحله‌ست:

1. جمع‌آوری و تمیزکاری متن

اولین قدم، داشتن یه مجموعه بزرگ از متن (Corpus) هست. مثلاً مقالات خبری، کتاب‌ها، توییت‌ها و … . بعد باید اونا رو تمیز کنیم:

حذف کاراکترهای اضافی: مثل علائم نگارشی، اعداد (مگر اینکه بهشون نیاز داشته باشیم)، URL و … .
تبدیل به حروف کوچک: برای اینکه “Apple” و “apple” رو یکسان در نظر بگیریم.
حذف کلمات توقف (Stop Words): کلماتی مثل “از”، “به”، “و”، “یک” که بار معنایی کمی دارن و بیشتر نویز ایجاد می‌کنن.
ریشه‌یابی (Stemming) یا لمتایز کردن (Lemmatization): تبدیل کلمات به ریشه اصلی‌شون. مثلاً “می‌رود”، “رفته” و “رفت” به “رفتن” تبدیل بشن.

2. توکنایز کردن (Tokenization)

یعنی تقسیم متن به واحدهای کوچکتر، که معمولاً کلمات هستن. مثلاً جمله “این یک جمله است.” تبدیل میشه به [“این”, “یک”, “جمله”, “است”].


import nltk
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
import re

# اطمینان از دانلود بسته‌های مورد نیاز
nltk.download('punkt')
nltk.download('stopwords')

متن_فارسی = "سلام! این یک آموزش جامع و کاربردی برای word2vec با پایتون است. یادگیری ماشین هیجان‌انگیز است."

# 1. تمیزکاری اولیه (حذف علائم نگارشی و اعداد)
متن_فارسی = re.sub(r'[^ا-یa-zA-Zs]', '', متن_فارسی) # نگهداری فقط حروف فارسی، انگلیسی و فاصله
متن_فارسی = متن_فارسی.lower() # تبدیل به حروف کوچک (برای انگلیسی)

# 2. توکنایز کردن
توکن‌ها = word_tokenize(متن_فارسی)

# 3. حذف کلمات توقف فارسی (یک نمونه ساده)
# لیست کلمات توقف فارسی کامل‌تر را می‌توان از منابع مختلف بدست آورد
stop_words_fa = set(['و', 'در', 'به', 'از', 'که', 'می', 'است', 'برای', 'با', 'یک'])
توکن‌های_فیلتر_شده = [کلمه for کلمه in توکن‌ها if کلمه not in stop_words_fa and len(کلمه) > 1]

print("متن اصلی:", متن_فارسی)
print("توکن‌های فیلتر شده:", توکن‌های_فیلتر_شده)

این فقط یه نمونه ساده‌ست. برای کلمات توقف فارسی و ریشه‌یابی، کتابخانه‌هایی مثل hazm یا PersianNLP می‌تونن کمک کنن.

پیاده‌سازی Word2Vec با Gensim در پایتون

برای پیاده‌سازی Word2Vec در پایتون، کتابخانه Gensim یه انتخاب عالیه. این کتابخانه بهینه‌ست و کار باهاش راحته.

نصب Gensim


pip install gensim

آموزش مدل Word2Vec

فرض می‌کنیم یه لیست از جملات توکنایز شده داریم. هر جمله خودش یه لیست از کلمات توکنایز شده‌ست:


from gensim.models import Word2Vec
import logging

# تنظیمات لاگینگ برای دیدن پیشرفت آموزش
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)

# داده‌های نمونه (باید توکنایز شده باشند)
جملات = [
    ["سیب", "میوه", "ای", "خوشمزه", "و", "مقوی", "است"],
    ["پرتقال", "نیز", "میوه", "ای", "سرشار", "از", "ویتامین", "سی", "است"],
    ["خودرو", "وسیله", "نقلیه", "ای", "است", "که", "ما", "را", "جا", "به", "جا", "می", "کند"],
    ["کتاب", "خواندن", "ذهن", "را", "توسعه", "می", "دهد"],
    ["موبایل", "برای", "ارتباط", "و", "دسترسی", "به", "اطلاعات", "مفید", "است"]
]

# پارامترهای مدل Word2Vec:
# vector_size: ابعاد بردار (معمولاً 100 تا 300)
# window: حداکثر فاصله بین کلمه فعلی و کلمات در زمینه
# min_count: کلماتی که کمتر از این تعداد ظاهر شوند نادیده گرفته می‌شوند
# workers: تعداد هسته‌های CPU برای آموزش موازی
# sg: 0 برای CBOW، 1 برای Skip-gram
model = Word2Vec(
    sentences=جملات,
    vector_size=100,
    window=5,
    min_count=1,
    workers=4,
    sg=0 # استفاده از CBOW
)

# آموزش مدل (اگر از قبل sentences را به constructor نداده باشید)
# model.train(sentences, total_examples=model.corpus_count, epochs=model.epochs)

print("مدل Word2Vec با موفقیت آموزش دید.")

نکته مهم: برای آموزش یک مدل Word2Vec معنی‌دار، به حجم عظیمی از داده (مثلاً صدها مگابایت تا چند گیگابایت متن) نیاز دارید. این مثال فقط برای درک نحوه کارکرد است.

استفاده از مدل

حالا که مدل رو آموزش دادیم، می‌تونیم ازش استفاده کنیم:

پیدا کردن بردار یک کلمه


# گرفتن بردار کلمه "سیب"
vector_سیب = model.wv['سیب']
print("بردار کلمه 'سیب':n", vector_سیب)
print("ابعاد بردار:", len(vector_سیب))

پیدا کردن کلمات مشابه


# پیدا کردن 3 کلمه مشابه "سیب"
similar_words = model.wv.most_similar('سیب', topn=3)
print("کلمات مشابه 'سیب':", similar_words)

# پیدا کردن 3 کلمه مشابه "کتاب"
similar_words_book = model.wv.most_similar('کتاب', topn=3)
print("کلمات مشابه 'کتاب':", similar_words_book)

با توجه به حجم کم داده‌های نمونه، شاید نتایج خیلی دقیق نباشن، ولی در یک مجموعه داده واقعی، کلمات مرتبط رو خواهید دید.

انجام عملیات آنالوژی (Analogies)

یکی از قابلیت‌های شگفت‌انگیز Word2Vec، حل آنالوژی‌هاست (مثلاً “پادشاه” – “مرد” + “زن” = “ملکه”).


# پیدا کردن کلمه ای که رابطه "مرد" به "زن" را با "پادشاه" دارد
# (مثلاً پادشاه - مرد + زن)
# اگر مدل روی داده‌های کافی آموزش دیده باشد، نتیجه باید "ملکه" باشد.
# (با داده‌های کوچک مثال ما، ممکن است نتیجه منطقی نباشد)
result = model.wv.most_similar(positive=['زن', 'پادشاه'], negative=['مرد'], topn=1)
print("آنالوژی پادشاه - مرد + زن:", result)

ذخیره و بارگذاری مدل

آموزش مدل Word2Vec روی دیتای بزرگ می‌تونه زمان‌بر باشه، پس بهتره مدل آموزش‌دیده رو ذخیره کنیم تا لازم نباشه هر بار از اول آموزش بدیم. این مدل‌ها رو می‌تونید برای پروژه‌های پایتونتون در آینده استفاده کنید.


# ذخیره مدل
model.save("word2vec_model.bin")
print("مدل ذخیره شد.")

# بارگذاری مدل
loaded_model = Word2Vec.load("word2vec_model.bin")
print("مدل بارگذاری شد.")

# استفاده از مدل بارگذاری شده
print("کلمات مشابه 'سیب' (از مدل بارگذاری شده):", loaded_model.wv.most_similar('سیب', topn=1))

مقایسه Word2Vec با سایر تکنیک‌های Embedding

Word2Vec عالیه، اما تنها گزینه نیست. تو این جدول، چندتا از محبوب‌ترین روش‌های اِمبِدینگ رو با هم مقایسه می‌کنیم:

تکنیک Embedding	ویژگی‌های اصلی
Word2Vec	معماری‌های CBOW و Skip-gram، یادگیری مبتنی بر زمینه، سریع و کارآمد برای داده‌های بزرگ.
GloVe	یادگیری مبتنی بر ماتریس هم‌وقوعی کلمات (Co-occurrence matrix)، ترکیبی از روش‌های مبتنی بر شمارش و پیش‌بینی.
FastText	مثل Word2Vec اما اِمبِدینگ‌ها را برای n-gramهای کاراکتر یاد می‌گیرد، برای کلمات ناآشنا (OOV) و زبان‌های ریشه‌دار (مثل فارسی) بهتر عمل می‌کند.
BERT (و مدل‌های ترنسفورمر)	اِمبِدینگ‌های متنی Contextual، بردارها بر اساس کل جمله تغییر می‌کنند، قدرت فوق‌العاده در درک مفهوم جمله.

کاربردهای واقعی Text Embedding و Word2Vec

فقط بحث تئوری نیست، این ابزارها کلی کاربرد خفن تو دنیای واقعی دارن:

تکمیل خودکار و پیشنهاد کلمات: وقتی تو گوشیت تایپ می‌کنی و کلمه بعدی پیشنهاد میشه، پشت صحنه از اِمبِدینگ‌ها استفاده میشه.
موتورهای جستجوی پیشرفته: به جای جستجوی کلمات دقیق، معنای پرس‌وجوی کاربر رو می‌فهمن و نتایج مرتبط‌تر رو نشون می‌دن.
تحلیل احساسات مشتری: برای شرکت‌ها حیاتیه که بدونن مشتری‌هاشون نسبت به محصولات یا خدماتشون چه حسی دارن. اِمبِدینگ‌ها این امکان رو میدن.
فیلترینگ اسپم: با فهمیدن محتوای معنایی ایمیل‌ها، هرزنامه‌ها رو شناسایی و فیلتر می‌کنن.
سیستم‌های پرسش و پاسخ (Q&A): می‌تونن معنی سوال رو بفهمن و جواب درست رو از یه پایگاه دانش بزرگ پیدا کنن.
ساخت چت‌بات‌های هوشمند: چت‌بات‌هایی که مکالمه طبیعی‌تری دارن و منظور کاربر رو بهتر درک می‌کنن.

توانایی مدل‌سازی وکتورهای کلمات این امکان را به برنامه‌نویسان می‌دهد که راه‌حل‌های نوآورانه‌ای در زمینه پردازش زبان طبیعی ارائه دهند. می‌توانید کدهای آماده و اسنیپت‌های مختلفی را در این زمینه پیدا کنید.

عیب‌یابی سریع: مشکلات رایج در آموزش Word2Vec

مثل هر پروژه برنامه‌نویسی دیگه‌ای، اینجا هم ممکنه به مشکلاتی بربخوری. نگران نباش، اینا چندتا از متداول‌ترینشون و راه‌حل‌هاشون هستن:

1. بردارهای بی‌معنی یا کلمات نامربوط

مشکل: بعد از آموزش، وقتی کلمات مشابه رو می‌پرسی، نتایج بی‌ربط یا عجیب و غریب دریافت می‌کنی.

راه حل:

حجم داده کم: رایج‌ترین دلیل. Word2Vec به دیتای بزرگ (حداقل چند ده مگابایت، ترجیحاً گیگابایت‌ها) نیاز داره تا بتونه الگوهای معنایی رو یاد بگیره. با دیتای کوچک، مدل نمی‌تونه روابط رو به درستی تشخیص بده. سعی کن کورپس بزرگتری پیدا کنی.
پیش‌پردازش ضعیف: اگه متن رو به درستی تمیز و توکنایز نکرده باشی، نویز وارد مدل میشه. مطمئن شو که علائم نگارشی، اعداد (اگه نیاز نیست)، استاپ‌وردها و کلمات با تکرار خیلی کم رو حذف کردی. ریشه‌یابی و لمتایز کردن هم کمک می‌کنه.
پارامترهای مدل نامناسب: پارامترهایی مثل vector_size، window و min_count رو آزمایش کن.
- vector_size کوچیک (مثلاً زیر 50) ممکنه کافی نباشه.
- window خیلی بزرگ یا خیلی کوچیک هم می‌تونه مشکل‌ساز باشه.
- min_count اگه خیلی بالا باشه، کلمات مهم ولی کم‌تکرار رو از دست میدی.

2. خطای `KeyError` برای کلمات

مشکل: وقتی سعی می‌کنی بردار یک کلمه رو بگیری (مثلاً model.wv['کلمه'])، خطای KeyError دریافت می‌کنی.

راه حل:

کلمه در واژه‌نامه مدل نیست: این خطا یعنی کلمه‌ای که دنبالش می‌گردی، در طول آموزش مدل هرگز دیده نشده یا تعداد تکرارش کمتر از min_count بوده و حذف شده.
1. مطمئن شو که کلمه مورد نظر تو دیتای آموزشیت وجود داره.
2. min_count رو کمتر کن تا کلمات کم‌تکرار هم حفظ بشن (اما مراقب نویز باش).
3. بررسی کن که پیش‌پردازش کلمه مورد نظر (مثلاً تبدیل به حروف کوچک یا ریشه‌یابی) با دیتای آموزش یکسانه.

3. زمان آموزش طولانی یا مصرف بالای منابع

مشکل: آموزش مدل Word2Vec زمان زیادی می‌بره یا مقدار زیادی رم و CPU مصرف می‌کنه.

راه حل:

تعداد workers: این پارامتر تعداد هسته‌های CPU رو برای آموزش مشخص می‌کنه. اونو روی تعداد هسته‌های CPU سیستمت تنظیم کن (یا کمتر برای استفاده از منابع دیگر). اگه خیلی زیاد باشه یا خیلی کم، ممکنه بهینه نباشه.
vector_size و window: کاهش این پارامترها می‌تونه سرعت آموزش رو بالا ببره اما ممکنه کیفیت اِمبِدینگ‌ها رو کم کنه.
min_count بالاتر: با بالا بردن min_count، کلمات کم‌تکرار حذف میشن و واژه‌نامه مدل کوچکتر میشه که به سرعت و حافظه کمک می‌کنه.
استفاده از دیتای کم‌حجم‌تر برای تست: در مراحل توسعه، با یک زیرمجموعه کوچکتر از دیتات تست کن تا زمان آموزش رو کاهش بدی.
سخت‌افزار قوی‌تر: گاهی اوقات چاره‌ای جز ارتقاء سخت‌افزار یا استفاده از سرویس‌های ابری (مثل Google Colab با GPU) نیست.

به یاد داشته باش، تجربه و آزمون و خطا تو NLP خیلی مهمه. از ابزارهای پایتون برای تحلیل بهتر مشکلاتت استفاده کن.

پرسش‌های متداول (FAQ)

آیا Word2Vec برای همه زبان‌ها خوب کار می‌کند؟

Word2Vec برای اکثر زبان‌ها از جمله فارسی عملکرد خوبی دارد، اما به پیش‌پردازش مناسب (مانند توکنایزر و کلمات توقف مخصوص فارسی) و حجم کافی داده نیاز دارد. برای زبان‌های ریشه‌دار و دارای کلمات مرکب زیاد، ممکن است FastText به دلیل استفاده از زیرکلمات (subword information) نتایج بهتری بدهد.

فرق اصلی بین Word2Vec و BERT چیست؟

فرق اساسی این است که Word2Vec اِمبِدینگ‌های ثابتی برای هر کلمه تولید می‌کند (یعنی بردار “سیب” همیشه یکسان است)، در حالی که BERT اِمبِدینگ‌های زمینه‌ای (Contextual) تولید می‌کند. یعنی بردار “سیب” در جمله “سیب میوه است” با بردار “سیب” در جمله “کامپیوتر اپل با نام سیب” متفاوت خواهد بود. BERT پیچیده‌تر و قدرتمندتر است، اما به منابع محاسباتی بیشتری نیاز دارد.

چطور می‌توانیم کیفیت اِمبِدینگ‌های آموزش‌دیده را ارزیابی کنیم؟

راه‌های مختلفی برای ارزیابی وجود دارد:

ارزیابی کیفی: بررسی کلمات مشابه، آنالوژی‌ها (مثل مثال “پادشاه” – “مرد” + “زن”)، و نمایش سه‌بعدی (با استفاده از ابزارهایی مانند t-SNE یا PCA) برای دیدن خوشه‌بندی کلمات.
ارزیابی کمی (Intrinsic Evaluation): استفاده از معیارهایی مانند همبستگی با شباهت‌های معنایی انسانی.
ارزیابی وظیفه‌محور (Extrinsic Evaluation): استفاده از این اِمبِدینگ‌ها در یک وظیفه واقعی (مثلاً دسته‌بندی متن) و مقایسه عملکرد با سایر اِمبِدینگ‌ها. این روش معمولاً معتبرتر است.

آیا می‌توانیم از مدل‌های Word2Vec پیش‌آموزش‌دیده استفاده کنیم؟

بله، برای بسیاری از زبان‌ها (از جمله انگلیسی و بعضاً فارسی) مدل‌های Word2Vec پیش‌آموزش‌دیده روی حجم عظیمی از داده در دسترس هستند. استفاده از این مدل‌ها باعث صرفه‌جویی در زمان و منابع شده و معمولاً نتایج بهتری ارائه می‌دهند، خصوصاً اگر دیتای خودتان کوچک باشد. می‌توانید آن‌ها را از منابعی مانند وب‌سایت Gensim، Hugging Face یا GitHub پیدا کنید.

سخن پایانی

خب، رفیق برنامه‌نویس، رسیدیم به انتهای مسیر آموزش Word2Vec و Text Embedding با پایتون. امیدوارم این مقاله یه دید جامع و کاربردی بهت داده باشه که چطور می‌تونی این ابزارهای قدرتمند رو تو پروژه‌هات به کار بگیری. یادت باشه، دنیای NLP همیشه در حال تغییر و پیشرفته، پس همیشه دنبال یادگیری و به‌روزرسانی دانش و مهارت‌هات باش.

با استفاده درست از اِمبِدینگ‌ها، می‌تونی قدم بزرگی تو ساخت سیستم‌های هوشمندتر برداری که واقعاً زبان رو می‌فهمن. اگه به مباحث بیشتری تو این زمینه علاقه داری، حتماً به سایر آموزش‌های پایتون و کدهای آماده HTML و CSS ما سر بزن. با پشتکار و خلاقیت، می‌تونی مرزهای جدیدی رو تو دنیای برنامه‌نویسی باز کنی. موفق باشی!

برای اطلاعات بیشتر و دسترسی به منابع کامل‌تر در زمینه برنامه‌نویسی و توسعه وب، حتماً از وب‌سایت fa-tools.ir دیدن کنید.

“`

Text Embedding چیه و چرا اصلا بهش نیاز داریم؟

Word2Vec: پدرخوانده دنیای Embedding

آماده‌سازی داده برای Word2Vec در پایتون

1. جمع‌آوری و تمیزکاری متن

2. توکنایز کردن (Tokenization)

پیاده‌سازی Word2Vec با Gensim در پایتون

نصب Gensim

آموزش مدل Word2Vec

استفاده از مدل

پیدا کردن بردار یک کلمه

پیدا کردن کلمات مشابه

انجام عملیات آنالوژی (Analogies)

ذخیره و بارگذاری مدل

مقایسه Word2Vec با سایر تکنیک‌های Embedding

کاربردهای واقعی Text Embedding و Word2Vec

عیب‌یابی سریع: مشکلات رایج در آموزش Word2Vec

1. بردارهای بی‌معنی یا کلمات نامربوط

2. خطای `KeyError` برای کلمات

3. زمان آموزش طولانی یا مصرف بالای منابع

پرسش‌های متداول (FAQ)

سخن پایانی

Table of Contents

آخرین نوشته‌ها

دسته‌ها