פרטי הקורס
בחירת מודל AI
סקירה על המודלים הקיימים וההבדלים ביניהם
0/1
אימון של המודל לצורך שאלות בנושאי קוד או כל נושא אחר
כיצד לטעון ולאמן את המודל לצרכים שונים תוך יצירת מודל חדש משלנו
0/5
קובץ לביצוע כל שלבי האימון ניתן להורדה
יצרתי עבורכם קובץ פייתון יחיד שמבצע את כל שלבי האימון כולל טעינת הקבצים, וניתן להורדה למי שמשתף את המדריך :)
0/1
כיצד לייצר קבצים לצורך אימון המודל שלנו
0/1
איך לבנות אתר AI כמו צאט גי פי טי \ chat gpt עם מודלים קיימים ולרוס על שרת VPS
פרטי השיעור

שלב 3: כתיבת הקוד לאימון המודל באמצעות המאגרי מידע שיצרנו בשלב הקודם

כעת, נעבור לכתיבת הקוד שיאמן את המודל DistilGPT-2.

  1. טעינת הנתונים:

    • נשתמש בחבילה datasets כדי לטעון את נתוני האימון.

from datasets import load_dataset

# טוען את מערך הנתונים מקובץ טקסט
dataset = load_dataset('text', data_files={'train': 'train.txt', 'test': 'test.txt'})

טעינת המודל והטוקניזר:

  • נשתמש במודל DistilGPT-2 ובטוקניזר שלו.

from transformers import GPT2Tokenizer, GPT2LMHeadModel

tokenizer = GPT2Tokenizer.from_pretrained('distilgpt2')
model = GPT2LMHeadModel.from_pretrained('distilgpt2')

עיבוד הנתונים:

  • נעבד את הנתונים כך שהמודל יוכל להשתמש בהם.

def tokenize_function(examples):
    return tokenizer(examples['text'], padding='max_length', truncation=True)

tokenized_datasets = dataset.map(tokenize_function, batched=True)

הגדרת פרמטרים לאימון:

  • נשתמש ב- Trainer כדי להגדיר את פרמטרי האימון.

from transformers import Trainer, TrainingArguments

training_args = TrainingArguments(
    output_dir='./results',
    evaluation_strategy="epoch",
    per_device_train_batch_size=8,
    per_device_eval_batch_size=8,
    num_train_epochs=3,
    weight_decay=0.01,
)

trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=tokenized_datasets['train'],
    eval_dataset=tokenized_datasets['test'],
)

אימון המודל:

  • כעת נבצע את האימון.

שמירת המודל המאומן:

  • לאחר האימון, שמור את המודל המאומן כדי שתוכל להשתמש בו באפליקציה שלך.

model.save_pretrained('./trained_model')
tokenizer.save_pretrained('./trained_model')