3. Derlemi Düzenlemek - akoksal/Turkish-Word2Vec GitHub Wiki

Gensim kütüphanesi ile word2vec modeli eğitebilmek için derleminizi belli bir şekilde düzenlemeniz gerekmektedir. Her bir makale, noktalama işaretlerinden ayıklanmış bir şekilde, bir satıra yazılmalıdır. Her bir satırda bir adet makale bulunacak şekilde bir dosyaya yazılmalıdır. Gensim kütüphanesi wikipedia derlemine özel olarak bazı metodlar sunuyor. Yine de Türkçe dili için ayırıcı(tokenizer) fonksiyonu düzenlenmiştir. preprocess.py dosyasını çalıştırarak kendi wikipedia derleminizi düzenleyebilirsiniz. Bu python kodu iki tane argüman alıyor. İlki, wikipedia derleminizin dosya yolu(wikipedia derleminizi ayıklamadan). İkinci argüman ise çıktı dosyanızın yolu olacak. Örneğin:

python3 preprocess.py trwiki-20180101-pages-articles.xml.bz2 wiki.tr.txt

Önceki: 2. Derlemi Edinmek Sıradaki: 4. Word2Vec Modelini Eğitmek