Как Векторизовать большие текстовые данные в pyspark
Необходимо векторизовать полученные спарсенные данные. Препроцессинг пройден, тип данных ArrayString. Данных 9 тыс.строк. Если попробовать код на 10 строках, то все отрабатывает отлично, если на всем датафрейме, то процесс сильно грузится. Работаю в Jupyter Notebook.
Pyspark.
Данные:
Код:
word2Vec = Word2Vec(vectorSize=3, minCount = 0, inputCol = 'finished', outputCol = 'result')
model = word2Vec.fit(df2)
result = model.transform(df2)

