Как Векторизовать большие текстовые данные в pyspark

Question

Необходимо векторизовать полученные спарсенные данные. Препроцессинг пройден, тип данных ArrayString. Данных 9 тыс.строк. Если попробовать код на 10 строках, то все отрабатывает отлично, если на всем датафрейме, то процесс сильно грузится. Работаю в Jupyter Notebook.

Pyspark.

Данные:

Код:

word2Vec = Word2Vec(vectorSize=3, minCount = 0, inputCol = 'finished', outputCol =  'result')

model = word2Vec.fit(df2)

result = model.transform(df2)

БЛОГ НА HUSL

Как Векторизовать большие текстовые данные в pyspark

Ответы (0 шт):