Как правильно объединять векторизованные данные, для загрузки в модель обучения?

Question

Есть датасет, в нем два столбца один содержит наборы слов, его я векторизовал с помощью метода bag of words, а другой содержит катеригиональные признаки, к нему я применил метод one hot encoding. Дальше пытаюсь их объединить, для того чтобы начать обучение, но не понимаю как это сделать. Пытался применить метод FeatureUnion, но получаю ошибку:

TypeError: All estimators should implement fit and transform. '[[0 0 0 ... 0 0 0]
[0 0 0 ... 0 0 0]
[0 0 0 ... 0 0 0]
 ...
[0 0 0 ... 0 0 0]
[0 0 0 ... 0 0 0]
[0 0 0 ... 0 0 0]]' (type <class 'numpy.ndarray'>) doesn't

Вот мой код, который я использовал для всего выше перечисленного:

from sklearn.pipeline import FeatureUnion

test_encoded, test_categories = my_df['country'].factorize()
print(test_encoded)

encoder = OneHotEncoder()
test_cat_lhot = encoder.fit_transform(test_encoded.reshape(-1 ,1))
X2 = test_cat_lhot.toarray()

vectorizer = CountVectorizer()
X1 = vectorizer.fit_transform(my_df['url_path']).toarray()


full_pipeline = FeatureUnion ( transformer_list=[
( "url_path" , X1),
( "country" , X1),
] )

Подскажите, что я делаю неправильно и как можно исправить ошибку.

БЛОГ НА HUSL

Как правильно объединять векторизованные данные, для загрузки в модель обучения?

Ответы (0 шт):