Не импортируется директория для библиотеки nltk

Question

Есть кластер kubernetes. Интернета на кластере нет. Есть образ jupiter notebook, из которого все и создается. В нем есть директория nltk_data, в которую уже добавлен stopwords. Закинула в ту же директорию wordnet, который себе скачала. Просто в ноутбуке код типа:
lemmatizer.lemmatize('word')
отрабатывает корректно.
При обработке pyspark-датафрейма вылезает ошибка:
PythonException: An exception was thrown from the Python worker. Please see the stack trace below.
Traceback (most recent call last):
File "/opt/conda/lib/python3.8/site-packages/nltk/corpus/util.py", line 83, in __load
root = nltk.data.find("{}/{}".format(self.subdir, zip_name))
File "/opt/conda/lib/python3.8/site-packages/nltk/data.py", line 583, in find
raise LookupError(resource_not_found)
LookupError:

Resource wordnet not found. Please use the NLTK Downloader to obtain the resource:

import nltk nltk.download('wordnet')

Код функции:

from nltk.corpus import wordnet 
from nltk.stem import PorterStemmer, WordNetLemmatizer
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

stop_words = set(stopwords.words('english') + ['ha', 'wa', 'say', 'said'])
lemmatizer = WordNetLemmatizer()

def clear_files(text):
    text = text.lower()
    text = list(filter(str.isalpha, word_tokenize(text.lower())))
    text = list(lemmatizer.lemmatize(word) for word in text)
    text = list(word for word in text if word not in stop_words)
    new_text = ' '.join(text)
    return new_text

БЛОГ НА HUSL

Не импортируется директория для библиотеки nltk

Ответы (0 шт):