Получить русские слова

Python. Необходимо получить массив русских слов (не обязательно актуальных и всех). Видел вот это: https://github.com/danakt/russian-words Но моих знаний программирования недостаточно, чтобы как-то с этим связать.


Ответы (1 шт):

Автор решения: Kostya .ZΞRO

Для этого нам нужно будет установить библиотеку requests через pip. Команда:

pip install requests

Если у вас нету pip, скачайте его следуя инструкции на официальном сайте PyPI.

А теперь дело за кодом. Так как у нас ссылка ведет на Raw версию файла на GitHub, то с помощью запроса мы попробуем получить его содержимое:

# Импортируем библиотеку с помощью которой будем выполнять запрос
import requests 

# Выполняем запрос с помощью которого мы получим слова и фамилии
first_reply = requests.get('https://raw.githubusercontent.com/danakt/russian-words/master/russian.txt') 
second_reply = requests.get('https://raw.githubusercontent.com/danakt/russian-words/master/russian_surnames.txt') 

Итак, содержимое есть, но тут присутствует одна ма-а-аленькая проблема. Все содержимое закодировано в формат Windows-1251. Значит, будем декодировать в привычный для нас формат:

# Декодируем их, так как используется кодировка "windows-1251"
russian_words = first_reply.content.decode('cp1251')
russian_surnames = second_reply.content.decode('cp1251')

Декодировали, осталось их в массив запихнуть. У переменных формата str есть функция splitlines. Она переводит все строки в один список по порядку. А ниже её применение:

# Преобразовываем все строки в один лист
list_words = russian_words.splitlines()
list_surnames = russian_surnames.splitlines()

Готово! Вот так легко мы получили список русских слов и фамилий. Если будут еще вопросы задавайте их в комментарии.

→ Ссылка