Как мне спарсить Гутенбергский проект? Весь целиком

Автор вопроса: Sam

Есть сайт: https://archive.org/. Я хочу спарсить весь проект. Какие фреймворки нужно использовать? Понимаю, что там астрономический объем в 9 петабайт текста, а еще знаю bs4, requests. Знаю питон. Хочу весь текст загрузить на диски. В наличии 16гб озу, 4\8 core и 30гб свободного места на ssd. Начать с малого и спарсить все файлы в txt. Ограничение - 10^4 книг. В будущем загрузить все это на нейросеть. Вопрос - какая архитектура нейронки и на выходе ожидаю сверхразум. Ни серверов, ни денег нет в наличии. Возможно анализ на google colab. Начать с 10 книг.

Источник

БЛОГ НА HUSL

Как мне спарсить Гутенбергский проект? Весь целиком

Ответы (0 шт):