- ВКонтакте
- РћРТвЂВВВВВВВВнокласснРСвЂВВВВВВВВРєРСвЂВВВВВВВВ
- РњРѕР№ Р В Р’В Р РЋРЎв„ўР В Р’В Р РЋРІР‚ВВВВВВВВРЎР‚
- Viber
- Skype
- Telegram
Как мне спарсить Гутенбергский проект? Весь целиком
Есть сайт: https://archive.org/. Я хочу спарсить весь проект. Какие фреймворки нужно использовать? Понимаю, что там астрономический объем в 9 петабайт текста, а еще знаю bs4, requests. Знаю питон. Хочу весь текст загрузить на диски. В наличии 16гб озу, 4\8 core и 30гб свободного места на ssd. Начать с малого и спарсить все файлы в txt. Ограничение - 10^4 книг. В будущем загрузить все это на нейросеть. Вопрос - какая архитектура нейронки и на выходе ожидаю сверхразум. Ни серверов, ни денег нет в наличии. Возможно анализ на google colab. Начать с 10 книг.