Генерация случайного dataset в python
Как мне сгенерировать случайный датасет для классификации. К примеру 2 признака и выходная метка 1 или 0.
Покажите пример кода плз.
Ответы (3 шт):
Про учебники я уже замаялся повторять (те, которые надо сначала читать и учить, а потом уже бежать на форум спрашивать про каждую запятую). Но хоть свои вопросы перечитывайте. Если у вас есть датасет, в нем два признака, то метки (хоть 1 и 0, хоть какие угодно) не могут в нем генерироваться случайным образом. Иначе - чему вы из такого датасета научиться хотите? Если вам надо нагенерировать просто случайных ноликов и единиц, то опять же это делается элементарно:
st=np.random.randint(0,2,10000)
вот пример случайного датасета с двумя фичами, интересно что вы тут сможете классифицировать?
from numpy import random
import pandas as pd
x = random.randint(0,2, size=(5, 3))
df = pd.DataFrame(x,columns=['red','auto','y'])
>>> df
'''
red auto y
0 0 1 1
1 0 0 1
2 1 0 1
3 1 0 1
4 0 0 0
В большинстве пакетов для машинного обучения есть учебные наборы данных, в том числе и для классификации. Поиграйтесь с ними. Вот sklearn например. А если нужно совсем случайные, то, как вам указали в других ответах - numpy.random поможет.
Update:
В sklearn есть также метод make_classification для создания случайного датасета для классификации с конфигурируемыми характеристиками