Генерация случайного dataset в python

Как мне сгенерировать случайный датасет для классификации. К примеру 2 признака и выходная метка 1 или 0.

Покажите пример кода плз.


Ответы (3 шт):

Автор решения: passant

Про учебники я уже замаялся повторять (те, которые надо сначала читать и учить, а потом уже бежать на форум спрашивать про каждую запятую). Но хоть свои вопросы перечитывайте. Если у вас есть датасет, в нем два признака, то метки (хоть 1 и 0, хоть какие угодно) не могут в нем генерироваться случайным образом. Иначе - чему вы из такого датасета научиться хотите? Если вам надо нагенерировать просто случайных ноликов и единиц, то опять же это делается элементарно:

st=np.random.randint(0,2,10000)
→ Ссылка
Автор решения: SergFSM

вот пример случайного датасета с двумя фичами, интересно что вы тут сможете классифицировать?

from numpy import random
import pandas as pd

x = random.randint(0,2, size=(5, 3))
df = pd.DataFrame(x,columns=['red','auto','y'])

>>> df
'''
   red  auto  y
0    0     1  1
1    0     0  1
2    1     0  1
3    1     0  1
4    0     0  0
→ Ссылка
Автор решения: CrazyElf

В большинстве пакетов для машинного обучения есть учебные наборы данных, в том числе и для классификации. Поиграйтесь с ними. Вот sklearn например. А если нужно совсем случайные, то, как вам указали в других ответах - numpy.random поможет.

Update: В sklearn есть также метод make_classification для создания случайного датасета для классификации с конфигурируемыми характеристиками

→ Ссылка