Шум выборки и смещение выборки в машинном обучении
подскажите, пожалуйста, что значат эти значения: шум выборки (sample noise) и смещение выборки (sampling bias)? Вот полный абзац из книги:
Крайне важно применять обучающий набор, репрезентативный для примеров, на которые вы хотите обобщить. Достичь такой цели часто труднее, чем может показаться: если образец слишком мал, то вы получите шум выборки (sampling noise), т.е. нерепрезентативные данные как исход шанса, но даже очень крупные образцы могут быть нерепрезентативными в случае дефектного метода выборки. Это называется смещением выборки (sampling bias).
После прочтения возникают вопросы: что значит "если образец слишком мал" / "крупные образцы" (какой образец, к примеру, и в каком плане слишком мал или крупен; что значит под "в случае дефектного метода выборки";
Ответы (2 шт):
Это плохой преревод. Обучающая выборка должна быть репрезентативна Д..б. образцы разных классов. "образец слишком мал"="образцов слишком мало". "крупные образцы" = "большое число образцов (примеров)".Что такое " дефектного метода выборки" - нужно знать первоисточник - даже близко такого термина не найти. Но большое число примеров в чаще всего нерепрезентативно в случае плохо сделанной выборки (например, включили только мужчин в выборку, а приходили и женщины).
Да, тут проблемы перевода. Sample - это одновременно и образец и выборка. В данном случае нужно было переводить как выборка, конечно. Т.е. имелась в виду слишком маленькая выборка и достаточно большая выборка.
Дефектный метод выборки - тут явно имеется в виду метод выборки, не обеспечивающий её репрезентативность. Например, данные были предварительно отсортированы каким-то образом, а в качестве выборки брались образцы с начала выборки подряд. В результате, выборка не является репрезентативной. Как тот же пример с женщинами и мужчинами, например было 50 женских анкет и 50 мужских именно в этом порядке, в качестве выборки взяли 30 анкет подряд, начиная с первой. В выборке получились только женские анкеты. Ну, это простейший пример, но вариантов такого бывает много. Это смещение выборки (размер выборки достаточен, но выборка предвзятая, не репрезентативная).
А шум выборки - это пусть будут опять же женщины и мужчины, разных возрастов. Берём выборку из 10 анкет. Случайно так получается, что женщины и мужчины в выборке представлены, а вот с возрастами проблема - в выборке есть только маленькие девочки и пожилые мужчины. При том, что в генеральной совокупности есть все возраста. Вот и получается, что у нас шумная выборка - она не совсем однобокая, как в случае только одного пола в выборке, но и не совсем репрезентативная. Если взять выборку побольше и обеспечить её достаточную случайность (перемешать анкеты), то выборка уже будет вполне репрезентативная.