Машинное обучение
Машинное обучение заставляет компьютер учиться на изучении данных и статистики.
Машинное обучение - это шаг в сторону искусственного интеллекта (ИИ).
Машинное обучение - это программа, которая анализирует данные и учится предсказывать результат.
С чего начать?
В этом учебнике мы вернёмся к математике и изучим статистику, а также к тому, как вычислять важные числа на основе наборов данных.
Мы также узнаем, как использовать различные модули Python, чтобы получить нужные нам ответы.
И мы узнаем, как создавать функции, способные предсказывать результат на основе того, что мы узнали.
Набор данных
В компьютерном понимании набор данных - это любая совокупность данных. Это может быть что угодно, от массива до полной базы данных.
Пример массива:
[99,86,87,88,111,86,103,87,94,78,77,85,86]
Пример базы данных:
Carname | Color | Age | Speed | AutoPass |
BMW | red | 5 | 99 | Y |
Volvo | black | 7 | 86 | Y |
VW | gray | 8 | 87 | N |
VW | white | 7 | 88 | Y |
Ford | white | 2 | 111 | Y |
VW | white | 17 | 86 | Y |
Tesla | red | 2 | 103 | Y |
BMW | black | 9 | 87 | Y |
Volvo | gray | 4 | 94 | N |
Ford | white | 11 | 78 | N |
Toyota | gray | 12 | 77 | N |
VW | white | 9 | 85 | N |
Toyota | blue | 6 | 86 | Y |
Посмотрев на массив, мы можем предположить, что среднее значение, вероятно, составляет около 80 или 90, и мы также можем определить максимальное и минимальное значение, но что ещё мы можем сделать?
И, посмотрев на базу данных, мы можем увидеть, что самый популярный цвет - белый, а самому старому автомобилю 17 лет, но что, если бы мы могли предсказать, есть ли у автомобиля AutoPass, просто взглянув на другие значения?
Для этого и предназначено машинное обучение! Анализируем данные и прогнозируем результат!
В машинном обучении обычно работают с очень большими наборами данных. В этом учебнике мы постараемся максимально упростить понимание различных концепций машинного обучения и будем работать с небольшими, простыми для понимания наборами данных.
Типы данных
Для анализа данных важно знать, с какими типами данных мы имеем дело.
Мы можем разделить типы данных на три основные категории:
- Числовой
- Категориальный
- Порядковый
Числовые данные представляют собой числа, и их можно разделить на две числовые категории:
- Дискретные данные
- числа, ограниченные целыми числами. Пример: количество проезжающих автомобилей. - Непрерывные данные
- числа, которые имеют бесконечное значение. Пример: цена товара или размер товара.
Категориальные данные - это значения, которые нельзя сравнивать друг с другом. Пример: значение цвета или любые значения да / нет.
Порядковые данные похожи на категориальные данные, но их можно сравнивать друг с другом. Пример: школьные оценки, в которых A лучше, чем B, и т.д.
Зная тип данных вашего источника данных, вы сможете узнать, какой метод использовать при их анализе.
Вы узнаете больше о статистике и анализе данных в следующих разделах учебника на нашем сайте W3Schools на русском.