Искусственный интеллект и машинное обучение для всех

Обучение с учителем: логистическая регрессия

Обучение с учителем: логистическая регрессия

Статистические методы анализа больших данных применяются практически во всех отраслях экономики и сферах жизнедеятельности человека. Одни статистические методы являются универсальными, другие специализированными и подходящими для конкретной прикладной или научной задачи.

Что такое статистика?

Статистика – это отрасль знания, особая научная дисциплина, которая в широком понимании разрабатывает методы сбора, систематизации, анализа, интерпретации и отображения результатов наблюдений массовых случайных явлений и процессов с целью выявления существующих в них закономерностей.

Весь процесс анализа статистических данных можно разделить на аналитический и описательный этапы.

Аналитический этап — это анализ, заключающийся в использовании одного из следующих методов:

  1. Статистического наблюдения – систематического сбора данных и информации по интересующим характеристикам.
  2. Сводка данных - обработка информации после наблюдения. Сводка данных описывает отдельные факты, как часть общей совокупности или делит информацию по группам на основании каких-либо определенных признаков.
  3. Определении абсолютной и относительной статистической величины. Абсолютная величина придает данным количественные характеристики в индивидуальном порядке, в независимости от других данных. Относительные величины описывают одни объекты или признаки относительно других.
  4. Вариационные ряды. Ряды распределения – это ряды абсолютных и относительных чисел, которые характеризуют распределение единиц совокупности по качественному (атрибутивному) или количественному признаку. Ряды распределения, построенные по количественному признаку, называются вариационными.
  5. Выборка – использование при анализе информации не всего объема данных, а только их части, которая отбирается по определенным правилам (выборка может быть случайной, стратифицированной, кластерной и квотной).
  6. Корреляционный анализ. Корреляция – статистическая взаимосвязь двух или более случайных величин. Корреляционный анализ – метод обработки статистических данных, с помощью которого измеряется теснота связи между двумя или более переменными. Таким образом, он определяет существует ли связь между явлениями и насколько сильная связь между этими явлениями.
  7. Регрессионный анализ. Регрессия – зависимость среднего значения какой-либо случайной величины от некоторой другой величины или величин. Регрессионный анализ – раздел математической статистики, объединяющий практические методы исследования регрессионной зависимости между величинами по данным статистических наблюдений. Таким образом, он определяет характер связи между явлениями, а также построение и исследование регрессионной модели.
  8. Динамические ряды. Они отслеживают силу, интенсивность и частоту изменений объектов и явлений, позволяют оценить данные во времени и дают возможность прогнозирования будущих явлений.

Заключительным этапом анализа статистических данных является описательный, который включает представление собранных данных в удобном графическом виде, например в виде диаграммы или графика.

В этой главе мы рассмотрим в качестве одного из наглядных примеров наиболее известный статистический метод, применяемый в машинном обучении, который называется «логистическая регрессия».



Отредактировано: 17.12.2023





Понравилась книга?
Отложите ее в библиотеку, чтобы не потерять