МАСТЕР-КЛАСС ПО КУРСУ
Посмотрите запись актуального мастер-класса по курсу!
После запуска нового курса «Python для анализа данных» нам стали часто задавать вопрос: «Зачем вообще нужен Python, если есть Excel?».
Excel является самым популярным программным обеспечением для баз данных, хотя сегодня доступно множество альтернативных и более эффективных решений. Пять лет назад у Excel было более 750 миллионов пользователей. Население Земли на тот момент — примерно 7,6 миллиарда человека. Таким образом, около 10% людей пользовались Excel, можно предположить, что основная задача — анализ данных.
Excel являлся востребованным инструментом для многих компаний, его используют ученые и аналитики данных, однако для большей части их работы есть более эффективный софт — Python. И я вам это докажу.
Если вы еще не начали изучать Python и не вывели свои скилы по визуализации и анализу данных на новый уровень, я расскажу вам о пяти причинах, по которым вам необходимо начать изучать его прямо сейчас. Не сомневаюсь, что к концу статьи вы точно захотите перенести большую часть своей работы из Excel в Python.
В вопросе автоматизации Python становится действительно удивительным языком программирования. Вы сможете решить следующие задачи:
Python поможет вам сэкономить массу времени. Excel, напротив, требует слишком большого количества ручного труда, а также в нем не доступны автоматические обновления [комментарий HOCK Training: возможно, здесь речь идет о сложности обновлений данных стандартными инструментами Excel. Периодические обновления в Excel легко можно выполнять при помощи VBA (макросами)].
Python способен напрямую подключаться к вашей базе данных для проведения автоматических обновлений. Изображение: NobleDesktop.
Excel подходит для выполнения быстрого специального анализа небольших данных, однако, когда вы решите перейти к более крупному масштабу, он не будет работать. Общее количество строк на странице Excel — до 1 048 576, столбцов — до 16 384. Python же масштабируется до любых размеров и ограничен только памятью вашего устройства, а также для него доступно множество инструментов, которые поддерживают вычисления за ее пределами.
Пример — библиотека Dask. Она позволяет масштабировать вычисления не только на ПК, но и для запуска на кластере. Для тех, кто знаком с Pandas, это похожий код для чтения в CSV:
Это только строчка кода, однако благодаря ней вы сможете читать данные, чей объем намного больше объема памяти вашего компьютера. Я бы с удовольствием показал, как сделать то же самое в Excel, если бы это было возможно.
Если этот код показался вам сложным, начните учиться с помощью нашего курса. В нем есть все необходимое для начала работы с Python.
Python также масштабируется для нескольких источников данных. Excel — это хранилище и в то же время — механизм вычислений. Python же абсолютно не зависит от данных. Если вы нашли метод чтения имеющихся данных в Python, это значит, что вы сможете работать с ними. В Python есть множество библиотек, поэтому процесс считывания данных из целого ряда источников (например — базы данных CSV, Excel, JSON и SQL) является обычным.
Воспроизводимость является концепцией, согласно которой любые созданные вами аналитические данные и визуализации могут быть без проблем воспроизведены кем-нибудь еще. Важны обе составляющие процесса:
Конечный результат. Кто-то другой должен суметь повторно запустить ваш процесс, чтобы получить такой же результат.
Путь достижения цели. Кто-то другой должен суметь пройти через ваши шаги. Только так можно обеспечить точность результата.
Важность этой концепции обусловлена тем, что она позволяет полагаться на автоматические процессы. Автоматизация полезна, когда работает правильно. Если же она неверна, автоматические отчеты могут стать настоящим кошмаром.
В Excel воспроизводимость крайне сложна. Результаты вычислений в ячейках практически не поддаются проверке при любом масштабировании. Типы данных очень запутаны. Картина, которую видит пользователь, часто не соответствует необработанным данным. VBA лишь делает воспроизводимость чуть лучше, поэтому вам гораздо выгоднее инвестировать в освоение Python.
Давайте обратимся к этому Excel-документу:
Нам известно, что столбец Sum — это сумма значений из колонок a и b, как нам подтвердить это? Можно проверить любую формулу, чтобы убедиться, что перед нами действительно сумма. Однако каждая ячейка может содержать отдельную формулу, что будет, если все они неверны? Если бы я не обратил ваше внимание на шестую строку, вы бы заметили что в ней другая формула?
Но в Python ваша сумма будет выглядеть так:
Простой и понятный код с легкостью подтверждает, что сумма всегда будет рассчитываться верно.
Python открывает доступ ко всем инструментам, необходимым для улучшения воспроизводимости и совместной работы разработчиков программного обеспечения. Python позволяет анализировать данные в облаке, мгновенно повторяя процесс, поэтому он лучше всего подходит для подключения к данным.
В сообществе Python широко распространены:
В Python 3 есть функция статической типизации, облегчающая чтение кода. Такие инструменты упрощают правильное написание кода. Если в дальнейшем его будет использовать кто-то другой, ему будет легко воспроизвести и понять каждую строку.
Если пользователь умеет работать в Excel, эти навыки полезны, но больше их нигде нельзя применить. Пожалуй, в этом заключается существенное отличие и главный плюс Python. Это удобный инструмент для анализа и визуализации данных, он также является надежным языком программирования, подходящим для других целей.
Python поможет вам:
Python больше похож на другие языки программирования, с которыми вы можете столкнуться, чем Excel. Это значительно упрощает их изучение. Python более перспективен, чем Excel.
Спрос на специалистов, владеющих Python, очень высок. Согласно StackOverflow, в 2019 году этот язык программирования — четвертый по уровню популярности в мире среди разработчиков ПО. По информации Indeed от 2020 года, в США средняя годовая заработная плата разработчиков Python — 120 000 долларов.
Одно из преимуществ Excel — большое число встроенных формул, но возможности Python намного шире. В Python доступно множество библиотек, которые значительно упрощают расширенную статистику и аналитику. Визуализация выведена на новый уровень. При помощи Matplotlib, Seaborn, Plotly, Streamlit можно создавать:
Scikit-learn помогает обучать алгоритмы машинного обучения: машины повышения градиента, деоевья решений и т. д. Scipy и Numpy полезны для векторных и научных вычислений, а также для линейной алгебры. Xkcd отлично выразил мои мысли:
У Python при сравнении с Excel намного больше возможностей, но значит ли это, что его трудно освоить? К счастью, нет! Это Java-версия Hello World самой простой программы:
Python — это буквально одна строка: print(“Hello World!”). Что может быть проще? Python входит в группу самых простых языков программирования. Также у него одно из самых активных сообществ, особенно — в сфере аналитики данных.
Язык программирования Python можно понять интуитивно. Его легко освоит даже человек с минимальным опытом работы в области программирования. Кому-то кривая обучения Excel, возможно, кажется более предпочтительной, но от нее намного меньше отдачи. Обучение Python стоит затраченного времени и приложенных усилий, а его универсальный дизайн оставляет Excel далеко позади.
Простой в использовании, Python имеет большое сообщество поддержки. Обучение никогда не было более простым.
Время перейти на Python настало. Хватит придумывать оправдания! Я надеюсь, что в статье мне удалось показать вам плюсы изучения Python и помочь обойти некоторые препятствия на пути к обучению.
Учитесь и развивайте свои навыки владения Python!
Оригинал статьи:
https://towardsdatascience.com/stop-using-excel-for-data-analytics-upgrade-to-python
{subscribeajaxProgram}