Описание
Практическое руководство по анализу данных, раскрывающее полный цикл работы с информацией: от сбора и обработки до построения моделей машинного обучения. Рассмотрена работа с инструментами pandas и SQL, методы выявления закономерностей и очистки данных. Описаны различные источники информации, включая текстовые, бинарные и веб-данные. Подробно изложены статистические методы: доверительные интервалы, проверка гипотез, конструирование признаков. Приведены практические примеры на языке Python из разных областей: анализ транспортных систем, экологические исследования, ветеринарная аналити-ка. Заключительные разделы посвящены логистической регрессии и оптимизации моделей с применением к задачам классификации текстов.
Для начинающих специалистов в области Data Science , аналитиков данных и широкого круга ИТ-специалистов
Именно такой книги нам не хватало, когда мы впервые ввели термин «data scientist» для описания своей профессии. Если вы планируете заниматься наукой о данных, инженерией данных, искусственным интеллектом или машинным обучением, то вам непременно следует начать с нее.
Ди Джей Патил, PhD, первый в США ведущий data scientist
Как начинающий специалист в области науки о данных (Data Science), вы понимаете, почему в процессе принятия ключевых решений организации полагаются на данные – будь то компании, занимающиеся разработкой веб-сайтов, местные администрации, работающие над повышением качества муниципальных услуг, или научно-исследовательские институты, борющиеся с распространением заболеваний.
Для этого необходимо освоить навыки преобразования беспорядочных данных в полезную информацию. Это называется жизненным циклом Data Science, который включает в себя процесс сбора, обработки и анализа данных наряду с формированием выводов на их основе.
Перед вами первая книга, в которой рассматриваются базовые навыки программирования и статистики, охватывающие весь жизненный цикл. Она адресована всем желающим работать в области Data Science или любой другой смежной области, а также аналитикам данных, преодолевающим разрыв между техническими и нетехническими областями. Если вы обладаете базовыми знаниями программирования на Python, вы научитесь работать с данными при помощи стандартных инструментов вроде pandas.
Прочитав книгу, вы сможете:
- сформулировать задачу так, чтобы ее можно было решить с помощью данных;
- выполнить сбор данных, включая обработку текста, веб-скрапинг и т.д.;
- извлекать полезную информацию путем очистки, исследования и визуализации данных;
- использовать моделирование при описании данных;
- обобщать результаты, выходящие за рамки данных.

Гонсалес Джозеф — доцент кафедры EECS Калифорнийского университета Беркли, член исследовательской группы Berkeley AI Research и один из основателей лаборатории Berkeley RISE Lab. Также является соучредителем компаний Turi Inc. и Aqueduct — разработчиков инструментария для работы с данными.

Лау Сэм — ассистент профессора института Halıcıoğlu Data Science Institute в Калифорнийском университете Сан-Диего. Имеет десятилетний опыт преподавания, занимался подготовкой и преподаванием флагманских курсов по Data Science в Калифорнийских университетах Беркли и Сан-Диего.

Нолан Дебора— заслуженный профессор статистики, заместитель декана по работе со студентами в колледже вычислительных технологий Калифорнийского университета Беркли.
Отзывы
Отзывов пока нет.