跳转至

Python与数据分析

爬虫

操作电子表格

数据分析

生活

生活

生活

《Python 数据分析入门——从数据获取到可视化》

本文包括内容简介,写作目的以及目标读者等内容。其实这些内容在前言都有写到,但是为了让大家在入手之前能对本书有个更加详细的了解,这里还是多说几句。

内容简介

全书分为五章,分别是配置集成开发环境和几个重要语法的介绍,数据的获取,数据的存取与清洗,数据的分析及可视化和最后的 Python 在不同领域的应用。总的来说是一个概览性的结构,力图展示数据分析每个阶段的过程。下面展开浏览下下全书的篇章结构。

在最开始就是介绍了集成开发环境的配置和几个比较重要的 Python 用法,作为之后继续学习的准备。

第二章首先是简单介绍了网络爬虫的基本原理,之后通过一个小例子来加深对整个流程的理解。在进阶的部分,针对爬取数据时经常遇到的编码问题,模拟登录等问题分别展开叙述。

第三章主要就是数据的存取与简单的清洗,包括对常见的 CSV,JSON 等文件的存取。同时介绍了数据科学中两个极其重要的第三方库的使用,也就是 Numpy 和 Pandas。

本章是很有趣的一部分,主要是了解机器学习和进行数据可视化。考虑再三还是将手写 KNN 的部分加了进去,因为它本身并不难,而且可以加深对算法本身的认识并提高应用 Python 来解决问题的能力,希望大家能从中受益。

最后的这一章介绍了几个相对复杂点的小项目,而且在这些项目中综合了之前几个章节的内容,希望以此来进一步地锻炼大家应用 Python 解决实际问题的能力。同时这些问题本身都是比较有意思的,可以让我们切实体会到 Python 简洁强大的魅力。

写作目的

本书的篇幅算是比较短的,目的是想让读者能相对快速地对数据分析的流程有一个比较全面的认识,而不必在每一个部分都占用太多时间。就像在入住数据分析这个世界前先“观光游览”一遍,对将要融入的世界有个全面的认识。这样,在了解全貌之后,可以让大家更方便地找到自己感兴趣的部分,并在之后有针对性地进行更加深入的学习。

同时,本文将网络爬虫放在前面,一来是因为它确实是获取数据的利器;二来就是因为学习爬虫的反馈周期比较短,而且过程比较有趣,读者可以进行较多的练习,这样也可以提高大家使用 Python 的熟练度。

从篇章结构也可以看到很明显的一点,虽然是按照数据分析的流程来的,但是每一章的联系不是很多。在阅读时,有些内容看不懂可以暂时跳过,并不会对后面有太大的影响。

目标读者

本书是入门数据分析的书,力图做到简单明了。所以读者只需要对 Python 的基础语法有个大致的了解,能写一些几十行的小程序就可以很好地阅读本书。书中会用到的较为复杂的语法在第一章也都会进行简单的讲解,而且后面用的也不会太多,所以大可不必担心。

在学习 Python 时遇到很多的朋友,他们几乎来自各个专业:计算机科学,统计学,数学,自动化,甚至心理学,经济学,新闻传播学等等。在说明 Python 已经渗透到各个领域的同时,也说明 Python 强大和易学的特点。所以大家不论是什么专业和工作,只要对数据科学感兴趣都可以尝试学习下 Python,之后通过本书来了解数据分析,因为从数据中挖掘信息本身就是一件很有趣的事情~

致谢

本书现在能够和大家见面,首先要感谢的就是博文视点(电子工业出版社)的支持。感谢石倩,杨嘉媛两位编辑老师给予的帮助。谢满锐老师对本书多次细心的审校也纠正了我的很多错误。也非常开心能够在学习过程中结识刘松学长和其他朋友,从大家身上学习到很多。另外,本书每章的最后都会列出参考文献,都是一些很好的书籍,可以作为大家深入学习的参考书。

共勉

最后,希望本书的内容可以对大家的学习和工作有所帮助。希望通过本书,与大家一起学习,进步。