Jupyter Notebook安装
1 Jupyter Notebook概述
Jupyter Notebook是一个开源Web应用程序,允许创建和共享包含实时代码、公式、可视化图形和文本描述的文档工具。它用途非常广泛,包括:数据清理和转换,数值模拟,统计建模,数据可视化和机器学习等。
它是一个交互式的笔记本,支持超过40种编程语言,可以通过网页的形式进行编程,即在网页中直接编写代码和运行代码,代码的运行结果也会直接在代码块下面进行显示。可以说非常方便。如果在编程过程中需要编写说明文档相关信息,可以使用Markdown直接进行编写,便于作及时的说明和解释。
2 Jupyter Notebook安装
下面介绍如何安装Jupyter Notebook,这里采用pip进行安装,命令如下:
[root@hadoop01 ~]# pip3 install jupyter
默认情况下,pip3安装软件的镜像是国外,可能会非常慢,因此建议更换默认的镜像,例如在CentOS 7下更换python pip3源为阿里源,具体操作如下:
创建.pip文件夹:
[root@hadoop01 ~]# mkdir ~/.pip
创建pip.conf配置文件:
[root@hadoop01 ~]# touch ~/.pip/pip.conf
修改pip.conf配置文件:
[root@hadoop01 ~]# vim ~/.pip/pip.conf
修改文件内容为:
[global]
index-url=http://mirrors.aliyun.com/pypi/simple
[install]
trusted-host=mirrors.aliyun.com
Python经常用于数据分析和机器学习,但其只依赖Python本身自带的库进行数据分析还远远不够,因此需要安装第三方扩展库来增强数据分析能力。Python数据分析需要安装的第三方扩展库有:
NumPy
NumPy是一种开源的数值计算库。它可用来存储和处理大型矩阵(Matrix)的计算,比Python自身的嵌套列表结构要高效的多,支持大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库。
Pandas
Pandas是基于NumPy的一种工具,该工具是为了解决数据分析而创建。它纳入了大量的库和一些标准的数据模型,提供了高效的操作大型数据集所需的组件,能快速、便捷的处理数据。
SciPy
SciPy是一个开源科学计算库,偏重于符号计算。自2001年首次发布以来,SciPy已经成为Python语言中科学算法的行业标准。该项目拥有数以千计的相关开发包和超过150,000个依赖存储库。
Matplotlib
Matplotlib是一个2D绘图库,它可以用跨平台的交互式环境生成高质量的图形。开发者仅需要几行代码,便可以生成绘图,直方图,功率谱,条形图,错误图和散点图等。而且生成的图形非常美观。
Scikit-Learn
Scikit-Learn是基于Python语言的机器学习工具,建立在NumPy、SciPy和Matplotlib工具之上,因此它是一款简单高效的数据挖掘和数据分析工具。它的基本功能主要分为6大部分:分类,回归,聚类,数据降维,模型选择和数据预处理。
Keras
Keras是一个由Python编写的开源人工神经网络库,可以作为Tensorflow、Microsoft-CNTK和Theano的高阶应用程序接口,进行深度学习模型的设计、调试、评估、应用和可视化。
在Jupyter Notebook中如果要访问Spark,还需要进行一些额外的配置,首先需要安装一个findspark的库,执行如下命令即可:
[root@hadoop01 ~]# pip3 install findspark
成功安装后,切换到/usr/local/python3/bin目录中,有jupyter命令工具,由于此目录并不在环境变量中,因此无法直接用jupyter notebook进行启动。如果不清楚jupyter工具安装在何处,则可以用find命令进行查找,如下所示:
[root@hadoop01 ~]# find / -name \jupyter
则输出界面如图所示。
用如下命令启动Jupyter Notebook:
[root@hadoop01 bin]# ./jupyter notebook --allow-root
在打开的web页面上,新建一个python记事本,然后输入如下脚本:
import findspark
findspark.init()
import pyspark
import random
sc = pyspark.SparkContext(appName="Pi")
num_samples = 100000000
def inside(p):
x, y = random.random(), random.random()
return x*x + y*y < 1
count = sc.parallelize(range(0, num_samples)).filter(inside).count()
pi = 4 * count / num_samples
print(pi)
sc.stop()
单击工具条上的运行按钮图标,即可运行。运行结果如图所示。
Jupyter Notebook中每个步骤执行的代码以及结果都可以以文件的形式进行保存,这样下次可以不用重复输入命令,只要重新执行即可。将上述示例保存文件夹为python01,则文件名为python01.ipynb。
对于很多操作而言,可以首先建立文件夹用于分组,然后在每个文件夹中创建文件来进行相关代码的编程。
此外,可以用如下命令进行扩展配置:
[root@hadoop01 bin]#pip3 install jupyter_nbextensions_configurator
[root@hadoop01 bin]#./jupyter nbextensions_configurator enable –user
至此,还存在一个问题,就是不能在其他电脑上进行访问,配置远程访问Jupyter Notebook的过程。首先,输入ipython生成秘钥,设定一个密码(用于后续登录jupyter notebook),会生成一个sha1的秘钥。具体的这个过程,可以参考网上其他文章,这里不再赘述。
- 点赞
- 收藏
- 关注作者
评论(0)