直方图主要用来查看数据分布情况
读取数据¶
In [55]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
In [56]:
df = pd.read_csv('/Users/spark/Downloads/nyc_fare.csv')
查看数据¶
In [4]:
df.describe()
Out[4]:
这里可以看到fare_amount的最大值虽然是620,但是75%分位数是14,所以大部分数字都应该不是很大,我们后面采用50来观察他的分布情况
可视化数据¶
In [57]:
bin_array = np.linspace(start=0., stop=50., num=100)
In [58]:
df.fare_amount.hist(bins=bin_array)
Out[58]:
this is english
这是英语