文章目录
很多数据是从网上下载而来,数据的格式可能是csv,那么pandas可以很容易的从csv格式的文件中读取数据,下面我们来看看具体的过程:
- 引入pandas
![pandas教程:[5]读取csv数据](/2015/06/15/pandas%E6%95%99%E7%A8%8B%EF%BC%9A%5B5%5D%E8%AF%BB%E5%8F%96csv%E6%95%B0%E6%8D%AE/7787b9efce1b9d161dd32272f0deb48f8c54644a.jpg)
- 使用pandas下的read_csv方法,读取csv文件,参数是文件的路径,这是一个相对路径,是相对于当前工作目录的,那么如何知道当前的工作目录呢?
![pandas教程:[5]读取csv数据](/2015/06/15/pandas%E6%95%99%E7%A8%8B%EF%BC%9A%5B5%5D%E8%AF%BB%E5%8F%96csv%E6%95%B0%E6%8D%AE/bd7faf3533fa828ba41825f0fe1f4134970a5aae.jpg)
- 使用os.getcwd()方法获取当前工作目录
![pandas教程:[5]读取csv数据](/2015/06/15/pandas%E6%95%99%E7%A8%8B%EF%BC%9A%5B5%5D%E8%AF%BB%E5%8F%96csv%E6%95%B0%E6%8D%AE/1cd4147b02087bf47fe5effaf1d3572c11dfcf5d.jpg)
- 读取前三后数据,查看一下是否读取正确,显然都是乱码,这是什么问题呢?
![pandas教程:[5]读取csv数据](/2015/06/15/pandas%E6%95%99%E7%A8%8B%EF%BC%9A%5B5%5D%E8%AF%BB%E5%8F%96csv%E6%95%B0%E6%8D%AE/95afee1f3a292df509d71406bf315c6034a8734a.jpg)
- 我们需要设定参数encoding,也就是编码方式,如果你不设定编码方式,默认是utf8,现在csv文件是gbk编码的,所以需要使用encoding=’gbk’
![pandas教程:[5]读取csv数据](/2015/06/15/pandas%E6%95%99%E7%A8%8B%EF%BC%9A%5B5%5D%E8%AF%BB%E5%8F%96csv%E6%95%B0%E6%8D%AE/2cb4fefe9925bc31b049b98b5ddf8db1cb13704a.jpg)
- 我用的编辑器是eric4,注意,eric4默认是不支持中文的,如果你想要显示中文,前提是设置正确的编码,在preferences中
![pandas教程:[5]读取csv数据](/2015/06/15/pandas%E6%95%99%E7%A8%8B%EF%BC%9A%5B5%5D%E8%AF%BB%E5%8F%96csv%E6%95%B0%E6%8D%AE/c87c6ecf3bc79f3debda5c23b9a1cd11728b29ae.jpg)
- 设置成utf8即可
![pandas教程:[5]读取csv数据](/2015/06/15/pandas%E6%95%99%E7%A8%8B%EF%BC%9A%5B5%5D%E8%AF%BB%E5%8F%96csv%E6%95%B0%E6%8D%AE/d041a4a1cd11728b5f163431cbfcc3cec3fd2cae.jpg)
- 回到pandas,我们可以有更多选项来设置打开数据时的操作:
![pandas教程:[5]读取csv数据](/2015/06/15/pandas%E6%95%99%E7%A8%8B%EF%BC%9A%5B5%5D%E8%AF%BB%E5%8F%96csv%E6%95%B0%E6%8D%AE/808a27dbb6fd5266fd228707a818972bd407365c.jpg)
转载请注明来自DataScience.
邮箱: 675495787@qq.com