pd.read_table 读数据问题

cosyong

现有高惠璇老师多元统计书上的数据(WLOG, 名为dat.txt):

政治 语文 英语 数学  物理  
 99   94   93   100  100
 99   88   96    99   97
100   98   81    96  100
 93   88   88    99   96
100   91   72    96   78
 90   78   82    75   97
 75   73   88    97   89
 93   84   83    68   88
 87   73   60    76   84
 95   82   90    62   39
 76   72   43    67   78
 85   75   50    34   37

用R读一点问题没有:
dat = read.table("dat.txt",head=T)

我尝试用python进行类似读取, 上网搜了一下:

import pandas as pd
dat1 = pd.read_table('dat.txt')
print(dat1)

出现错误:

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xd5 in position 0: invalid continuation byte

我上网再查一下, 好像是head为中文编码会出现问题, 所以我干脆跳过第一行, 用英文变量名进行替换

cols = ['pol', 'chn', 'eng', 'mat', 'phy']
dat2 = pd.read_table('dat.txt', skiprows=[0], header=None, names=cols)

结果如下:

                                       pol  chn  eng  mat  phy
0    99   94   93   100  100  NaN  NaN  NaN  NaN
1    99   88   96    99   97  NaN  NaN  NaN  NaN
2   100   98   81    96  100  NaN  NaN  NaN  NaN
3    93   88   88    99   96  NaN  NaN  NaN  NaN
4   100   91   72    96   78  NaN  NaN  NaN  NaN
5    90   78   82    75   97  NaN  NaN  NaN  NaN
6    75   73   88    97   89  NaN  NaN  NaN  NaN
7    93   84   83    68   88  NaN  NaN  NaN  NaN
8    87   73   60    76   84  NaN  NaN  NaN  NaN
9    95   82   90    62   39  NaN  NaN  NaN  NaN
10   76   72   43    67   78  NaN  NaN  NaN  NaN
11   85   75   50    34   37  NaN  NaN  NaN  NaN

不知道是什么原因, any help?

最爱丁香

试试更改 delimiter
delimiter=' '

tctcab

插一句，
这就是我只用R做数据处理的原因?

G_will

https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_table.html

关于编码问题：可以给定 encoding 参数
关于读入列错位问题：
- 你给的文本是四个空格间隔（单从帖子中看），不是默认的\t制表符，所以错误了，可以设定参数
```
delimiter = '    ' # 4个空格
```