现有高惠璇老师多元统计书上的数据(WLOG, 名为dat.txt):
政治 语文 英语 数学 物理
99 94 93 100 100
99 88 96 99 97
100 98 81 96 100
93 88 88 99 96
100 91 72 96 78
90 78 82 75 97
75 73 88 97 89
93 84 83 68 88
87 73 60 76 84
95 82 90 62 39
76 72 43 67 78
85 75 50 34 37
用R读一点问题没有:
dat = read.table("dat.txt",head=T)
我尝试用python进行类似读取, 上网搜了一下:
import pandas as pd
dat1 = pd.read_table('dat.txt')
print(dat1)
出现错误:
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xd5 in position 0: invalid continuation byte
我上网再查一下, 好像是head为中文编码会出现问题, 所以我干脆跳过第一行, 用英文变量名进行替换
cols = ['pol', 'chn', 'eng', 'mat', 'phy']
dat2 = pd.read_table('dat.txt', skiprows=[0], header=None, names=cols)
结果如下:
pol chn eng mat phy
0 99 94 93 100 100 NaN NaN NaN NaN
1 99 88 96 99 97 NaN NaN NaN NaN
2 100 98 81 96 100 NaN NaN NaN NaN
3 93 88 88 99 96 NaN NaN NaN NaN
4 100 91 72 96 78 NaN NaN NaN NaN
5 90 78 82 75 97 NaN NaN NaN NaN
6 75 73 88 97 89 NaN NaN NaN NaN
7 93 84 83 68 88 NaN NaN NaN NaN
8 87 73 60 76 84 NaN NaN NaN NaN
9 95 82 90 62 39 NaN NaN NaN NaN
10 76 72 43 67 78 NaN NaN NaN NaN
11 85 75 50 34 37 NaN NaN NaN NaN
不知道是什么原因, any help?