【 以下文字转载自 Python 讨论区 】
发信人: oRo (奥若奥), 信区: Python
标 题: 请教汉字问题
发信站: 水木社区 (Tue Dec 8 13:42:09 2020), 转信
下面内容是从网址
http://www.cnbird.org.cn/0_nb4_name.js得到的:
nb4bh[0]="0001";nb4nz[0]="??eè";nb4en[0]="Snow Partridge";nb4ld[0]="Lerwa l
erwa";nb4sx[0]="xc";
nb4bh[1]="0002";nb4nz[1]="2????|";nb4en[1]="Tibetan Snowcock";nb4ld[1]="Tetr
aogallus tibetanus";nb4sx[1]="zxj";
nb4bh[2]="0003";nb4nz[2]="°¢??ì????|";nb4en[2]="Altai Snowcock";nb4ld[2]=
"Tetraogallus altaicus";nb4sx[2]="aetxj";
nb4bh[3]="0004";nb4nz[3]="°μ?1???|";nb4en[3]="Himalayan Snowcock";nb4ld[3]
="Tetraogallus himalayensis";nb4sx[3]="afxj";
nb4bh[4]="0005";nb4nz[4]="??eè";nb4en[4]="Chestnut-throated Monal Partridge
";nb4ld[4]="Tetraophasis obscurus";nb4sx[4]="zc";
nb4bh[5]="0006";nb4nz[5]="??oí??eè(??′¨??eè)";nb4en[5]="Buff-throated M
onal Partridge";nb4ld[5]="Te
上面内容里的汉字在cterm里发出来内容已经变了,原始内容请看截图。
这个网页的charset是gb2312,但是为什么上面应该有汉字的地方是乱码呢?
用python转,也不行:
cstr=u"??eè" #这里文字也不正常,请看截图里第1行的汉字内容
print(cstr.encode('utf-8').decode('GBK'))
print(cstr.encode('utf-8').decode('GB18030'))
print(cstr.encode('utf-8').decode('GB2312','ignore'))
print(cstr.encode('GB2312','ignore').decode('GB2312','ignore'))
这样出来的都不是正常的汉字(这个汉字应该是“雪鹑”),
在python中应该怎么做才能正常显示上面内容中汉字?
--
修改:oRo FROM 182.48.98.*
FROM 182.48.98.*
