请教汉字问题 (转载)

水木社区手机版

展开|楼主|同主题展开|返回

主题:请教汉字问题 (转载)
oRo|2020-12-08 13:53:41|
【以下文字转载自 Python 讨论区】
发信人: oRo (奥若奥), 信区: Python
标  题: 请教汉字问题
发信站: 水木社区 (Tue Dec  8 13:42:09 2020), 转信

下面内容是从网址http://www.cnbird.org.cn/0_nb4_name.js得到的：

nb4bh[0]="0001";nb4nz[0]="??eè";nb4en[0]="Snow Partridge";nb4ld[0]="Lerwa l
erwa";nb4sx[0]="xc";

nb4bh[1]="0002";nb4nz[1]="2????|";nb4en[1]="Tibetan Snowcock";nb4ld[1]="Tetr
aogallus tibetanus";nb4sx[1]="zxj";

nb4bh[2]="0003";nb4nz[2]="°￠??ì????|";nb4en[2]="Altai Snowcock";nb4ld[2]=
"Tetraogallus altaicus";nb4sx[2]="aetxj";

nb4bh[3]="0004";nb4nz[3]="°μ?1???|";nb4en[3]="Himalayan Snowcock";nb4ld[3]
="Tetraogallus himalayensis";nb4sx[3]="afxj";

nb4bh[4]="0005";nb4nz[4]="??eè";nb4en[4]="Chestnut-throated Monal Partridge
";nb4ld[4]="Tetraophasis obscurus";nb4sx[4]="zc";

nb4bh[5]="0006";nb4nz[5]="??oí??eè(??′¨??eè)";nb4en[5]="Buff-throated M
onal Partridge";nb4ld[5]="Te

上面内容里的汉字在cterm里发出来内容已经变了，原始内容请看截图。

这个网页的charset是gb2312，但是为什么上面应该有汉字的地方是乱码呢？

用python转，也不行：

cstr=u"??eè"  #这里文字也不正常，请看截图里第1行的汉字内容

print(cstr.encode('utf-8').decode('GBK'))

print(cstr.encode('utf-8').decode('GB18030'))

print(cstr.encode('utf-8').decode('GB2312','ignore'))

print(cstr.encode('GB2312','ignore').decode('GB2312','ignore'))

这样出来的都不是正常的汉字（这个汉字应该是“雪鹑”），

在python中应该怎么做才能正常显示上面内容中汉字？
--
修改:oRo FROM 182.48.98.*
FROM 182.48.98.*