关于淘宝CSV格式的研究
CSV即Comma Separate Values,这种文件格式经常用来作为不同程序之间的数据交互的格式。
经过二进制代码的分析,具体文件格式规则如下:
以上是通行规则,经研究发现,淘宝CSV在文头部加有标志FF FE,这两个字节如果不存在,文件读出来全部为乱码(后注1)。
然而这一点现象并没有在有啊CSV文件中发现,拍拍CSV则暂没研究过。
其它还有几点比较特殊的地方:
后注1: 文件头部有FF FE,这个称为文件的BOM信息,不同编码的BOM信息是不一样的。
Unicode {0xFF, 0xFE};
BE-Unicode {0xFE, 0xFF};
UTF8 = {0xEF, 0xBB, 0xBF};
这些知识也是猪悟能后来才知道的,特此标注一下。具体写入文件时加入BOM信息的方法可以参考下面的文章:
优质内容筛选与推荐>>