2021年11月 – Jeff's space

之前一直用Google Sheets处理店铺的数据。但随着后面流量和销量起来以后，每天的数据量都很大，一两个月的数据就超越了Google Sheets每个文件500万表格的限制。了解到Google的Bigquery可以作为Google Sheets的后端，于是就打算往这个方向。

今天第一天上手，简单记录一下中间遇到的几个坑，或者说是学习到的点。

Bigquery可以直接从Google Sheets中导入数据。但是这种数据库只能是External数据库。而如果上传CSV的文件，才是Native数据库。两者的区别是，Native是存在BigQuery后端的，而External的只是调用。所以如果删掉了Google Sheets文件，那数据库就实际上就没有数据了。所以在后端看External数据库的大小为0。当然如果灵活运用的话也能实现很好的功能，比如利用Google Sheets的协作功能，达到BigQuery单独不能达到的效果。
从天猫后台下载下来的CSV文件是GBK格式的。在Windows上没有什么问题，但是在Mac上直接打开，比如用Sublime看，是乱码的。这种CSV文件上传到BigQuery就仍然是乱码。BigQuery默认支持UTF-8，就要牵扯到转码到UTF-8。经过实验，发现了两种方法，第一种是用WPS打开，然后另存为CSV；第二种是用Mac自带的iconv命令。
BigQuery的数据类型和之前用过的别的好像有点差别。印象深刻的是Numeric就是小数，而Integer不再区分短整数和长整数。
下载的CSV文件里面，那些长数字，十几位的，特别是尾数为0的，可能会被系统认为是一个数字，然后就被科学计数了，比如 12345E+18这样。目前的办法是手动把个别的数字改一下，更好的办法还没找到。

后面有什么遇到的问题，再随时往上补。

Jeff's space