消费者评论梳理

原来用Python自己写的,试了下发现时间太久跑不起来了。那就直接用外部工具吧。目前测试下来,感觉这样的方式比较好:

  1. 用阿明工具箱下载评论数据。很快,比自己python爬快多了,5000条大概十几秒就搞定了。
  2. 用微词云(https://www.weiciyun.com/)来进行分词,工具会对单词进行自动分类,非常好用,还是免费的。
  3. 用Google Sheets的Query语句来筛选指定关键词的评论,可以非常方便的看到对应的评论详情,效率大增。
消费者评论梳理

初学BigQuery遇到的坑

之前一直用Google Sheets处理店铺的数据。但随着后面流量和销量起来以后,每天的数据量都很大,一两个月的数据就超越了Google Sheets每个文件500万表格的限制。了解到Google的Bigquery可以作为Google Sheets的后端,于是就打算往这个方向。

今天第一天上手,简单记录一下中间遇到的几个坑,或者说是学习到的点。

  1. Bigquery可以直接从Google Sheets中导入数据。但是这种数据库只能是External数据库。而如果上传CSV的文件,才是Native数据库。两者的区别是,Native是存在BigQuery后端的,而External的只是调用。所以如果删掉了Google Sheets文件,那数据库就实际上就没有数据了。所以在后端看External数据库的大小为0。当然如果灵活运用的话也能实现很好的功能,比如利用Google Sheets的协作功能,达到BigQuery单独不能达到的效果。
  2. 从天猫后台下载下来的CSV文件是GBK格式的。在Windows上没有什么问题,但是在Mac上直接打开,比如用Sublime看,是乱码的。这种CSV文件上传到BigQuery就仍然是乱码。BigQuery默认支持UTF-8,就要牵扯到转码到UTF-8。经过实验,发现了两种方法,第一种是用WPS打开,然后另存为CSV;第二种是用Mac自带的iconv命令。
  3. BigQuery的数据类型和之前用过的别的好像有点差别。印象深刻的是Numeric就是小数,而Integer不再区分短整数和长整数。
  4. 下载的CSV文件里面,那些长数字,十几位的,特别是尾数为0的,可能会被系统认为是一个数字,然后就被科学计数了,比如 12345E+18这样。目前的办法是手动把个别的数字改一下,更好的办法还没找到。

后面有什么遇到的问题,再随时往上补。

初学BigQuery遇到的坑