mark 一下, 虽然做的不怎么样. 数据班的大作业, play Shakespeare in Python.

slides.com 做的幻灯, 非常好上手而且颜值够高~

主要是个用莎翁作品为数据, 应用sklearn来分类/聚类的文本处理习题.

本来是有一个星期做的大作业, 结果因为辞职在家, 前两天产生拖延症… 最先开始本来想做 MovieLens 的电影评分以及标签数据, 但是发现数据比较大, 也想起另有一位同学做豆瓣电影数据的题目, 就换成了在 kaggle 看到的一个食品营养表的数据.

但是这个数据很有问题. 一是数据大部分为法国食品(因为此数据项目在法国发起), 其余国家的比较少, 很不平衡. 二是每条记录是指一件商品, 但 kaggle 上已有的 submission 大都把数据当做食品销量来计算 类似 sugar consumption, 我认为并不合适. 三是本来考虑可以用一些营养数据来做评级, 但后来发现已有的评级是因为 UK 已有一套评价体系, 清楚阐述了如何计算评级评分, 于是觉得暂时做不到什么了…….

最后在周五中午的时候, 决定改题目….. 一度很焦虑想要放弃, 周末还要接待父母+收拾东西搬家+高铁回家. 周五通顶一宿, 周六又是到清晨, 统计大概18个小时, 终于还是交了出来…… 对身体太不好, 完全不需要这样的. 要是前两天就完成了的话, 周五周六还可以和朋友们多玩一下, 电影节也可以多看两部片…

结果今年 hkiff 只看了三部纪录片, 都不怎么样. 昨儿个听安娜说 Youth 不错, 决定也补一补.

又是一个没什么营养的流水账. 写作课好想 give up.

~over