数据裘: 集腋成裘

信息爆炸的时代，如何获取有价值的内容，成为每个人获取竞争优势的关键。而知识的日益碎片化，令这一任务变得更加艰巨。

计算机和AI，大大丰富了我们对信息进行筛选、整理和分析的手段，比如搜索，比如自动学习。技术的另一面，Deep Fake正在产生更加海量的“虚构”信息，比如论文、比如视频。这使得原始数据都已经被污染和人为操控。

野蛮生长的互联网巨兽，掌握了我们海量的数据，他们甚至比我们自己还了解自己。那些本属于我们的数据，被他们利用以牟利；还被禁锢在他们的私有网络，甚至我们自己都不能访问。

在信息的海洋里，我们如同一叶扁舟。周围都是水，却缺少可以饮用的淡水。我们被各种知识充斥着，忙碌着；却很难静下心来，真正的去分析、理解，从而升华我们的思想和知识体系。我们貌似极度自由，可以获取几乎所有信息，但又深陷在信息茧房，慢慢失去了思辨力和想象力。尤其是算法推荐的出现，让我们愈加偏执，远离真相。

我是有点收集癖和整理控，就更加苦恼。好不容易搞明白一个技术问题，却没有记录下来，或者忘记记在哪里了；写了文章，留在网站上，自己想去看，网站可能都没了。信息那么多，属于自己的有多少？

我曾经尝试过很多方法，比如把知识点滴记录在笔记本上，比如写成Latex/Markdown文档，然而都有不少问题。那为什么不自己做一个让自己满意的知识整理系统呢？去年疫情憋在家，开干！

第一个要求：结构化。非结构化的数据是很难分析和整理的，将数据结构化，开始会付出多，但之后就方便多了。这有个问题：不同的内容，结构化是不同的。比如文章包括标题、正文、作者等；Covid19统计数据就包括国家、日期、新增死亡、新增确诊等。支持给定结构的系统是容易的，我之前也做过日记、照片分享的网站；支持任意结构数据，是很难的。却又是必须的，灵活性是第一的。我今天要记录博客文章，两分钟搞定；明天要记录新闻，两分钟搞定！

第二个要求：自己做主。我的数据，我做主。所有数据我拥有和控制，哪天不想用这个系统了，随时打包数据走人。

第三个要求：共享性。一方面是是方便讲自己的数据分享给别人，另一方面是方便群体合作整理信息。比如我很想整理一下中国流失海外的文物信息，但这个肯定不是我一个人能干的。

第四个要求：易用性。一些常见的操作，系统要支持。比如转为PDF/Markdown，数据的可视化画图，数据的自动化处理等。

IT人的项目一定会延期的，尤其是这种有一搭没一搭的，稀稀拉拉做了快一年，终于有个样子了。结构化部分花的时间最多，用户可以自己定义数据结构，支持基本的类型，如数字、文字、枚举等，也支持Markdown，HTML等格式，以及常用的图片、视频、国家等等。这部分相当于自己搞了一个简版的ORM，很少有人这么搞，资料也不多。之后加入了数据导出导出，各种格式转化，画图等。最后稍微加了一点社交属性，评论、标签、好友、权限管理等。

这个过程中，其实学了不少东西。尤其是之前很讨厌的前端界面。同时，作为正式项目的技术验证，尝试最新的技术软件，收获不少。

作为测试，自己用了一段时间。一个方面是做技术笔记，Markdown是目前找到最合适的格式；还有就是记录自己的文章，以及新闻、视频等；有些统计数据，比如COVID19数据，也很感兴趣，但还没怎么弄。至于这些数据整理之后有什么用处呢？现在还不太明显。技术笔记让我养成了比较好的习惯，免得做过的东西之后又忘记了。整理的《芳斯塔芙》的视频，外甥很喜欢。还有就是公司内部的简易bug系统，不用再折腾装别人软件或者自己从头搞。

坚持一件事情，真的挺难的，尤其是没人逼着的时候。曾经几次想放弃，曾经多次想，我费劲收集这些有用吗？希望自己能坚持下来，集腋成裘，希望能够帮助自己进步和提高。其实很多研究都是基于枯燥的数据收集和整理，没有第谷老师几十年的观测数据，开普勒也搞不出行星三大定律。归纳法也是重要的研究方法。现在所谓的大数据很多经历也是花在数据清理和结构化上。以此自勉。

下一步打算支持一个开放的API，这样方便自动化以及和别的系统集成。之后做一下APP，毕竟现在Web用户越来越少了。数据上，打算整理一下COVID19各国数据，还有就是波士顿圆脸的视频和笔记等。

最后说一下网址是 https://shujuqiu.com。如果有同好，一起做，也是一种鼓励和督促，内心还可以小得意一下。现在普通用户的数据是公开的，如果需要设置为私密，可以留言给你们设置为VIP用户。