汽车日报 汽车日报

当前位置: 首页 » 汽车资讯 »

大众数据库不让下载数据怎么回事

大众两把车钥匙都丢了怎么办?

建议你去知乎、豆瓣待几年你就熟悉他们的架构了。

一般的话别人的架构怎么能够随便的公开呢。

被资本盯上的国产数据库

出品|虎嗅科技组

作者|张雪

编辑|宇多田

头图|视觉中国

基础软件之风正在掀起一场资本暗战。

而这场竞争又在2020年被一家名为Snowflake的美国软件公司推向了高潮。

2020年9月,Snowflake在纽约证券交易所上市,紧接着,它迎来了一个又一个高光时刻,上市首日股价大涨超110%,估值翻了一番多,从330亿美元增至700多亿美元,并一举成为了美国有史以来IPO规模最大的一家软件公司。

在股市之外,Snowflake带来的行业影响更为深远,因为Snowflake是第一个完全跑在多云环境的软件,它代表着计算机进入了下一个时代。

这场突如其来的爆发,不仅Snowflake没想到,资本市场更是没有想到:赛点来了吗?还有没有下注的可能?一时间,开源及数字基础设施项目聚集了众多投资机构的目光,尤其是to D(面向开发者)市场的热度堪比四年前的AI投资热潮。

在大洋彼岸这一头,一家做着类似事情的中国开源数据库公司开始受到资本追捧。

它在2020年11月,宣布完成2.7亿美元的D轮融资,刷新了全球数据库历史。除了经纬中国和云启资本两个老股东,还有十家投资机构选择下注,甚至有机构称“想投但挤不进来”。

据了解,PingCAP的此次融资本没有打算融这么多的金额,后来随着投资机构越来越热情,权衡之下,控制在2.7亿美元上下。

PingCAP受到如此高的关注,一方面是PingCAP自身产品和技术在基础软件市场有一定知名度,另一方面也是受到了Snowflake的影响。他们还一度被看做是中国的“Snowflake”。

不过在实际业务上,两者还是存在明显差别。

Snowflake是一个云原生的数据仓库分析服务,主要支持云上的OLAP(联机分析处理,主要是数据查询)服务。而PingCAP的产品是一个数据库产品,除了支持云服务形态,在业务类型方面,既支持OLTP(联机事务处理,主要是数据增删改查),也支持OLAP,具备完整能力的HTAP(混合事务 / 分析处理)。

更直白一点,Snowflake做的事情是在云上建个数据仓库,把数据存起来,用户可以直接在云端进行数据查询和分析,而PingCAP的产品除了实现Snowflake的功能外,还可以对数据进行金融级别的强一致性保障操作以及实时分析和处理功能,是一个具有完整数据处理能力的数据库产品。

所以有投资人保守估计称,PingCAP如果未来上市,市值应该能闯过500亿美元的关口。

与此同时,国内数据库市场进入全新发展阶段。

2020 年 11 月,Gartner 发布了 2020 年度的数据库厂商评估报告,中国数据库厂商占据三席。同时Gartner预测,到 2022 年,世界上 3/4 的数据库都会跑在云上。

同样,IDC预计到2021年,年产值296亿美元的商业数据库市场会收缩20%~30%,原因是认为甲骨文无法足够快地从传统的商业数据库转向基于云的订阅模式,以实现转型。

一位开源软件资深从业者告诉虎嗅,国内也有“数据库付费理念”普及加速的趋势。

虽然到目前为止,中国的互联网公司很少为开源软件付费,但传统企业或者非互联网企业在使用开源数据库时付费意愿还是很强的,原因在于数据库中的数据价值要比软件贵得多。

同样,海外的互联网客户,从公司治理角度,作为公司生产系统用的软件,如果没有付费保证,就通不过审计,所以不管是国内的传统企业还是海外的互联网用户,一般都会主动付费,而这笔费用实际上相当于买了一份保险。

开源市场的争议

除了踩准了基础软件——数据库这个风口,PingCAP还赶上了开源软件的大浪潮。

“感觉是TiDB选择了我们,而不是我们选择了TiDB”,PingCAP创始人之一黄东旭如此回忆当时的创业情景。这里的“TiDB”,指的是PingCAP的企业级开源分布式数据库产品。

分布式数据库,可以理解为将物理上分散的多个数据库单元连接起来组成的数据库,大都可以部署在云上。数据库,顾名思义,就是存放数据的仓库,不过是需要遵循一定的结构来存储和管理数据,也是每个手机APP背后不可或缺的通用软件,大众用户手指的每一个点击背后都有数据库的数据处理操作。

而“开源”则是相对于闭源来讲,指代“开放源代码”。即企业或个人开发者在网上分享某个自己项目的源代码。这样一来,会有更多人使用。

而更多人贡献和使用代码,就会有更多的人发现和解决问题。这样一来,软件变得更稳定,整个软件质量就会变高。

埃里克·史蒂文·雷蒙德(Eric Steven Raymond)在其开源运动先驱著作《大教堂与集市》中,将商业软件和开源软件分别比作大教堂和集市:

教堂是按照精心设计的图纸修建的建筑,圣人巨匠呕心沥血,历数十年方始完成;集市则是人人可以参与建设,没有固定模式,也不知道完成的结果如何。

然而很长时间以来,行业内外对于开源软件是有争议的。

首先是关于开源软件知识产权的纠纷。譬如在国内,个别企业会根据相关规则对开源软件进行修改、衍生,然后发行自己的版本,并把它变成闭源软件。这不但可以看成是具有负面影响的道德问题,还可能面临侵犯知识产权遭受法律追诉的风险。

正是因为多数人在认识上存在误区,所以开源软件迄今尚存的一些争议问题,在法律上也存在一些灰色地带。

其次是安全隐患。虽然很多开源项目都由企业或资深专家开发维护,但由于不完全是自己使用,导致贡献者容易对安全性造成疏忽。譬如,知名开源项目爆出安全漏洞的例子多不胜数:OpenSSL Heartbleed、Fastjson 远程代码漏洞、Antd 圣诞彩蛋等等。

而最重要的一点,则是开源软件的商业化问题。

目前在国内跑出商业模式的开源软件寥寥无几,而且国内还存在着一些产品开源后又闭源的情况。比如一个公司在最开始做产品时,觉得自己做的不够好,所以就尽量开源,吸纳别人的营养,但等到这个产品已经达到了一定门槛时,公司会希望商业化,所以就闭源了。

另外,有行业人士表示,中国确实在开源文化方面有一些不规范的地方,开源的文化氛围和商业情况还有待加强。比如,现在很多小型技术公司会把开源的东西拿过来加一层界面,然后就说这是自主研发的产品。

不过,一位长期看To B赛道的资深投资人告诉虎嗅:“开源市场已经在井喷了,它还会持续上涨,甚至到最后,所有基础软件都会是开源的。”

"就像当年雷军说小米要超越苹果一样"

似乎所有的创业故事,都是围绕着一个好的想法展开的。

据悉,创始人刘奇、黄东旭和崔秋是在豌豆荚的同事,他们分别在技术架构团队和业务团队。值得一提的是,这三个人都是同一个编程语言的爱好者。

剧情的加速,发生在2015年的一个周五。

三个人聊起了一篇新发表的Google Spanner论文,在讨论过程中,他们发现这是一个近乎完美的系统,而且在技术上存在可行性,但奇怪的是,国内外却没有一个人去做。

更早之前,刘奇和黄东旭曾共同做过一个名为Codis的分布式缓存开源软件,让人意外的是,这个软件吸引了很多开发者使用,收获了一定口碑。也就是这个时候,刘奇和黄东旭也第一次切实感受到了开源软件带来的强大势能。

“我们自己也开始有点膨胀了”,黄东旭半开玩笑地说道。

另外,当时国内互联网公司都或多或少遇到同一个困难——随着业务量的不断增长,以传统关系型数据库为代表的如Teradata、甲骨文等产品,由于传统架构可扩展性较差,所以对硬件的要求非常高。而当计算的数据量达到千万、亿级别时,数据库的计算就会出现延时,使得用户不能及时得到响应,更别提“高并发”(同时处理数以亿计的请求)了。

譬如,像甲骨文这样的传统数据库需要耗费大量的人力和财力去维护,十分劳民伤财。

新学术论文带来的理论支撑,以及上一个项目带来的强大信心,再加上长期受传统数据库的“折磨”,如此一来,似乎没有什么能够阻挡这三个愣头青的创业步伐了。

但是,这件事的难度也不可小觑。

从业务难度上来讲,作为基础软件,数据库本就是所有软件中门槛最高的。在数据库领域有一句名言——Nobody wants to change database,(没有人会愿意去换数据库)。数据库就像一个企业的心脏一样,没有人会闲得想做一个心脏搭桥手术。

因为数据库里面装着客户的数据,这些数据可能是银行的存款交易,也可能是电商的订单,但不管是什么,它们对客户都非常重要,这也就要求用户选择数据库的时候要万分谨慎,做到数据不能错,不能丢,遇到高峰期的大量的用户请求时,不能瘫痪,否则将造成巨大的业务损失。

一位投资人告诉虎嗅:“做数据库本身就很难,而且PingCAP创始人还口出狂言,说要做到世界第一,就像当年雷军说小米要超越苹果一样,最开始基本上也是没人信的。”

但也有人认为,PingCAP的独特之处,是在业务创新之余,拿“开源、数据库”这样不太性感的名词开刀。

为什么今天的数据库软件必须要开源?

因为基础软件太过于通用又非常重要,因此获取用户的信任成本非常高。如果选择不开源,一来传播速度会很慢,二来对方的信任成本会很高。第三个最致命的是用户的增长并不会是一种病毒传播式的增长,进而导致产品的迭代速度会变得很慢。

事实上,像数据库这种通用的技术软件并不是天才程序员写代码写出来的,而是被千百个用户用出来的,这是一个生长的过程,基础软件,一边是成百上千的用户场景打磨,另一边是数以千计的工程师参与,想要在这个时代同时让两者紧密互动基本只有开源一条路。

需要指出的是,数据库产品最大的竞争壁垒不完全是产品本身,而是一个连接大量用户场景和技术工程师的生态体系,TiDB的独特性就在于此,而这也就成为了一个难以复制的竞争门槛。

回顾开源发展的历史,在第一代Linux为代表的自由软件运动,第二代Hadoop代表的技术栈驱动之后,TiDB则是以用户场景驱动,形成的“场景—社区—产品”的模式,快速积累的顶级用户驱动了社区大量的顶级开发者,打磨的产品迭代后再进入更多的用户。

找到愿意“先吃螃蟹”的人

这三个人表示,一开始除了会写代码之外,他们在做公司这件事上,几乎别无所长。

因此,他们的第一个选择,是找到上级,希望豌豆荚能够投入资金和资源把这个项目做大。可正如前文所说,这个项目的成功率太低了,豌豆荚并不愿意为这三个人的想法冒险。

无奈之下,这三个人只能硬着头皮向前走。通过朋友的关系,他们找到了经纬中国的熊飞。在三个小时的见面时间里,有两个半小时都在讲论文,“别人可能都是拿出一个非常完善的商业计划什么的,我们啥都没有,连PPT都没有。”

关于为什么会投PingCAP的天使轮,熊飞在接受虎嗅采访时,给出了这样的回答:“当时他们想基于Google Spanner的论文,做一个可以替代甲骨文的数据库。这个野心是非常大的,因为那时候市面上真的没有人想去做这个事情,去挑战甲骨文,怎么可能?但万一做出来,将会是国内开源软件的首个实践。”

一个背景是,从上个世纪到80年代到2010年代,甲骨文一直是数据库市场的老大,长期的市场份额接近50% ,产品打磨除了数十年的技术积累,数十万的用户基础,经过了众多行业的锤炼。

天使轮之后,PingCAP很快在2016年的春天就开始募集A轮融资,但是,见过的很多美元基金都拒绝了他们。因为不同于天使轮阶段,在A轮投资时,投资人除了看创始团队背景,还非常关注产品形态、技术落地和商业模式,所以当时没有产品,没有用户,还要做“免费”开源的这三个年轻小伙子,显然不能成为投资人下注的理由。

这时,第二个愿意吃螃蟹的人出现了,云启资本的合伙人陈昱。简单了解之后,陈昱作为一个工程师的直觉告诉他,这是一个好项目。因为他曾是Google的工程师,做过上市公司CTO,认识Google Spanner的第三作者,知道分布式存储系统的前景有多大,但这帮人能不能做出来,陈昱心里仍存疑虑。

于是,跟创始团队第一次见面时,陈昱直接就去看了PingCAP产品的代码。当时PingCAP的产品还是一个大框架,但他基于代码判断,PingCAP的创始团队是懂行的,周五见面,周一就决定投资:“技术水平过硬,而且开源模式有一定的杠杆作用,早期可以赌一赌,未来是很有可能做成的。” A轮融资就这样最终落定。

在采访中,我们希望黄东旭用最通俗的比喻来形容他们所做的事情。他是这样回答的:

“假设杯子是数据库软件,水是数据。普通的杯子,杯子倒满了,再要装水就要加杯子,这样一来,水被区分开装在不同的杯子里,这也是之前单机数据库的时代行业现状。

“但一旦用户有需求,既要去查询a杯子里的数据,又要去查询b杯子里的数据,这个就很难。尤其是面临海量数据的挑战的时候,比如面对一万个杯子,应该怎么去分配,怎么去管理,甚至每天这个杯子可能都会破,有很多新问题,工程师每天都要焦头烂额去解决问题。

“所以PingCAP就发明了一种杯子——表面上看它就是一个杯子,但是你会发现不管怎么倒水,它都不会溢出来,也就是说不管数据量如何增长,用户A的数据都会自动存在A杯子里,不溢出;用户B的数据都会存在B杯子里,不溢出,如果需要查询用户A或者用户B的数据,只需要找到对应的杯子,输入关键词即可。

“举例来讲,假设电商要处理一个订单,比如我今天买了一件粉色的短袖,同时买了一双白色的鞋子,可能一个星期后又买了一块地毯,那么关于“我”的所有电商数据就都会存在杯子A里,如果需要找到我买的白色鞋子的信息,那么只需要找到杯子A,输入鞋子即可。

“如果反过来想,换另外一种方式去访问数据,假设要统计货品门类当中买冰箱有多少人,那只需要分别查询各个杯子中是否有冰箱这个数据即可。

“但是,如果用传统的数据库产品,首先关于“我”的数据会存在不同的杯子中,而且并不确定白色鞋子的信息存放在哪个杯子里,所以需要每个杯子都访问一遍,这样一来时效性就会变差。作为使用者,唯一需要关心的就是杯子的容量,换言之,就是根据需求加入服务器。话说回来,增加服务器节点总比修改业务要简单得多。”

拿下第一个付费客户:死马当活马医

开源数据库的另一个难度,在于在成立初期需要投入资源、投入金钱去做产品,所以商业化要比想象的来得更晚。

回忆PingCAP的商业化之路,就不得不提到刘奇和黄东旭之前做的Codis项目,当时因为PingCAP根本没有名气,所以一开始,PingCAP的销售就借用了Codis的名气,跟企业说是Codis的作者来进行技术交流,然后顺带着推广一下PingCAP的产品。

据黄东旭回忆,五年前第一次做出产品后,找一个客户去交流。于是,就有了这样的对话。

客户:“你们做什么的?”

我:“我做了一个数据库叫 TiDB。”

客户:“没听说过。有人用过吗?”

我:“没有…但是%&*%”

客户:“……”

虽说新产品总得有第一个客户,但数据库这种东西必须得别人用过,客户才敢用,这就是做数据库的现状,因为这个东西实在太过于重要了,没有人愿意当小白鼠。但对于PingCAP来讲,这就很尴尬了,很多用户看都不看。

没想到,机会就在一次次试探中出现了。

第一个客户其实是个“救命”的故事,当时黄东旭去找他的朋友,盖娅互娱(一家游戏公司)的CTO,盖娅互娱的CTO跟黄东旭说:“我这边真有个场景可能需要你这个东西。”

原来,当时盖娅互娱已经做了一个智能实时广告投放系统,实时分析哪个渠道引流效果更好。但这个系统是用MySQL去做的,随着数据积累的越来越多,系统就变得非常卡顿。据盖娅互娱透露,做一个查询要20分钟,一点儿都不实时;此外,这个业务逻辑也十分复杂,所以也没有办法去拆分。

于是,也就有了摆在PingCAP和盖娅互娱面前的两个事实,一是PingCAP的产品还没有人用过,风险与收益不可预知;二是彼时,盖娅互娱没有更好的选择,如果不用,也无异于“等死”。但想想TiDB是兼容MySQL的,代码不用改。

“试一试,万一救活了呢?”

这让PingCAP的产品有了第一次商用的机会。没想到,在数据库正式上线后,查询时间从原来的20分钟一下冲进了10秒钟,初战告捷。

有了第一个客户以后,PingCAP出去逢人就说:“我们有人用了”。得益于盖娅互娱这个案例,PingCAP就先在游戏圈子里捞了一群客户。但也就只有游戏公司用。

因为其他行业的客户会来问:“有没有金融行业的案例?”

在经历了四处求商务机会的“漫长”几年里,PingCAP先后做了一些北京银行的交易系统以及一些微众银行的案例,终于觉得可以挺直腰板觉得说自己的产品是企业级数据库了。但一些客户又会问:“你们有‘宇宙级大行’的核心交易支付系统的案例吗?”

PingCAP只能再回答:“抱歉,现在还没有。”

“这个东西没什么新用户用,也没什么增长,是不是要完?” 黄东旭在公司成立前两年特别焦虑,

“直到最近,我发现用户数据开始上涨,包括最近半年我们发现我们的社区用户在网上的讨论变得越来越多,甚至已经多到超出我们自己的视线。”

海外战事:找上门的生意

据了解,在做Codis项目时,有一些美国潜在用户曾经来问“自己能不能用”。在理论上是可以的,但因为最开始只做了中文文档,所以导致海外市场的人都用不起来。

这也成为了刘奇和黄东旭做那个项目时一个特别大的遗憾。“我们做的东西有点像做工具,就像做一把锤子,中国人需要锤子,美国人也需要锤子,尤其是基础软件,我觉得是一个属于全人类的东西。”黄东旭指出。

不像国内商业化这样着急,PingCAP发力海外市场是相对滞后的。

2019年的年中,刘奇找到时任技术VP的申砾,对他说:“现在这个时机已经开始成熟,我们希望你去探索海外市场。”

毕竟,当时国外的开源软件已经很赚钱了,有好多开源项目已经做到独角兽级别了,都有1亿美元以上的合同收入。据知情人士透露:“毫不夸张地讲,同样的单子,国内可能只能收100万人民币,但国外就能收100万美元。”

当时,遇到的第一个大难题是PingCAP的产品在海外没有标杆案例,也就没有办法去推广产品。但所幸,TiDB在全球的数据库的开源圈其实是有一些口碑和声望,也不是完全没有基础。

申砾谈到:“我们早期在海外没有做特别大的推广,但会有很多客户跑过来说,他们在做数据库的选型,其中,TiDB在他们的备选名单上,实际上这是由社区带来的一个价值。”

另外需要指出的是,数据库是每个应用软件100%的基石,当企业的应用规模小的时候,有很多方案可以选择,可一旦应用的数据量和并发量上到一定程度的话,那么可选择的数据库软件就不多了。

举例来讲,一家日本最大的在线支付公司,当时他们拿了不少投资要通过积极的市场推广手段获取客户,但在市场推广活动中,系统先扛不住了。在痛苦中,它们选择在开源社区里找答案,就发现了TiDB。

2019年,日本的在线支付有点像中国之前“百团大战”的一个场景,玩家很多,谁跑得最快,那么谁就可能会赢得这个市场。当时,他们的系统已经用到了最顶配的方案,但他们业务发展实在太快了,所以数据库成为了他们业务增长的瓶颈之一。

所以,他们除了主动找数据库方案,也做了市面上主流数据库产品的对比。

原来,他们使用的是AWS上的 Aurora数据库,Aurora是一个OLTP类的数据库,随着他们整个交易的数据量增大,使用规模达到一定程度后,他们就无法再使用Aurora来承载这样的一套系统。

而在换成TiDB(上面提到过)之后,由于TiDB本身也是一个兼容MySQL的系统,所以他们不需要修改他们的业务,就直接替换上去。而结果就是,TiDB让他们脱离了关键增长节点的困境。

据申砾介绍,如果没有采用TiDB,这个客户只能选择放缓业务推广节奏,或者是通过大规模的业务改造来提升整体的性能,这个往往是耗时耗力的。无论哪种选择,都会让他们错过一个时间窗口。而当时,日本有十几家可能甚至二十几家的在线支付公司在同时在争抢市场份额。

这之后,他们也将这个产品推广给了其他几个业务线,最终他们的核心场景都在用TiDB。

当然,这只是海外市场的一个成功案例。

在数据库产品的实际推广过程中,谨慎的海外用户对PingCAP产品还是存在着一定顾虑,譬如很多客户会担心自己所在的区域不能得到及时支持。这也就导致早期PingCAP的产品在海外的用户非常少。

但值得一提的是,现在的PingCAP已经在海外多个区域建立团队,其海外营收也已经与国内持平,甚至有超过国内市场营收的趋势。

写在最后

在与多位采访对象的交谈中,有几个频繁出现的关键词,比如中国第一家走出来的开源公司、三年营收为0、获客方式等。

一位开源软件领域的观察者告诉虎嗅:PingCAP的产品是国产开源里面第一个跑出来的,所以基本上其他的开源项目,多多少少都有在模仿PingCAP的影子,包括社区运营和商业化。

而关于前三年营收为0,陈昱告诉虎嗅,一个开源的公司从0到上市,可能有10年的时间,可以分成几块,前三年,专注去做产品;中间三年,获取大量的用户;最后四年就是商业化的能力。

在开源软件中,还有一个比较特殊而又唯一行之有效的获客方式,那就是用To C的方法来去获取To B的生意。

一般来讲,传统软件的商业模式是,做好一个产品出来然后通过BD的模式去一个个谈客户,这样会相对慢一点。但开源来说,直接放到网上,喜欢就用,那就相当于同时养了一大池子鱼,养好以后去批量捕。

这样一来,在后期的商业化上,开源企业的营收每年可能有一个三倍的速度往上涨。

不过,从整个数据库市场的份额排名来看,PingCAP的产品还有很大的上升空间。可以看到,当前的市场份额前五名还是一些老牌的科技巨头,比如微软,甲骨文,AWS,IBM,SAP,此外阿里系的数据库产品、华为的数据库等也都榜上有名。

时势造英雄。

在当前的大环境中,在云计算的推动下,开源软件正在经历一个分水岭。

其实,开源软件产品也有众多分支,比如操作系统、开发工具、开源的中间件,不过开源数据库是最特殊的。因为,云上数据库大多是开源的,不管是AWS的Aurora还是阿里云的PolarDB,本质上都是开源MySQL的增强版变成的一种服务,所以开源数据库借助云服务是自然而然的。

去年,在很多国家云上的数据库超过了云下。比如国内阿里云的云上数据库市场份额超过了甲骨文,全球范围内AWS Aurora的市场份额也超过了甲骨文,在美国Aurora也超过了甲骨文。

所以,像甲骨文这样的典型闭源数据库的市场份额一直在萎缩,这个潮流甚至在加速,在很多国家已经没有新增用户了。

可以预见,不管是国内市场还是全球市场,一场浩浩荡荡的开源变革正在或者即将吞噬着整个基础软件市场,而这之中,势必会长出新时代的“苹果”公司。

我是本文作者张雪,关注5G、云计算、人工智能,微信:zhangxue-0929,欢迎行业人士聊天爆料(加微信请备注身份)

一款产品中的分类系统,应当采取何种模式?

目前市面上的APP、网站等主要采用的分类等级有三种:一级分类、二级分类和三级分类。那我们要如何确认一款产品中的分类系统,采取哪种模式呢?

一、分类的作用

笔者最近在做小程序的改版时候,将目光聚集到了分类页面的改变上。我们知道,分类功能或者说分类页面在商品服务类平台中是必不可少的。分类一般是按照商品或服务的特征、针对人群等性质进行划分,其作用主要体现在两个方面:

一是方便用户能够更便捷、更快速的在某一个分类类目下找到所需要的商品或服务。比如:在美团的页面中,用户可以通过首页中的分类快速的进入想要了解的领域,如果需要查看附近美食便点击“美食”,想要点外面可以通过点击“外卖”的图标快速进入相关页面。

二是通过分类词的设定开发用户的潜在需求。有时候用户在使用产品的过程中可能没有明确的目标,这个时候分类可以为用户提供一个思路。比如:用户在使用淘宝购物的时候,很多情况下并没有特定的目标,可能只是漫无目的的逛逛。这个时候用户可以通过淘宝的分类,来找寻哪一个具体的类别的商品可能自己需要。

如下图的“女装”分类下又细分了很多类别,用户可以通过这些分类词找到自己感兴趣的内容。

二、什么是分类的等级

当然,分类有很多不同的应用,一个功能较为强大的产品中可能涉及很多功能需要进行分类(如支付宝、美团),这些软件功能较多,也会有很多其他产品的链接在其中。另外一张就是对于产品中内容的分类,如上文提到的淘宝的商品的分类。因为篇幅和文章主题限制的原因,本文主要讨论产品中内容的分类等级问题。

目前市面上的APP、网站等主要采用的分类等级有三种:一级分类、二级分类和三级分类。

下面详细说明这三种分类的情况:

(2)一级分类

一级分类很好理解,就是产品中的分类只采用一套分类词,每个分类词不再继续向下细分,比如“人人都是产品经理”的内容分类采用的就是一级分类,将网站内的文章分为产品经理、产品设计、交互体验等类别。另外在网站发表的作者就会知道,一般提交的文章的分类是由审核人员阅读审核之后确定的。

此外还有如“大麦”APP、今日头条等在内容上采用一级分类的模式。

(2)二级分类

二级分类就是内容首先根据一个分类类将内容细分,根据细分后的每一个类别再设定一套分类词进行再次细分。比如“饿了么“就采用二级分类的模式。

(3)三级分类

三级分类的具体形式和二级分类类似,在很多购物网站中比较常见,如下图的淘宝、京东。

三、为什么会产生不同的分类等级

首先,一般来说我们接触的产品采取的分类方式都是平台规定的分类词,分类方法基本采用的是大众分类法,即根据用户需求和理解为信息自由添加标签(Tag),从而实现信息分类的方法。

随着信息的不断扩充,对于内容的平台,一级分类无法满足划分内容的需求了,所以开发者会将分类扩充为二级甚至三级分类。

当然,分类并不是越细致越好,首先要基于产品的定位和用户的需求来设计,如果单纯的一级分类无法满足用户的需求,就需要考虑到采取更细致的分类方式。

但是采取多级分类后,也会产生一些需要考虑的问题:

(1)分类词的设计

分类词分的级数越多,分类词的设计越复杂,特别是涉及到不同大类下面的次级分类词下的内容存在一定的交叉性。这个时候存在两个比较大的问题,一是如何设计合理的分类词尽量减少交叉性,二是内容的发布者在提交内容时是否可以选择多个标签以便用户可以在多个不同的分类下查看到该内容。

(2)分类系统中是否插入运营位

因为考虑到产品的商业性,分类页面其实是插入运营位的一个黄金地段。比如:购物平台会在每个分类插入“热卖”之类的分类,有时候还会将某一系列主推的商品单独作为一个分类词放在分类系统中。这个时候产品就需要考虑到运营位设置的情况了。

(3)用户需要点击到几级分类词便可以看到该分类下的结果

根据笔者使用诸多产品的统计来看,一般来说在产品的逻辑上有两个选择:

一是对于n级分类(n>1),用户是点击到n-1级分类即可进入分类的结果页,然后如果用户再需要进一步分类可以再次从页面中找到下一级分类(一般采用滑动栏的设计)。

二是点击到多级分类中的最后一级才可以得到分类结果页,但下图的淘宝APP采取的两者结合的方式,它可以通过点击二级分类词的【热销榜】右展开键直接进入整个二级分类词下的结果页,也可以直接点击三级分类词的图标进入。

当然,需要考虑的问题还有很多,如分类页的进入方式,分类页的UI形式、技术上的问题等,特别是如果改变原有产品的分类系统,数据库的信息的变化是巨大的,很多技术细节问题需要与开发对接。

本文由 @朱凡欣月 原创发布于人人都是产品经理。未经许可,禁止转载

题图来自Unsplash,基于CC0协议

民间文献、数据库与作为方法的总体史

编者按

近些年来,各地各类民间文献的发现、收藏渐成热潮,各类档案资料的整理、出版也呈“井喷”之势,这些不仅极大推动了新文化史、社会史等的发展,丰富了历史研究的面相,使我们的一些既有看法得到修正,同时也促使我们将目光更多投向对这些文献基本解读方法的总结和探索上。事实上,怎样更好地做好这些珍贵史料的整理、出版与保护工作,如何处理民间文献数据库与社会理论及田野研究的关系,如何运用民间文献及其数据库,并结合深入的田野调查推动历史研究等等,都是摆在我们面前亟待思考和解决的问题。本期刊发的两篇文章分别从民间文献与数据库、总体史的关系以及明清地方档案的整理与出版的角度,进行了思考,期待能够引起学界更多关注与探讨,共同推动相关命题的深化。

作者:黄向春(厦门大学民间历史文献研究中心教授)

1.民间文献的定义与性质

20世纪80年代以来,各地各类民间文献的发现、收藏渐成热潮,无论是分布地区、种类还是数量,都大增于前,如“清水江文书”的发现,其不可替代的学术价值越来越得到学界重视。特别是在厦门大学、中山大学既有的社会经济史学派学术传统基础上,在“眼光向下”的学术旨趣影响下,华南、西南、华北各地存留的民间文献,不但得到了大面积的普查、整理、收藏,而且被广泛运用于宋明以来区域史以及制度史、经济史、文化史、法律史、宗教史等研究中,极大地推动了以民间文献、典章制度、社会理论与田野调查相结合的跨学科研究的发展。

福建永泰县一批契约文书的原始保存状态。资料图片

所谓民间文献,一般泛指在民间日常生活中形成并留存的历史文本,包括族谱、碑刻、契约文书、诉讼文书、宗教科仪书、唱本剧本、账本、书信、日记、医药书、堪舆书、日用杂书等等。其中如谱牒、科仪书、唱本剧本等文类,虽较早即已进入宗族史、宗教学、文学和民俗学等研究领域或学科范畴,但对于总体上何谓民间文献,学界尚无明确一致的定义。不过,尽管这些文献数量巨大、文类庞杂,所涉历史时段也长短不一,我们仍然能够归纳出某些基本的共性特征。第一是书写性,民间文献是以文字为载体的书写文化的组成部分,在知识体系与社会形态的关系上与口头传统相区别,反映的是“文字下乡”的历史过程及其文化统合的结果。第二是民间性,尽管并非完全与官方无关,有的甚至是官方介入的结果,如碑铭、诉讼文书等,但其产生、使用和传承的场合或领域、使用者及其群体的目的以及所具有的功能和反映的意志大体是非官方的。第三是地方性或地域性,其应对的事务、涉及的人际关系、使用的语言、因循的习俗以及文类的格式及其流通范围等,都属于地方或地域社会的范畴。第四是实践性,民间文献不是单纯的文人创作活动的文本,而是民众书写实践的产物,是嵌入于权力关系、组织行为以及个体和群体的社会能动性的一部分,既体现了客观历史过程与制度、话语、观念的互动,也包含着口头传统与书写文化之间的互动。第五是日常性与民俗性,民间文献都是因日常生活的惯例和处理各种事务的需要而形成的,因此是宏观历史过程在民间社会所展开的“细节”和“实态”,并在约定俗成中成为地方共享的习俗性知识。概言之,民间文献既是在包罗万象的日常生活领域中对文字的实用性、工具性运用,同时也是构成大众生活世界的一种文字形态。因此,民间文献不仅极大地丰富了文献系统的内容,而且更完整全面地呈现出中国历史上以文字系统为载体的文化在基层社会中的存在、传承和演变方式,深刻反映了国家与地方、一体与多元的复杂关系及其内在逻辑。

2.民间文献数据库与社会理论及田野研究的关系

民间文献的性质,决定了对民间文献的研究以及以民间文献为资料的研究,在方法和视野上必然是多学科、跨学科的综合研究,并必然强调民间文献与其他文献以及文献与田野的结合,在理论和概念上则必然更深刻地受到社会科学的影响。对于民间文献的总体价值和学术定位而言,不同文本本身的历史如何,人们为何需要、如何创作和使用民间文献,以及其如何有助于对中国社会文化和历史进行新的理解等是首先要面对的问题。而更进一步的,则是基于对民间文献全面深入的梳理和研究,是否有可能在传统文献的基础上,更新中国历史研究所依凭的资料库与知识体系,并最终从中国本土的经验事实出发提出中国人文社会科学的概念体系这一重大问题。为了回答这些问题,在数字化技术发展所提供的便利条件下,为这些文献建立数据库,并以之为基础开展数字人文的应用和研究,已经成为当前学界的普遍共识。各种史料数据库为史学研究提供了前所未有的便利,进而借助数字人文工具发现和提出新的议题,这一趋势实际上正在改变历史研究的工作方式,有望为当代人文社会科学的更新和发展带来广阔前景。

然而,不可否认的是,就目前而言,数据库本身并不能产生新的人文思想,数字人文工具的开发亦离不开研究者、开发者的人文关怀和思考。同时,既有的利用数据库与数字人文工具进行的研究,也已经暴露出了一些新的问题和可能面临的挑战。由于数字工具的运用很容易进行类型化、模式化的分析,因而更有可能产生的一种弊病是“去脉络化”——用数字人文工具“发现”和抽象出来的“脉络”去替代具体的文献、人事所处现实中的情境性脉络,从而掩盖了人文世界的复杂性。因此,即便是数据库与数字人文有更成熟的发展,它们也不能取代传统上研究者对人文世界的体认以及对社会思想、社会理论的探索,更不能抛弃田野研究或者把“跑田野”简化成“拿资料”,必须始终坚持民间文献与长期深入的田野调查并重。

民间文献的地方性、多样性、零散性以及不同文类的特殊性,往往被认为易于使研究流于“碎片化”,而数字人文工具在大量零碎资料之间发现或建立各种关联的优势,可以有助于避免这一问题。不过,数字人文工具的开发和利用,归根到底是服务于人文研究的。从民间文献中提炼出何种具有历史深度、人文价值和社会理论潜质的议题,完全取决于研究者自身的人文素养、学术敏锐和理论水平。例如,我们可以通过数据库和数据挖掘等工具来系统分析处理明清土地交易契约在不同地区、不同时期有关找赎的使用、表达、变化等具体情况,并可为之建立起类型及时空序列,从而揭示出地权和地方习俗演变的某些规律。但若仅仅做到这一点,仍然是不够的。真正有理论意义的问题是:传统中国的产权制度下“找赎权”的核心意义是什么?受到哪些历史条件的制约和影响?与王朝制度、乡族占有、阶层分化、道德体系等超经济因素有何关系?与西方历史背景下的产权制度有何异同?显然,这些问题都难以由数据库和数字人文工具“自身”提出和解答,而是必须来自并回归于研究者探索人文社会课题的深入思考。

民间文献的另一个特征——“在地性”,决定了研究者要做的既是“在文献中做田野”,同时也是“在田野中读文献”的工作。首先,民间文献的内容和形式都是特定“文化”的一部分,也就是构成“田野”的一部分;它们也不只是有“内容”的“史料”,其本身仍是作为“物”的形式和象征,其创造、书写的事件性与空间呈现方式、“用”“看”“读”的人和场所等等,都是嵌于文献内外的重要信息。其次,民间文献只在特定人群及其社会脉络中传达特定的意义,研究者只有在这个脉络中才能读懂它们。例如,族谱的本质是创造将祖先认同与权利义务关系相结合的特定社群的手段,因此只有把族谱“留在”田野、从具体历史情境下的地方人群及其社会文化实践的过程来观察和解读,才能读懂族谱并认识家族的实质。再次,民间文献的形成,本质上是具体生活场景中人的活动的产物,因而也是其社会网络缔结过程的组成部分。文献的多少除了取决于保存状况的好坏之外,还要考虑是否因为社会互动并不是通过文字而是其他非文字方式进行。并且,社会网络及其形成过程并非每个环节都需要文字,但如果要整体地理解这个网络,那些不需要文字的部分不可或缺,这恰是以民间文献为基本资料的研究为何总是需要田野调查的根本原因之一。最后,民间文献与其他历史文献最大的不同,就是我们仍然可以在“田野”中看到这些文献生产、使用、传承的过程。例如族谱、分家文书、社团文书、仪式文书、榜文、碑铭、剧本唱本、账本、书信等,在当代民众生活中仍然处于不断被创造和使用的过程中。而“在田野中读文献”即相当于身处“文献的现场”,一方面去体会其历史情境下的行动策略,以帮助达到“同情之理解”的目的;另一方面也可以去到不同的个人及其群体以文字来建构和表达其生活世界的现场,深入观察人际网络、社会秩序系统如何在社会行动者的主体实践中成为可能。因此从某种程度上可以说,“文献的现场”也就是“历史的现场”。

目前,将民间文献数据库、社会理论与田野调查相结合所产生的具体研究成果并不多,比较有代表性的是郑振满、丁荷生对莆田平原开展的区域史研究。他们历时数年建立了“莆田平原数据库”,以其为依托发表的成果《莆田平原的仪式联盟》,综合文化地理学、田野调查和文献解读等方法,对莆田平原的聚落、宗族、宫庙、水利网络、仪式系统、士绅、海外移民等社会文化要素及其相互关系做了全面系统的分析。在理论上,该研究试图修正诸如“权力的文化网络”等传统社会变迁论的局限性,通过考察莆田平原从唐代的宗族依附于寺庙、到元明之际宗族独立发展、再到明中叶以后由里社与神庙系统结合而带来超宗族社会联盟的演变,指出了宗教、理学和王朝制度的“在地化”过程及其对地方社会的规范和制约,从而从整体的区域史维度揭示了地域社会发展史与大历史进程(包括全球史)之间的复杂互动和有机关联。

3.民间文献与作为方法的总体史

由于民间文献极大地补充和丰富了史料库,数据库与数字人文工具也极大地增强了研究者更完整掌握史料的能力,这就使得历史研究对“总体史”的追求有了更多新的可能。早期的“总体史”是在划定的一个较大时空范围内,全面考察这一时空中包括地理、气候、生态环境以及政治、经济、文化、民族、宗教等各要素的共同作用下,由自然、社会与个人的互动在不同时间节奏上所形成的结构和变动,来呈现宏观历史“变与不变”的态势。随着年鉴学派的发展,“微观史”“心态史”“新文化史”等取向逐渐取代了“总体史”,但“总体”的理念和关怀并未被完全抛弃,只不过已由历史过程的史实上的总体,转向了关系视角和方法上的总体。与此同时,在对年鉴学派有很大影响的社会学、人类学领域,源自功能主义的整体论也受到了挑战,人类学传统上的研究对象的整体(部落社会或社区)被质疑只是人类学家的想象和建构,而本体论上的整体以及关系主义的整体,已成为当代人类学研究的一个重要方向。

中国史学界对“总体史”的关注,无疑受到了20世纪80年代以来引入的年鉴学派学说的影响,同时也离不开史学整体上社会科学化的大背景。不过,由于中国学术自身的特殊传统,当代史学强调的“总体”,并不囿于年鉴学派的理路,而是具有更宏观的学科转向的意义,至少包括以下几个层次的内涵:

历史实践的总体。在延续“新史学”思想的基础上,对日常生活、民俗与民间的重视带来了一场“眼光向下的革命”,在王朝国家、重大事件和帝王将相的历史之外,补充了民间社会和普通大众的历史,让“沉默的大多数”发出应有的声音,在学术上体现“人民创造历史”。

社会体系的总体。把传统政治史、经济史、制度史、文化史纳入更具社会总体性的认识,例如:从对官僚政治体制及其行政职能等的论述,拓展为关注权力体系的构成及其生成运作机制,揭示权力的象征实践与社会分层和社会秩序的关系;从对典章制度的考据,拓展为注重制度的“在地化”过程,以及其中人的能动性及其与制度互动的社会后果,从而揭示政治架构何以在基层社会得以实现的机理;从探究上层和精英的思想、文化与意识形态,拓展为关注地方的、民间的、族群的文化主体性与多元性及其与上层的复杂互动,等等。这些从单向、片面到双向、多维的转换,正是关注中国作为一个复杂“有机体”的“总体史”的第二个层次。

时空脉络的总体。从截取不同时空中的史料来连缀通史的某些片段,转变为区域史的整体视角,聚焦于一定空间维度内各历史要素的有机关联,从探寻相对微观的“局部的总体”来把握宏观历史的向量。既主张从地方史、区域史的整体性、内在性和有机性对大历史作脉络化理解,也强调大历史过程、国家体制和制度化力量对于形塑区域、地方、村落、族群、个人等的深刻影响。

关系的总体。在学界普遍对“社会、宗教”“传统、现代性”“非理性、理性”“东方、西方”等二分体系提出质疑的大背景下,从人的主观性与参与客观历史实践的过程出发,注重从关系和网络的角度探寻个人生活史、村落生命史、事件史、制度史乃至全球史的连接,通过把各种文献作为网络的节点和传达特定意义的符码,批判性地重建其共时性和历时性的多重解释,以揭示历史中的人及其实践活动的本质。

显然,这四个层次的“总体史”,在视野上都跟民间文献被纳入史料和史学范畴有密切关系,在理论方法上都有赖于对民间文献的价值判断和深入解读。这不但是因为民间文献充实了史料的类型与数量,丰富和提高了历史信息的内涵与完整度,而且还在于其书写、使用和传承本身就是“文字下乡”的历史过程,是构成中国历史乃至文明发展史至关重要的一部分。而借助数据库与数字人文工具,并结合深入的田野调查,我们可以发现在这一过程中,众多层次的历史脉络如何能够在如此广泛的领域经由文字实践而打通和关联——一方面,国家通过文字及其文牍系统渗入基层社会;另一方面,民间则习得和运用文字来应对生活所需及处理地方公共事务,并吸纳或借用文字蕴涵的价值、权力与象征来建构和传承其日常生活的意义体系,从而最终在维系地方社会的内在秩序和创造地方文化传统的同时,也达成了多元性、流动性与国家大一统格局的辩证统一。而这一点,正是“总体史”之于中国史研究的要义之一。

相关文章:明清地方档案的整理与出版亟待规范

《光明日报》( 2020年02月17日14版)

未经允许不得转载: 汽车日报 » 大众数据库不让下载数据怎么回事

相关文章

themebetter

contact