我最近采访了我们的创始人之一亚历克斯·克雷文 (Alex Craven),了解团队今年夏天的活动情况。
数据城创始人亚历克斯·克雷文
汤姆:亚历克斯,最近怎么样?真是个忙碌的夏天!
Alex:哈,是的,我们最近真的很忙。我们的目标是绘制新兴经济 印度尼西亚电报号码数据库 部门的地图。我们现在已经创建了200个全新的实时行业分类,它们都发布在我们的网站上了。这需要团队的共同努力。
汤姆:你是怎么做到的?
亚历克斯:是的,所以第一步是确定新兴经济体的定义。我们首先收集了客户要求绘制的所有行业——例如文化、媒体和体育部 (DCMS)、英国商业、能源和工业战略部 (BEIS)、知识转移网络和弹射网络 (Catapult Network)。我们将这些行业与地方政府和地方企业合作伙伴 (LEP) 要求我们审查的其他行业合并。这为我们提供了一个包含大约 40 个行业的起点,然后我们将其细分为所谓的 RTIC 分组。最终,每个行业最多包含 15 个实际类别——净零供应链是我们做过的最大的供应链之一,有 16 个。这项工作旨在找到可靠的参考资料、研究和专家资源,以便我们能够合作。
对于每个RTIC,我们需要正确识别应使用的行业分类法及其所反映的公司类型,然后对所有这些行业进行分类和构建。这个过程是寻找该行业中真正优秀的公司样本,供机器学习学习,以便它能够找到同一行业中所有其他运营的公司。
是的,团队非常忙碌,工作量巨大。今年九月,我们推出了200多个独立分类,涵盖广告技术、保险技术以及清洁能源等各个领域,这些都包含在我们网站的RTIC板块中。
汤姆:这些都是全新的分类,并且不属于 SIC 的涵盖范围,所以您必须创建所有这些分类吗?
Alex:是的,没错。你知道,SIC 生态系统上次更新是在 2007 年,所以英国的科技行业或数字行业在 SIC 中的代表性确实不足。通常,它们被归类为“信息通信技术和计算”或“其他未分类的商业活动”。这没什么用!而且,显然,单单从数字和技术领域中可以单独识别的细分市场数量来看,就需要进行许多新的分类。有趣的是,SIC 生态系统显然是高度分层的,但实际上,很多公司在层级体系中无法被清晰地定义,它们同时在服务制造业和技术领域运营。在传统的 SIC 代码视图下,我们正在进行的部分工作是重新思考行业分类的运作方式,然后构建一个能够与这些行业自身发展同步的系统。
汤姆:实际上,SIC 根本无法跟上这些每天都在诞生的新领域的步伐?
Alex:不,没错。我认为我们团队越来越认为SIC系统不应该更新。这种方法本身就不合适。这不仅仅是生成大量新分类的问题,因为你面临的第一个问题是,所有已经运营了一段时间的注册企业都不会费心更新其分类。所以你只能捕捉到新成立的公司,而且这些新成立的公司实际上并不擅长选择其运营的SIC代码。数据存在很多问题——根据我们的工作,我们认为超过50%的企业在SIC中被错误分类,我们认为,这个数字太多了,根本没用。
汤姆: 那么这必然会导致政策规划或任何形式的分析无法准确进行吗?
Alex:我们确实认同这一点,而且在我们开展的一些行业中,情况确实如此。在这些行业中,传统的方法是选择一两位数或几个四位数的SIC代码来尝试找到相应的行业。我们创建的一些RTIC显示,公司一直无法找到一个能够令人满意地描述其业务的代码,因此仅在一个行业中就使用了超过200个不同的SIC代码。这恰恰表明他们一直无法找到一个能够反映其业务的SIC代码,因此他们选择了各种各样的代码,这意味着大多数代码在任何分析中都会被遗漏。
汤姆:所以你提到了实时行业分类。如果人们进入其中,他们会看到什么?
Alex:所以,从根本上来说,我们尽量让它的体验接近SIC,因为它会提供一个公司列表。如果您登录平台并选择“保险科技”(RTIC)类别,您将看到所有被归类为保险科技公司的列表。您可以看到我们使用的分类法,也可以看到我们使用的训练集,从而了解我们是如何做出这个决定的。这些洞察信息都通过我们的平台发布到RTIC中,因此您可以看到这些公司网站文本中使用的词汇类型,这些词汇也是它们被归类的原因之一。您还可以看到它们被归类到的所有其他行业,因此您可能会发现保险科技公司也在实际安装跟踪设备,并且可能从物联网的角度来看待它们。所以它们也可能出现在其他行业。您可以获得所有这些见解,然后显然所有这些都会与公司财务信息相结合,您会在公司注册处找到一些额外的数据点,这些数据点是我们从公开信息和开放数据集或第三方数据提供商处添加的。
汤姆:听起来最近真是忙得不可开交。接下来的六个月里,大家能从数据中看到什么呢?
亚历克斯:最初的策略是绘制新兴经济图谱。我们现在的任务是让我们的分类方法被接受,成为审视新兴经济部门的常规方法。因此,我们与合作伙伴开展了许多激动人心的工作,分析这些数据,并开始基于这些洞察发布报告和内容,试图提高人们对新兴经济的认识。
这是一项非常重要的工作。英国国家统计局(ONS)估计,由于标准产业分类代码(SIC Codes),约有30%的GDP增长被错失。我们正努力让英国的技术创新得到应有的关注,以便人们真正理解并支持它。我认为这对英国新冠疫情后的复苏以及脱欧后的复苏至关重要。
我提到了我们已经完成的净零供应链,我认为,你知道,希望这是一项极其重要的工作,因为弄清楚我们现有的资源如何帮助我们实现经济活动的脱碳,这必定是一项至关重要的信息,正如你所希望的那样。我们或许能够真正有所作为。
亚历克斯·克雷文于 2021 年 9 月 9 日星期四在利兹接受了采访。