- 产品
- 产品解决方案
- 行业解决方案
- 案例
- 数据资产入表
- 赋能中心
- 伙伴
- 关于
时间:2024-06-12来源:三七浏览数:28次
引言
他们说,数据是新的石油;数据是新的黄金。很好,石油的价格是每桶80美元,黄金是每盎司2300美元。数据的成本是多少?
这是一个毫无意义的问题。
驱动油价的因素可能很复杂,但在交易标准:数量、位置、品位和日期上有一个公认的共识。有些交易所指定了WTI、布伦特原油和迪拜等基准合约的交货规则。当你买了一桶原油时,你就知道你得到了什么。
数据……并不是那样的。数据本身就是异构的。数据集A和数据集B可能都是某个驱动器上的位,但除此之外通常没有任何共同之处。不同的字段、模式、规格;不同的主题、覆盖范围、信息内容;不同的使用者、用例和价值。每桶WTI原油都是相同的;没
有两个数据集是相同的。
这是否意味着数据定价完全是艺术,而不是科学?不完全是。数据固有的异质性意味着没有任何标准可以是绝对的;没有一个单一的公式可以应用。但是,有一些明确的原则可以适用于广泛的数据资产。
历史上,有两个行业主导着数据交易:金融和广告技术.这是仅有的两个具有多个买家、多个有价值的数据资产、多个用例的行业;还能够为数据支付一致的物质经常性收入.
这种情况已经改变了。
城里有了一个新的买家:人工智能。人工智能模型对训练数据有着贪得无厌的需求——这几乎肯定是当前它们能力增长的限制因素——因此它们的赞助商(MSFT、OpenAI、Anthropic和他们的朋友门)不遗余力地获取这些数据。但他们所需要的数据并不一定就像金融和广告技术所需要的数据一样,它们的效用/价值曲线也有所不同。这对训练数据的定价有影响,使得许多过去的直觉无关紧要。当我们浏览我们的定价原则列表时,我将试图强调其中一些新的影响。我们走吧!
从显而易见的(但经常被误解)开始:数据没有天生的价值。数据的价值来自于可以用它做什么的价值.因此,每一次关于价格的讨论都必须从理解这个价值开始:数据将如何被使用,以及由谁使用。
不指定数据将如何使用而讨论数据价值是没有意义的。财务报表对广告宣传活动没有什么用处。受众资料对股票分析没有什么用处。但是翻转这些,数据集不仅有用;它们是必不可少的。
用例就是一切。
使用相同用例的相同数据集可能会为不同的用户提供不同的价值。训练数据对OpenAI的价值与它对单独黑客的价值是非常不同的。资本市场数据对城堡的价值与对散户投资者的价值是很大不同的。每个数据用户都是独一无二的。
其中一些只是规模效应;当同样的数据部署到数百万客户、数十亿资本或数万亿参数时,它们产生的影响更大。但这也是一种功能效应: Citadel和OpenAI可以从相同的数据中比一般的用户获得更多。数据定价的很大一部分是寻找这两种效应的有用代理。我们将回到这个想法上来。
数据在某种程度上是附加的,而软件不是。如果你有一个CRM,你就不需要第二个;在你的Salesforce中添加HubSpot和Pipedrive并不会提高你的销售业绩。同样的道理也适用于你的机票跟踪系统、人力资源管理系统、工资和费用系统,甚至你所有的软件。重复投资是一种诅咒;不要重复。
这不是数据的情况!在潜在客户名单中添加更多的名字会使这个名单更有价值。事实上,您可以沿着多个维度添加数据:更多的名称,每个名称也有更多的字段,每个字段也有更多的细节;您甚至可以组合三个完全重叠的数据集来生成更高质量的合并。添加剂!
一个几乎普遍的误解是,数据是“非竞争的好处”:人a使用数据集并不阻止人B使用相同的数据。这是错误的。
这是不正确的,因为它纯粹关注数据消费的机制。复制大多数数据集是很简单的,从这个意义上说,是的,A和B都可以“使用”相同的数据。但这并不意味着他们能从中得到相同的值。
金融市场提供了最明显的例子。如果一个特定的数据集(比如卫星图像或信用卡交易)持有未定价的信息内容,那么对冲基金a就可以利用该数据进行交易来赚钱。但一旦这样完成了,对冲基金B就不能做到了!机会消失了。这些数据实际上是竞争对手:只有一方可以采取行动。
非竞争对手的误解源于将数据视为具有先天价值。如果是这样的话,仅仅拥有这些数据就足够了。但正如我们所知,数据的价值在于你可以用它做什么的价值。而这通常取决于没有其他的人在做同样的事情。在实际的数据业务实践中,数据集越有价值,其所有者在保持独家、专有和保护上花费的精力就越多。如果数据不是竞争性的,这种情况就不会发生。
请注意,使用用于人工智能模型训练的地球尺度数据集,即使从一开始假设,复制和消耗数据很简单,也是不正确的;这些数据集是巨大的。
优势不会永远持续下去——不论在资本市场,在人工智能培训中,还是在任何地方。数据集被商品化了,并产生了替代品。此时,这些数据就变成了非竞争性的。
这伤害了大多数数据供应商,但对少数人来说是一个巨大的提升。每个数据所有者的梦想是让他们的数据成为表注——商品化,但至关重要。
在为出售数据资产定价时,了解其特定生命周期中的位置至关重要。
在早期,数据集和市场都不够成熟,不足以推动价值。数据集不完整、不准确、速度慢、不相关。市场缺乏有效使用数据集的工具或复杂性。可能会有探索性的活动,但交易很少发生。
第二个阶段是当早期采用者意识到数据中存在alpha时——更好的针对性广告,或更好的模型价值,或超额的市场回报。(我在这里使用的是alpha这个词最广泛的含义——比行业其他公司更有优势)。在这一点上,数据是超级有价值的(相应定价),但受众仍然狭窄。顺便说一下,大多数数据资产永远不会走到这一步。
第三个阶段是让一个给定的数据集在其行业中得到广泛的应用。替代品激增,价格下跌。随着更多的供应商和更多的用户,它的alpha衰减;仍然有一些,但不多.
最后一个前沿是当数据集成为桌面筹码时:当人们使用它时,不是因为它提供了优势,而是因为不使用它会使他们处于不利地位。在这一点上,价格回升——不像阿尔法阶段那么高,但比衰变阶段高——使用急剧增加。这是作为数据所有者的最佳位置;进入这个阶段的公司可以从单一资产中获得数年甚至数十年的收入.
结合点1(数据的价值在于可以用它做的事情)和点3(数据从根本上是相加的),我们可以得出数据价值的严格定义:
数据的价值是在将数据添加到业务流程后所采取的操作中产生的边际变化值。
这个业务流程可以是你的模型训练步骤,你的定量交易策略,你的广告拍卖,或者任何其他数据驱动的东西。
找到估计这一边际值的方法是有效的数据定价的关键.
我们现在开始理解为什么真正独特的(又名专有的)数据是如此有价值的。
首先,它是普遍的可加性的——你可以将它与几乎任何现有的语料库结合起来,并增加它的实用性,从而增加它的价值.
其次,数据所有者可以(尝试)控制其生命周期。通过控制商品化/阿尔法衰减/过渡到桌面赌注的速度,您可以最大化[价格x交易]曲线下的面积。
第三,如果一个独特的数据产品成为表注,其所有者拥有垄断权;这相当于向整个行业征税。为这些数据付费只是“做生意的成本”。
数据的价值是可以用它做什么的价值。因此,完全不同的数据集可能是竞争对手,竞争提供相同的价值!这是一种“功能替代”,它让许多人认为自己的数据资产是独特的人感到困惑。
下面是两个示例:
l客流量、电子邮件收据和信用卡交易日志都是非常不同的数据集,但它们提供了相似的见解:人们在购物中心买什么。你的步行流量数据可能是专有的和独特的,但信用卡交易是一个功能性的替代品,所以你的数据在它所提供的价值上并不是真正独特的。
l人口统计资料、社交网络行为和搜索历史都是非常不同的数据集,但它们提供了相似的见解:人们对什么感兴趣,因此他们可能会买什么。
在这里注意两件事。首先,功能替代品可以是(而且通常是)相加的。您可以将它们组合起来,描绘出更丰富的现实图景,特别是在底层源/机制足够不相关的情况下。
其次,在功能替代品之间通常有一个价值层次,它与哪个数据集“最接近太阳”有关——也就是说,与感兴趣的潜在事件联系最紧密。是的,人口统计数据有时可以预测买家的意图,但它不像电子商务搜索活动那样强大(或有价值)的信号,因为后者更接近于购买行为。
如今,绝大多数的企业软件都是通过分层订阅计划来销售的。带有青铜、银、金等标签;或者是个人、专业、企业,都是通过功能、座位数量、使用限制和其他交付价值的代理来区分的.
不幸的是,这些代理大多不适用于数据.例如:
l按座位定价行不通,因为数据价值不会与用户数量成线性关系。再添加一个数据用户并不像再添加一个软件用户或登录帐户。数据由团队使用;有时可以对每个团队收费,但团队的大小、用例和生成的值都是不同的。
l按功能点定价(在软件的意义上定价,而不是在ML的意义上定价)不起作用。事实上,目前还不清楚“数据功能点”会是什么。这里很少有有意义的滑块。
l按原始数量(即你购买多少兆兆字节)定价不性,除非数据完全可替代,有点商品化,可能相当非结构化。但请注意,一些人工智能训练数据集就是这样。
l通过API调用定价不行,除非数据变化/衰减非常快。(但是如果API调用触发了一个动作,而不仅仅是下载,那么这是可行的;请参见下面关于包装器的讨论)。
l通过下载定价——相当于支付即时软件许可——行不通,因为数据很容易复制,审计困难。
但你也可以从其他的角度来考虑:
l按结构化卷定价有效:您为更多的记录、更多的字段(如果数据是表格式的)、更多的覆盖范围或更多的粒度支付更多的费用。例如,支付更多的个人资料(在营销数据库中)或更长的历史(在财务数据库中)。
l按质量的作品定价。请注意,质量存在于多个维度中——准确性、完整性、注释和结构。这本身拥有整个部分;看到下面。
l按接入工程定价。您可以对速度、近因性、更新节奏、排他性和自定义使用权收取更高的费用。这些都是真正的标尺,许多数据供应商将根据买家的需求和需求,明确地对其价格进行分层。
l按用例定价是您可以对数据进行定价,而不能对软件进行定价。软件用例在很大程度上是固定的:DocuSign不会处理你的账户,Quickbooks不会管理你的签名。但是同样的数据集可以帮助不同的用户执行完全不同的任务。(这当然是数据定价困难的原因!)
l按客户规模定价是有效的。这是显而易见的,但值得明确指出:大客户从给定的数据资产中比小资产获得更多的价值,因此他们应该愿意支付更多的钱。这不仅仅是一种口袋效应;这是各方面的理性行为。
l按业务单位定价是按客户规模定价的一种特殊(和有用的)情况;这里的业务单位可以是一个团队,一个地理位置,一个产品线,甚至是一个特定的模型生成。客户通常更愿意接受这个标尺,而不是直接支付更大的规模。
一种常见的模式是自己为你的数据资产识别最有价值的用例;将其包装到一个软件应用程序中;然后出售该应用程序。谷歌是这里的典型例子:他们的数据资产之一是“客户意图的知识”,他们将其打包到他们的广告业务中。广告商觊觎将他们的产品呈现在“正确的”客户面前的能力;如果他们知道谁是正确的客户,他们就会自己这样做;谷歌有这些信息,对他们也有,而且有代价。
益百利对消费者信用数据也做了同样的事情;彭博建立了一个整个终端来管理对其金融数据资产的访问;就此而言,ChatGPT只是一个用户界面,建立在GPT-4的模型权重上,而模型权重又依赖于大量的训练数据。(有人可能会说,考虑到封闭和开源LLM架构的进展速度,训练数据——以及由此产生的模型权重——才是真正的秘诀。)
将数据打包到软件中有两个主要优势:首先,现在更容易将数据价值与交付的价值联系起来;其次,你现在可以使用传统的软件定价轴进行销售。(BBG有每个座位,益百利有每个查询,谷歌有令人难以置信的关键字拍卖。)
请注意,顺便说一下,通过将数据资产包装在软件中来货币化,这与使用数据来提高软件资产的性能是完全不一样的。(这是一个非常常见的类别错误。)后者是从亚马逊到Zentesk的企业使用的经典“数据学习循环”;但数据并不是这些公司的核心产品;数据只是帮助他们优化软件和操作。
一种日益常见的业务模式是以数据资产的形式提供本质上的服务。
考虑Scale.ai或Clearbit或Datavant。它们都提供本质上的服务——数据标签、配置文件丰富和医疗记录匿名——但它们以数据产品的形式提供这种服务,您可以通过下载、API调用或公共密钥访问。
这样做的美妙之处在于,与传统的服务模式不同,这种方法可以扩展:执行一次服务,但销售多次。就像软件包装一样,你可以沿着传统的软件定价轴将服务包装货币化——通过行动,通过API调用,甚至通过座位。
高质量的数据成本更高。但是我们所说的高质量到底是什么意思呢?事实证明,就像所有的数据一样,数据质量的定义取决于数据被放置的用途。
量化和系统的对冲基金——也许是世界上最大的原始数据购买者——关心的是准确性和精确度。他们的业务是基于识别代表背离有效市场的数据点——异常价格、可预测的模式、意外的相关性、内部不一致、被误解的风险。错误的数据点是危险的,因为它们表明不存在的背离。
Adtech平台——大规模数据的另一个主要买家/用户——关注数据的覆盖范围和深度。异常值和个人不良/缺失数据点并不重要;他们的业务就是尽可能多地抓住分销的核心,这样当广告商定义目标档案、关键字或行为时,他们就有丰富的受众。
需要培训数据的人工智能模型——数据的新买家——关心结构和内部结构。到目前为止(这个领域发展得非常迅速,所以谁知道这能持续多久),训练数据中对模型性能的影响最大的质量属性是结构性的(而不是信息性的)清洁度(即去重、去噪、去偏的数据);标注;数据多样性;也许还有一些领域的特异性。
请注意,这些质量因素并不是相互排斥的;理想情况下,您想要所有它们(以及更多),无论您的用例如何。但它们的相对重要性各不相同。
这将如何影响数据定价?价格歧视是显而易见的答案:同一数据资产根据其质量因素的分布对不同的用户具有不同的价值。(这只是对上述公理3的一个重述。)
更微妙的一点是,许多这些质量属性都是可以改进的。您可以对原始数据进行注释;您可以组合数据集以增加覆盖率;您可以交叉引用数据集以提高准确性。采取这些操作是提高数据价值的一种简单方法,无论是外部销售还是内部使用。
(谁最适合采取这些行动?数据生产者的优势是,他们可以跨多个买家摊销这些行动的成本;数据消费者的优势是,他们知道自己的用例,因此可以优先考虑最有效的行动。)
根据用户配置文件和特定的用例,可能有数据集价值的其他驱动因素:
l当数据资产穿越其成熟度曲线时,可证明的法规遵从性将变得更有价值。在早期,当数据的效用未知时,参与者不太倾向于为遵从性付费。但随着生态系统的成熟,这就变得更加重要了.
l数据来源是有价值的,因为它使遵从性更容易,并减少了错误引入的范围。主要来源是这里的黄金标准。
l未受污染的数据在任何涉及预测的用例(生成人工智能,或定量投资)中都是非常有价值的。这些数据从未被挖掘或匹配,因此没有使你的数据产生偏差。未受污染的数据是不可再生的资产;一旦你使用它进行训练或测试,它就会失去其原始状态,所有未来的使用都必须考虑过拟合的风险。
l数据可互换性——数据集中的每一条记录都与其他记录一样——很好,因为它使数据在值生成中更易于处理、可加性和可重复性。
这些都是价值的内部驱动因素:属性,虽然不一定是你所认为的“质量”,但它们仍然是数据集固有的。但也有外部的价值驱动因素,其中许多与桌面赌注地位有关。
数据集可以通过不同的方式获得桌面赌注状态:
一些数据集成为了数据交换的标准。标普针对公开交易证券的CUSIP,D&B针对私人公司的DUNS,达塔凡特针对病历的通用病人钥匙,LiveRamp针对广告客户受众的RampID在这里都是这样的例子,尽管是不同程度的“桌面赌注/行业采用”。
一些数据集成为评估基准。这里的梦想是提供每个行业参与者都必须用来衡量自己的“地面真相”。标准普尔、纳斯达克和MSCI通过他们的市场指数来衡量投资者的表现。尼尔森对电视广告也这样做:广告商和网络都依赖尼尔森的收视率来标记他们的合同。
一些数据所有者拥有准垄断能力,要么由数据飞轮驱动,要么由某种非数据网络效应驱动。Meta和谷歌就是前者的例子:它们的知识图,通过用户内容和意图不断更新,主导着在线广告。彭博伯格是后者的一个例子,因为其终端无处不在。
一些数据集依赖于捆绑的使用来成为桌面赌注。要在给定的行业中工作,您必须(有效地)购买一个数据集;相反,要使用这些数据,您必须获得在该行业工作的许可。个人房地产经纪人、各种房地产经纪人组织/经纪公司/当地认证机构之间的关系,以及MLS房地产数据库之间的关系就是一个很好的例子。
数据的价值就是你可以用它做的值。因此,你被允许做的事情越多——卖家授予你的使用权就越多——你应该愿意支付的钱就越多!这是一种完全独立于质量、数量、数据集内部结构或桌面赌注状态的定价效应。
常见的使用权限包括:
l使用权范围:内部、产品内、面向客户、全面再分配
l所有权:转让与许可,显式与隐式权限,批准和禁止的用例
l审核权限:使用跟踪、观察、遵从性、合同后删除
l派生数据权利:修改、贡献和归属(例如,如果数据与其他数据集组合)、下游产品的所有权
l合规权利:对数据的责任、代表和保证,法律保护
复杂的数据合同非常仔细地描述了您可以用您许可的数据做什么和不能做什么,而且这些许可通常具有标价。
最近一个有趣的发展是,实物支付作为一种数据资产的补偿模式的出现。当(比如)OpenAI从一个新闻媒体组织授权内容时,他们提供的一部分是在聊天对话和链接放置中突出该组织的品牌。这有多种好处:媒体组织获得“人工智能有机”流量;LLM获得新的数据;双方都可以使用点击和参与数据来衡量内容的实际提升和价值;这是一个重复出现的组成部分。眯起眼睛,你甚至可以看到类似于谷歌对内容创造者的Adwords和SEO的组合拳。
少量的高质量(准确、真实)的数据是否优于大量的“足够好”的数据?对于人工智能的用例,答案越来越被否定。
我们在“数据的不合理有效性”和“规模就是你所需要的”等想法中看到了这一点。你向它们提供的训练数据越多。微调和领域特异性,特别是人类启发式,往往趋于稳定;这是许多研究人员努力学到的“痛苦的教训”。
(最近的一个很好的例子是GPT-4,一种使用更多标记的一次性模型训练,在几乎所有财务分析任务上的表现都优于blombergGPT。)
这里的一个结果是,斯特金定律——“90%的所有东西都是垃圾”——不再如此有力地支持数据。在过去,世界上绝大多数的数据集都没有持有任何洞察力,也没有催化任何行动,也没有任何价值。人工智能对各种训练数据的贪婪欲望意味着这种情况不再如此:即使是那些垃圾的东西也能帮助模型进化(可能不是很多,但不是零)。
那么,数量对人工智能来说是否明显超过了质量呢?这并不是那么简单,因为我们也关心边际影响和投资回报率。在大量的语料库上洒一点质量——例如,通过简单的去重复操作——会对模型性能产生显著影响。随着训练集的增大,这样做通常比获取下一个令牌更有效;超过某一点,数据质量比数据量作用更好.
这对数据定价的影响很简单。数量很重要,优质的数量甚至更好,而且没有上限。
人工智能用例的定价数据面临的最大挑战是,大部分训练价值来自历史语料库,这意味着从持续更新中获得经常性收入的机会有限。对OpenAI来说,Reddit十多年来的存档内容要比增加一天、一周或一个月的新内容要有趣得多.
当然,经常性收入是有效的长期数据定价和经济效益的秘密。当数据具有短保质期、定期更新节奏和可重复使用的组合时,它的工作效果最好。人工智能训练数据集通常没有这些属性.
有一些方法可以减轻这种情况。当然,你可以收取更高的价格,以弥补未来的付款;或者你也可以尝试对每个模型或每次训练运行收费。
这里的长期解决方案是构建一个数据飞轮——一个“永久数据机器”,它生成或捕获稳定的新数据流,或不断改进现有数据。这些飞轮可以基于用户行为(Reddit的帖子数据),或商业模式(纳斯达克的交换数据),或技术(谷歌的内容意图循环),或许多其他原型;关键是他们不断提供新的数据进行训练。
合成数据管道提供了一种方法,以产生无限数量的高质量、总是新的训练数据,其成本远低于“在野外”获取可比数据。(数量和成本效应均跨越数量级)。早期的迹象表明,在训练前沿模型中,构造良好的合成数据几乎和自然数据一样有效。这为无限期地引导数据曲线提供了一个诱人的前景:使用每一代的LLM来生成合成数据来训练下一代.
合成数据的可行性和数量高于质量的重要性都不利于现有数据资产的价格。专有的数据已经不像以前那样了!
(也就是说,纯粹的合成数据往往会随着时间的推移而下降,形成一种熵的漂移。随着LLM输出在网络上激增,在野外可能会出现类似的现象。这里最坏的情况是格雷沙姆效应,即坏的内容会驱逐好的内容。所有这些可能性都表明,可证明的人类专有数据毕竟有其地位。)
通常,ACV决定了销售周期。你的价格点决定了你的市场走势(企业销售、内部销售、自助服务等),因此,完成交易需要一段时间。对于数据销售也是如此,但还有一个相反的影响:销售周期决定了ACV。
这是为什么。在企业软件中,完成销售所花费的大部分时间都花在了武装你的拥护者,进行功能测试,获得不同利益相关者的支持,选择等级和协商价格,引导用户等等。这个过程很少能转化为数据销售(没有层次,没有功能,没有用户)。
相反,数据销售周期中的大部分时间都花在了开启、链接、抽样、测试和使用实际数据上。这是昂贵的;制造工程师并不便宜。买家花在数据集上花费的时间和资源越多,买家认为数据集有价值的信号就越强。
考虑到数据价值通常很不透明,这个信号是有意义的——尤其是当买家规模较大且经验复杂的时候。卖家意识到了这一点,并提高了价格.
这篇文章的大部分内容都是关于个人数据资产或交易的定价。但对数据所有者来说,了解市场的规模也很重要;毕竟,收入不仅仅是价格,而是价格乘以交易。最有利可图的数据资产通常是那些(相对)价格较低和交易基础大的数据资产。
什么决定了市场规模?易读性。
数据集越清晰,客观计算其投资回报率就越容易,其市场就越大。这表现为更多的客户,更多类型的客户,在给定的客户中有更多的使用,更高的价格和更低的获取成本.广告技术和金融是最赚钱的垂直数据行业,这并非巧合:这些行业也是最容易对数据库、数据集,有时甚至是个人数据记录赋予美元价值的行业。人工智能训练数据是否会达到相同的成熟度水平?我们会看到的!
所以你就有了:5000个+关于数据定价的词。我们已经介绍了用例和用户;质量和数量;内部和外部价值因素;定价轴和成熟度曲线;桌面赌注和使用权;和更多。如果我错过了什么,我很想在评论中听到你的意见。快乐的数据定价!