互联网法治 | 关于通用人工智能语料数据双层财产权益构造的思考

原创封瑜郑日中国审判

点击上方“中国审判”可以订阅哦！

文 | 北京互联网法院封瑜

中国政法大学数据法治研究院郑日

数据作为生产要素进入生产流通领域，引发了学界对其规制路径的探讨。目前，对于数据产权设立模式，学界将其类型化为以既有权利模式为核心的产权模式和以数据流通环节为核心的产权模式。但是，这两种模式在实践中仍存在一定的不足。随着通用人工智能的逐渐兴起，大量语料数据亟须得到有效保护。本文试以通用人工智能语料数据为切入点，在分析既有模式的基础上，反思数据产权的模式，并提出通用人工智能语料数据双层财产权益的构建新路径。

以既有权利模式为核心的产权模式构造

（一）完整数据财产权模式

完整数据财产权模式认为数据产权的核心在于赋予数据生产者完整的数据财产权，以传统财产权模式下确定权利相关权能作为框定数据生产者权利的界限，并以其他权利作为此数据财产权的限制。数据财产权的权能主要包括利用、收益、占有、使用等方面。该模式赋予数据生产者强保护模式，即“数据权是相关权能有机结合的支配权，即便他人从权利人处获得相对权或绝对权性质的内容限定的授权，数据权亦不会丧失。相反，数据权是期限过后，权利人从相对人处收回授权的依据”。

虽然该模式更契合既有权利体系对权利保护的架构，但如果将其运用于语料数据流通过程的保护将存在以下问题：其一，在制度层面，该模式与《中共中央、国务院关于构建数据基础制度更好发挥数据要素作用的意见》（以下统称“数据二十条”）中强调的注重数据“控制”而非“所有”的目标相背离，过分强调语料数据的“所有”将会阻碍其流通；其二，在利益衡量层面，该模式采取平面化静态确权方式，过于强化数据生产者的利益，并未考虑数据处于流通过程的本质，忽略了数据流通过程中其他主体的相关利益，一定程度上将阻碍数据流通；其三，在权利客体层面，该模式未对数据进行类型化，将数据一律界定为数据财产权的客体，一定程度上扩大了数据权客体的范围，造成“权利泛化”的现象。

（二）知识产权保护模式

知识产权保护模式区分数据类型，并对符合商业秘密要求的数据以该方式进行保护。在此基础上，部分学者认为应遵循知识产权的逻辑，为企业另外设立数据专有权以实现对企业数据额外的保护；还有部分学者认为应在公开数据的语境之内，区分数据集合和数据产品，对前者以邻接权的方式予以保护，后者则作为著作权的客体。

对于具有独创性的数据产品，通过知识产权的方式进行保护并未对既有知识产权体系造成冲击。只要数据产品满足知识产权客体的要求，则应当受到保护。然而，对于数据集合的保护难以通过单一形式达成，无论是设立数据专有权，还是通过邻接权的方式进行规制，都难免受到“保护创新的智力成果”的限制。数据集合源于大量数据的简单相加，其保护需求来源于处理者为形成数据集合所付出的相应劳动，而非激励创新。因此，理念上的不同使得二者不能在同一体系下相提并论。

（三）“所有权+用益权”模式

“所有权+用益权”模式借助权利分割理论，在赋予数据原发者所有权的同时，赋予数据处理者用益权。该模式肯定数据原发者对数据享有的利益，并以确权的方式充分保障数据原发者的利益。有学者在此种理论基础上继续对该种模式进行发展，即着眼于数据流通的各个环节，从“数据资源—数据集合—数据产品”这个链条出发，分别确定数据产权权利客体、主体及内容。

纵然该种模式综合考量了数据原发者利益及数据流通环节两个因素，但仍存在一定的不足。其一，从宏观角度而言，数据原发者所有权的实现存在困难。一旦将数据置入流通领域，当数据原发者为个人时，数据处理者对相关数据产生绝对控制并由此生成数据产品。即使此阶段损害了数据原发者利益，其只能要求损害赔偿。该法律关系构造与“责任规则”相同。其二，从具体制度角度出发，如果数据产品符合知识产权对其客体的要求，可以采用该方式对其进行保护。但是，以“所有权+用益权”模式作为保护手段，存在过度保护数据原发者利益的嫌疑。进一步而言，数据集合、数据资源相较于数据产品经济利益往往更弱，相关主体为此付出的劳动呈递减状态。因此，根据“举重以明轻”的解释方法，没有理由为其设定“所有权+用益权”的保护方式。

以数据流通环节为核心的产权模式构造

（一）标准化确权模式

标准化确权模式认为，确权应遵循“财产权标准化”的一般原理，并根据数据财产权利人与不同社会交往对象之间的社会关系熟悉度，分别构建相应标准化程度的数据财产权样态。该模式以人与人之间的关系为基础构建层级性的数据财产权，以“一般标准化”为衡量标准，并由此衍生出“强化标准化”与“弱化标准化”。这遵循了数据产权的一般思路，即上述模式均在保护数据来源者合法权益的基础上进行。

该模式以法律关系主体类型化为视角，将主体的权利进行划分，由于场景差异，同一数据主体对相同的数据会享有不同权利。该模式虽然采取了“确权”的定位，但数据主体对数据所享有的利益具有不确定性，与“界权”思路更为类似。界权遵循具体情况具体分析的方法，根据相关主体的利益衡量关系，确定其权利顺位。该模式虽然采取“标准化”的定位方式，但其实际上并未将标准具体化。如果依据这一思路，一方面，这与我国既存法律体系不具有兼容性；另一方面，该方案将赋予法官较大的自由裁量权。此外，该确权模式采取开放式的态度，这意味着如果出现一种利益主体，便产生一种“标准化”模式，权利体系具有不确定性。

（二）流通利用确权模式

数据流通利用确权模式，以数据“生产—流通”环节为切入点，根据各个环节的特点对数据权益进行分别确定。具体而言，数据生产者对数据享有一般性的控制权，当数据进入流通环节，其他人则根据授权或者其他方式取得数据的利用权。该模式明确了“数据二十条”所提出的数据资源持有权、数据加工使用权以及数据产品经营权背后蕴含的数据流通过程中的利益关系。强调确权的意义在于确定各种权益的属性及优先顺位，以便更好协调数据之上的利益关系。

但是，笔者认为，该模式忽略了数据产权的规范边界，即是否所有数据均不加区分地受该制度规制。从上文对该模式的总结可知，此确权方式是在保证数据流通利用基础上为相关主体赋予的“弱财产权”。这更契合单条数据或聚合数据的保护方式，但对于数据产品的保护程度明显较弱。在现有法律体系已对数据产品进行保护的情况下，数据产权无须再将其涵括至这一规范内。即使该方法可以调整数据产品语境下数据生产者和后续数据利用者的关系，此路径并不具有必要性。

通用人工智能语料数据的财产权构建

形成有效产权制度的核心是关注流通过程，辨别不同主体在相关数据之上的利益保护需求及其相互关系，并在此基础上确定体系化的权利架构。人工智能语料数据财产权构建亦应遵循这一思路。因此，人工智能语料数据财产权应根据流通过程区分数据类型，以寻求数据承载的相关主体的利益平衡。基于此，财产权构建的核心是要解决如下问题：

首先，解决数据类型的划分问题。对于数据类型化而言，目前的研究多以数据性质为区分标准，将数据区分为个人数据、企业数据及公共数据。由于个人数据、公共数据自身的特点，难以对其设立数据财产权，因此，企业数据成为保护重点。该数据种类多样，对其进行类型化十分必要。笔者将人工智能语料数据区分为原始语料数据与迭代语料数据，并根据其特点的不同分别进行分析。

其次，解决数据之上承载数据主体利益的衡量路径问题。上文提及的路径虽不尽相同，但主体利益衡量均遵循在保证数据来源者既定利益的前提下为数据处理者配置相关权利的思路。具体而言，人工智能语料数据财产权的构建应在遵循数据来源者经济利益的基础上保障数据处理者的控制、利用权。

针对上述问题，笔者认为，将数据区分为数据资源、数据集合和数据产品具有借鉴性。具体而言，数据资源是在数据收集过程中所聚合的数据，对应人工智能语料数据之下的原始语料数据。数据集合则是在数据加工利用过程中所产生的数据，对应的则为迭代语料数据。数据产品则是上述两个过程的最终阶段，是指已经脱离原始数据特定化的数据内容。人工智能语料数据财产权客体仅应包括数据资源和数据产品两类，不必将数据产品涵括其中。主要原因如下：首先，语料数据财产权的核心在于平衡数据来源者与利用者之间的利益。鉴于数据产品已经独立化，数据来源者对此不再享有相应经济利益。因此，对于数据产品保护的核心在于如何确保数据处理者的权利。这与数据产权的制度目标并不符合。其次，数据产品已有相应的保护方式，无须再借助数据财产权这一手段进行保护。数据产品已然满足知识产权对其客体的要求，即具有独创性，可将其作为知识产权的客体，纳入该体系进行保护。最后，数据权这一弱保护模式无法适用于数据产品的保护。数据权以数据处理者的控制与利用为核心。对数据产品而言，上述两项权能无法保护数据产品承载的全部利益，如果将数据产品强行纳入数据权的体系进行保护，一定程度上会造成体系性的矛盾。

语料数据财产权的核心在于平衡数据来源者与数据处理者的权益，只有辨析数据来源才能为有效纾解数据权属困境提供一把“金钥匙”。数据来源者的利益是确定数据处理者权益的基础，对数据来源者的保护也应根据其所提供数据类型的不同进行不同程度的保护。笔者认为，由于对单条数据来源者利益的保护极为有限，因此仅需保护其经济利益即可，无须过度考量其额外的权能。原因主要有两个方面：一方面，单条数据提供的数据具有一定的经济利益，不能将其全部忽视，应对该部分利益予以保护；另一方面，此数据内容极为有限，为单条数据赋予更高强度的保护非但不必要，还会增加数据财产权的行权成本。对聚合数据来源者而言，其所提供的数据本身可作为数据集合，这意味着该类主体本身便享有数据财产权能，应对其在线权能予以保护。从本质而言，数据来源者的经济利益是语料数据财产权的有机组成部分，并非外部限制。语料数据财产权更类似于准财产权，因为该权利在行使过程中仅能对抗在数据流通过程中特定的行为人，且仅在发生他人损害数据处理者控制权和利用权时才发挥作用。

综上所述，通用人工智能语料数据财产权的构建应以客体为标准，并对相关主体进行控制权和使用权的配置。通用人工智能语料数据可采取横向标准和纵向标准进行类型化。就前者而言，相关数据基于初始收集数据的性质被区分为单条数据和聚合数据。收集者对单条数据是否享有财产权应采取劳动赋权的标准，并在尊重来源者经济利益的基础上，赋予该主体完整的数据财产权。聚合数据来源者的既有权利具有延续性。因此，在尊重来源者既有权利的基础上，聚合数据来源者享有对数据的控制和利用权。就后者而言，相关数据基于生成数据流通过程被区分为原始语料数据和迭代语料数据。由于原始语料数据相关问题已在横向标准中予以明确，因此，纵向标准所解决的是通用人工智能权利主体之争，以及权利主体应对迭代语料数据享有完整数据财产权的问题。

本期封面及目录

<< 滑动查看下一张图片 >>

《中国审判》杂志2024年第2期

中国审判新闻半月刊·总第336期

（关注“中国审判”微信号，获取更多精彩资讯）

编辑/徐畅

继续滑动看下一个