倪子涵|三權分置路徑下生成式人工智能企業數據合規新解

2024年2月6日 20点热度 0人点赞

生成式人工智能的問世給企業數據合規事業帶來獨特挑戰,在知識產權、個人信息與隱私、侵權主體認定以及數據定價上均存在法律風險。《數據二十條》創新性地提出了建立數據三權分置路徑,對解決上述企業數據治理難題具有獨特的現實優勢,包括知識產權侵權的替代性救濟手段、協調個人與企業法律關系、以“權利義務對等原則”穿透侵權主體的面紗以及通過促進數據流通完善數據定價機制。對此,應當協調推進目前各項立法議程、加大區塊鏈等先進技術的應用力度,並推廣數據經紀人機制等手段,從而填補目前監管空缺,完善生成式人工智能企業數據合規路徑。

一、問題的提出

自2020年4月中共中央、國務院明確將數據列為生產要素以來,我國數據市場進一步蓬勃發展。IDC研究報告顯示,中國大數據市場總體IT投資規模將在2026年增至約364億美元,在4年時間裡實現市場規模翻倍。然而,現實中的數據合規工作仍然存在著不正當競爭、非法獲取、存儲或泄露用戶個人信息數據、泄露敏感數據等問題。在這樣的背景下,旨在完善數據合規制度,更好發揮數據要素作用的新政策應運而生。與此同時,以ChatGPT為代表的生成式人工智能技術受到社會各界關註,監管機構出臺了相應的管理辦法。

2022年12月19日,《中共中央國務院關於構建數據基礎制度更好發揮數據要素作用的意見》(簡稱《數據二十條》)正式發佈。《數據二十條》旨在從數據產權、流通交易、收益分配等方面建構數據基礎制度。該文件有兩大亮點:第一,開創性提出數據產權結構性分置制度。《數據二十條》明確提出要“建立保障權益、合規使用的數據產權制度”。其中最顯著的一環便是探索數據產權結構性分置制度。該文件將數據產權的類型明確劃分為“數據資源持有權”“數據加工使用權”和“數據產品經營權”。第二,《數據二十條》提出要建立公共數據、企業數據、個人數據分類分級確權授權制度。企業數據被定義為“各類市場主體在生產經營活動中采集加工的不涉及個人信息和公共利益的數據”。同時,該文件明確指出要針對企業數據探索授權使用新模式。此處所倡議的新模式,應當是指“通過數據交換的授權模式來促進不同企業主體間的數據交互,而不是指企業數據對外提供的商業交付授權模式”。

2023年7月出臺的《生成式人工智能服務管理暫行辦法》放棄了原征求意見稿中對生成式人工智能的明確定義,改以言明其監管范圍為“利用生成式人工智能技術向中華人民共和國境內公眾提供生成文本、圖片、音頻、視頻等內容的服務”(以下稱“生成式人工智能服務”)。因此,本文所探討的“生成式人工智能”主要指狹義上的以GPT為主的通過以“預訓練 微調”為特征的工作機制生成內容的人工智能工具。以ChatGPT為例,生成式人工智能依靠大型語言模型、新型人機交互接口以及打分模型等實現深度學習,按照用戶指令生成相應目標內容。實際上,生成式人工智能被認為將在未來經濟活動中發揮極其重要的作用,尤其是在藥物開發、材料科學、芯片設計等方面。然而生成式人工智能同時也蘊含著許多法律風險,如其在準備階段、運算階段以及生成階段中存在著巨大的數據安全風險、算法偏見風險等問題。

二、生成式人工智能帶來的企業數據合規挑戰

結合生成式AI的運行原理、應用功能來看,其對企業數據合規主要有知識產權侵權、個人信息與隱私泄露問題以及由數據定價困難而產生的數據壟斷、抑制企業創新等問題。

(一)知識產權侵權認定問題

生成式AI基於深度學習原理而運行,需要註入大量的數據並標記。就ChatGPT而言,模型依托海量數據庫信息而存在,其中包括提取大量用戶自行輸入的信息、商業開源軟件中大量的互聯網開源數據以及直接爬取自其他互聯網資源的數據。如此,人工智能生成物在被構思、設計、定型乃至於生成的過程中便可能涉及由其他知識產權人的權利標的,既可以是著作權、專利權、商標權所保護的作品、產品或商標,也可以是商業秘密。

有學者認為人工智能生成物不應當受著作權法及專利權法保護。理由包括“其乃完全由人工智能開發,缺少人類主體參與”,以及“其為應用某種算法和規則的結果,在本質上與人類創作不同”等。持肯定論者則從激勵理論出發,強調人工智能生成物的可專利性與可版權性實為確保人工智能投資者權益、促進創新所必不可少的保障措施。然而,不論人工智能生成物是否可以作為諸知識產權法律法規下的保護對象,知識產權侵權行為並不以被控侵權客體是否具有可版權性、可專利性為前提。我國專利法認定專利侵權行為須具備“產品受專利權保護”“侵權人以生產經營為目的”“侵權人未經專利權人許可”以及“侵權人實施了專利權人的專利”等要件。而著作權法總體上要求認定著作權侵權行為具備“未經權利人許可”“存在特定的侵權行為”“以營利為目的”等要件。故而,生成式AI所產生的人工智能生成物是否可受知識產權法保護並不妨礙知識產權侵權行為的認定。而在具體的侵權情形上,既可以是由於非法獲取(如商業秘密),也可以是非法使用、實施行為,目前已有相關爭議產生。

2023年6月13日,某作文公司在其多個社交平臺上發文,聲稱其長期合作夥伴學某網校在未經其授權的情況下爬取了某作文公司的數據,用來訓練其大模型產品,並於次日進一步公佈學某使用“爬蟲”技術的證據。學某網校則主張自身行為乃行使雙方此前合作協議下之約定。最終,某作文公司表示將采取司法救濟路徑解決糾紛,請求學某網校支付1元賠償金、公開道歉並刪除已爬取的數據。鑒於本案所涉當事人彼此之間所訂立的合作協議具體內容尚未完全向外界披露,故而直接針對本案進行準確的法律分析缺乏對事實的準確認定。然而即便如此,本案也已體現出以下值得關註之處。

首先,適用責任規則進行保護的傳統模式遭遇瓶頸。一方面,對侵權行為的證明存在困難。某作文公司方面認為學某網校方面違反合同約定緩存、存儲其數據庫中大量數據,並將其用於自身人工智能模型訓練的主張在現實中存在舉證困難。盡管某作文公司證明了學某網校調取數據量陡增,並且由於其爬取頻率極高、數量極大,而可較輕易地將其判定為爬取行為,但是要證明學某網校將其數據用於自身大模型的訓練存在困難。未來學某網校公司所正式推出的生成式人工智能模型可以在爬取數據的基礎上生成新的作品,而要證明新作品乃主要依賴於舊作品所產生在技術上有一定可能存在著證明難題——生成式AI的可解釋性困境導致人類主體可能無法完全理解生成式AI具體的運行過程。這也是現實中大量企業所將要面臨的難題。另一方面,舉證責任的分配也存在一定的困難。對於原告筆神公司而言,已然存在如上所述的達到證明標準之困境。拋去可解釋性困境不談,從公平角度出發,此類案件在表面上看來由被告企業承擔舉證責任更符合現實。盡管我國已經針對個人信息權益正式立法引入過錯推定原則,要求信息處理者承擔證明自己沒有過錯的責任,否則應當承擔損害賠償等侵權責任,然而針對企業數據權益的立法安排卻長期沒有達成共識。倘若依民法典進行處理,其中依據過錯推定原則進行舉證責任的分配須有法律的明確規定。這也就是說,在缺乏特別立法以及民法對企業數據侵權舉證責任的特殊規定的情況下,人民法院應當適用過錯責任原則,由原告承擔舉證責任。實際上,與個人信息保護相比,企業與企業之間有關企業數據權益的糾紛實際上並不存在個人信息處理者和自然人之間地位不平等這一重要事實。故而實行舉證責任倒置在正當性上也有所欠缺。

其次,生成式AI時代下企業數據的多樣性給知識產權利益保護帶來了新困境。本案中,某作文公司旗下有大量成稿作文以及作文模板。然而如果生成式AI所涉知識產權案件中的原告本身對其中一部分並不享有著作權,甚至也是以非法手段獲取了其中一部分的數據,那麼法院在確定數據歸屬、認定損害賠償數額上便遭遇到巨大的技術難題。現實中,此類現象已經層出不窮。美國華盛頓郵報與艾倫人工智能研究所的共同報告發現,谷歌C4數據庫中b-ok.org等盜版書網站赫然在列。此外,企業數據與公共數據、個人數據之間本身便存在相互流動。以ChatGPT為例,其開發者OpenAI在其用戶協議中明確指出,開發者有權利用用戶輸入的內容,以維持其服務。對於個人而言,其構思為企業所掌握、成為其數據庫的一部分並為其所用牟取經濟利益,而自己卻無法獲得該項智力活動的經濟成果,難免是不公平的。而倘若開發者在用戶協議中根本沒有設置其有權利用用戶輸入內容的條款,卻在運行中使用用戶智力成果進行構思,則有知識產權侵權之風險。

(二)個人信息與隱私泄露問題

《生成式人工智能服務管理暫行辦法》第9條明確規定生成式人工智能產品服務提供者對涉及個人信息的事項承擔個人信息處理者的法定責任。而第7條則強調在訓練數據處理活動中使用個人信息須征得個人信息主體同意或符合法律、行政法規規定的其他情形。生成式AI在收集、使用數據的過程中均可能涉及違法。生成式AI可通過用戶輸入內容,亦可通過爬取互聯網公開數據的方式獲得數據,或通過違法手段獲得受技術措施加密的個人隱私。後者的情形顯然構成對個人信息保護法的違反。但對於前兩者,個人信息保護法第27條似乎在形式上認可其合法性。然而,該法條規定“個人明確拒絕的除外”,且“對個人權益有重大影響的,應當依照本法規定取得個人同意”。

首先,第27條第1分句屬於包含了例外情形的默認規則。由於該法條下所述公開的個人信息能夠為不特定的第三人所訪問,故而在合理范圍內處理個人信息原則上不需要告知信息主體並取得其同意。但根據該條規定,個人信息主體有權以明確拒絕的形式排除對其所公開的個人信息數據的使用。然而現實中個人如何行使明確拒絕的權利卻在生成式AI時代中遭遇困境。從實際角度來看,個人既不可能選擇將其所有個人信息均不予公開,也不可能事無巨細為每一條公開的個人信息數據設置詳細的可用范圍,以向企業明示權限范圍。而更為重要的是生成式AI使用數據的方式具有一定的隱蔽性,其所爬取的個人信息在被使用之後所貢獻生成的內容並不必然可由外界輕易預測。設想,某一個人信息主體在其公開的微博相冊上上傳與自己伴侶出遊時所拍照片,且該主體並不希望自己的照片為他人所獲取以作廣告宣傳之用。然而可能存在某一特定模型在爬取包括前述照片的互聯網開源數據時識別出用戶的要求並不屬於“廣告宣傳用途”而直接使用原照片的情形。在此情形下,原用戶未必樂意見得本人與伴侶的合照為他人所用,但也不可能選擇將所有的照片設置為不公開——如此,將照片上傳至社交平臺反而失去了社交價值。透過此設想的情形可知,公開的個人信息在生成式AI面前所受的法律保護仍然是存在漏洞的。

其次,該法條的第2分句也對企業可使用的公開的個人信息范圍加以約束。從權利保護的角度而言,“對個人權益有重大影響”的情形宜得到較為寬泛的解釋,具體可參考個人信息保護法第55條下之情形。然而依據該條來看,“委托處理個人信息、向其他個人信息處理者提供個人信息、公開個人信息”將屬於對個人權益有重大影響。如此,自然人、法人或其他組織在使用人工智能模型的過程中輸入他人個人信息時需事先得到個人信息主體的同意。

綜上,生成式人工智能的出現使目前以“知情—同意”為特征的個人信息數據保護模式遭受著嚴峻考驗。生成式人工智能在創造巨大經濟價值的同時,也面臨著原數據法體系下涉及個人信息的嚴格合規義務。在數字經濟繁榮的今天,互聯網企業的成功經驗,甚至基本運營都仰賴個人信息數據的自由流動。實際上,“任何法律制度中都從不存在一種寬泛的‘拒絕數字化權’”。生成式AI被認為是“中國經濟的新動能”。倘若采納過於嚴苛的知情同意機制,將導致個人信息的公共屬性被忽略,進而阻礙數字經濟的發展。此,原數據法體系下堅持便缺乏必要性。此外,隨著數據庫的擴張以及算法的改進,數據聚合效應日益顯著。即使個人信息主體從未提供或分享過個人數據,大數據也可以通過算法來整合不同數據庫中的數據。多條類似的信息發生聚合和深度處理後,可能其識別性特征會發生改變,從而引發個人信息權益侵害風險。換言之,不管個人信息主體同意與否,由個人對全部或部分數據享有完全的支配權在現實中也並不存在技術上的可行性。最後,即使企業取得了用戶在其初次使用其個人信息數據時的許可,其在人工智能模型再訓練階段再次使用原數據應當再次告知用戶並取得同意。顯然,前一次知情同意的范圍不應當被延伸到後續的再訓練之中,因為二者的應用場景和使用目的並不相同。

(三)數據侵權的責任主體認定困境

生成式AI運行全過程中有多方主體參與,包括算法開發者(其中又包括編程人員、開發人員以及訓練人員)、服務使用者等,各方參與者均有可能被認定為侵權人。甚至有學者基於對人工智能法律人格的承認,認為其本身可承擔一定法律責任。但不論是否承認人工智能法律人格地位,學術界也認為在某些情形下應當保留由自然人、法人等傳統責任主體承擔法律責任的可能性。然而,在現有法律體系下準確認定使用生成式AI數據侵權相關責任承擔主體存在一定困難。

生成式AI不僅由算法驅動,有時更有用戶主動輸入數據之情形。有學者指出在簡單的指令輸入輸出型生成式AI場景下,原則上應追究指令輸入人(即服務使用者)的責任,而在自主生成式AI場景下原則上應當追究開發者的責任。然而從傳統侵權法角度來看,對生成式人工智能服務提供者施加傳統意義上的註意義務要求不論是在技術上還是法理上都面臨著現實挑戰。就技術而言,生成式AI囿於算法黑箱問題,無法由開發者事前保障完全切斷侵權行為發生的可能性。而從法理上來看,不論是將生成式人工智能服務提供者納入網絡內容服務提供者,抑或搜索鏈接服務提供者均存在形式與實質上的矛盾與沖突。因此,傳統侵權法在生成式人工智能的語境下存在一定的適用困境。

盡管如此,現實中也存在著生成式人工智能服務提供者與用戶之間直接約定責任的做法。以ChatGPT的母公司OpenAI為例,其明確指出用戶在遵守使用協議的前提下,OpenAI公司向其轉讓輸出內容的所有權利,而用戶本人對內容負責。實際上,在使用協議中約定由用戶承擔責任已然成為普遍做法。然而,此類做法在形式和實質上屬於民法典第496條下的“格式條款”。若提供格式條款一方不合理地免除或減輕其責任、加重對方責任、限制對方主要權利的,則該格式條款無效。因此,即使服務提供者與用戶彼此之間已經訂立由用戶承擔責任的使用協議,該協議中的格式條款也有可能因違反公平原則而無效,從而導致重新陷入確定責任主體的困境中。

(四)數據定價困境

盡管生成式AI需要海量數據的輸入,但現實中並沒有針對人工智能需要的數據建立專門要素市場和定價模式。縱使生成式人工智能服務提供者合規運營,以合法手段獲取各項數據,其在現實中仍然面臨著“買數據難”的困境。根據市場實證研究,由於產權界定不清晰、交易機制仍不完善、數據安全擔憂等因素,大多數數據交易平臺的年實際交易量偏低,從而“致使通過公開競價手段形成市場公允價格的定價機制難以充分發揮信息披露、供需調節等功能”。換言之,目前數據交易市場的不完善導致定價與市場實際規律偏離程度較大。有學者認為,究其根本這是數據權屬不清所導致的。將科斯定理的規律反映到數字經濟中,可知清晰的(數據)產權是數據流通交易的前提。沒有清楚的數據產權界定,就不存在有效的數據市場。而在生成式人工智能的情景裡,訓練數據的質量直接決定了生成內容的質量。要為數據準確定價,還要考慮到數據的場景化應用(比如說,在某一特定領域中的應用)、投資風險等因素。這一切都隨著生成式人工智能技術應用日趨多樣化而愈發復雜。

從數據定價存在缺陷的潛在後果來看,具體可分為數據定價畸高所導致的數據壟斷問題和數據定價過低所導致的市場失靈問題。在前一語境中,數據定價畸高顯然會將資金不足的生成式人工智能服務提供者排除出市場競爭,而由少數實力雄厚的科技企業獨享高質量數據資源。在生成式人工智能獨特的機器學習機制下,這使得占據該類優勢的企業更有可能進入“獲得用戶—獲得數據—提升模型—再獲得用戶”的正循環,從而形成數據壟斷和基於數據的壟斷。最終,生成式人工智能市場的多樣性將被削弱,從而導致競爭法視域下的創新遭到破壞。倘若數據定價過低,則從市場角度而言不利於上遊企業形成改善訓練數據質量的動力,從而在整體上導致生成式人工智能生成內容質量下降。

二、三權分置路徑的突破與優勢

《數據二十條》中所提到的三權分置路徑在理論上既有縱向發展上的突破,也有橫向比較上的進步意義。作為我國構建數據基礎制度中的關鍵一環,《數據二十條》在生成式人工智能時代下展現出極強的靈活性,大大緩解了企業數據合規工作的許多難題。首先,該部分將從理論層面檢驗三權分置路徑所實現的突破。隨後,本文在證成理論突破的基礎上論證該路徑對於企業數據合規的現實意義。

(一)三權分置路徑的理論突破

1.數據資源持有權

數據資源持有權是三權分置方案的基礎。倘若持有問題無法得到解決,則對數據進行加工使用或經營數據產品將如無根之萍。

首先,數據資源持有者權的權利主體應當是僅限於數據處理者。這是因為該文件明確指出要“合理保護數據處理者對依法依規持有的數據進行自主管控的權益”。從占有理論來看,這是對數據持有者在合法收集數據後所取得的事實上的控制地位的肯定。在數據的“生產—流通”框架下,數據資源持有權可被定義為生產環節下數據控制者對其數據進行自主控制而不受非法幹涉和破壞的權益,屬於數據控制權的持有權能。綜上可知,在本文語境下,企業對其合法取得的數據享有進行自主控制而不受非法幹涉的破壞的權利。值得註意的是,數據資源持有權實現了對數據所有權理論的突破。我國民法下所有權具備支配性、排他性等特征。數據在經濟活動中經由多個主體進行生產、加工,內容經歷多次變更,且由於其無形性、可復制性的特征而可由多個主體同時占有。從這一點來說,數據所有權的確立面臨著傳統民法的解釋困境。相反,采取數據資源持有權的確權路徑是“劃分不斷流轉的數據權益的有效方式”。

其次,該項權利所指向的客體有嚴格要求。產權指向的客體隻能是財產,而個人信息在我國法律下不能被認定為財產。個人信息保護法規定,任何組織、個人不得非法收集、使用、加工、傳輸他人個人信息,也不得非法買賣、提供或公開他人個人信息。這實際上阻斷了企業對他人個人信息隨意處置的道路。從這一點來看,數據資源持有權與個人信息權益實現了和諧共生。采納數據所有權的賦權路徑將導致企業對其所控制的數據享有所有權下極強的控制力,從而導致個人信息權益為企業數據所有權所吞噬。這與個人信息保護法的精神相違背。

最後,數據資源持有權為企業設置數據爬取黑名單提供了權利基礎。司法實踐中,反不正當競爭法框架下判斷數據爬取行為的正當性判斷標準是“實質性替代標準”,具有一定的模糊性,給法官對具體個案的裁判帶來了很大的困難。在這樣的情況下,持有數據資源的企業在不確定性下設置黑名單禁止特定企業爬取其平臺數據,有可能會承擔反不正當競爭法下的法律責任。以財產規則取代反不正當競爭規則,有利於增強企業自主管控其數據的能力,減輕其對數據管理的憂慮。同時,這並不必然阻礙數據流通。倘若設置黑名單的行為構成權利濫用,則有關主體可以尋求行政或司法救濟途徑請求企業開放數據。

2.數據加工使用權

數據加工使用權,顧名思義,不包含對數據的處分權能。在《數據二十條》中,該項產權被表述為“在保護公共利益、數據安全、數據來源者合法權益的前提下,承認和保護依照法律規定或合同約定獲取的數據加工使用權,尊重數據采集、加工等數據處理者的勞動和其他要素貢獻,充分保障數據處理者使用數據和獲得收益的權利”。可見,該項權利主要牽涉數據生產環節。該條揭示了數據加工使用權的如下含義:

(1)行使數據加工使用權以保護公共利益、數據安全、數據來源者合法權益為基礎。該項要求體現了權利與義務相統一的原則。企業行使數據加工使用權應當遵循網絡安全法、數據安全法、個人信息保護法等相關法律法規,有效地維護各方權益以及公共利益。

(2)數據加工使用權可源於法律規定,抑或合同約定。從權利來源來看,現實中企業常常以“知情—同意”模式取得對數據的加工使用許可。然而在爬取大量公開在互聯網上的數據的情形中,企業對這些數據的加工、使用行為常遭詬病。微博訴脈脈一案中,北京高級法院確認了“用戶授權 平臺授權 用戶授權”的三重授權原則,對數據采集者提出了較為嚴格的合規要求。不論是上文所設想案例中個人信息的問題,還是實踐中對商業數據的侵犯,盡管企業在進行數據爬取時與數據來源者之間缺乏明確的合同約定,其仍承擔著一定的義務,如個人信息保護義務、反不正當競爭義務等。但在實踐中卻缺乏明確的權利保障。此項規定為企業合規進行數據加工使用活動提供了法律保障。

3.數據產品經營權

此項權利在《數據二十條》中被表述為“經加工、分析等形成數據或數據衍生產品的經營權”以及“數據處理者許可他人使用數據或數據衍生產品的權利”。顯然,該項權利主要數據的經營環節中,是數據利用權在這一環節的具體體現,與數據加工使用權同屬數據權利中的積極權利。現實生活中,企業對經自身加工、分析的數據或數據衍生產品享有一定的權益已然是學界共識。從勞動理論與激勵理論來看,如此安排有利於企業積極利用數據,通過數據創造出新的經濟價值。而數據產品經營權以法律形式確認該項權益,正是在法律層面上確認、支持數據產品經營者經營獲利的權利。

此外,設置數據產品經營者權為數據交易所發展提供了新思路。此前,各地數據交易所對交易標的的界定並不清晰。上海將交易標的定為“通過實質性加工和創新性勞動形成的數據產品和服務”,而深圳則是稱為“合法處理數據形成的數據產品和服務”。部分地區采取較為廣義的標準,直接將交易標的定為“數據”,並且符合一定的標準(如“經過處理無法識別特定個人且不能復原的,或經過特定數據提供者明確授權”)。出現該類現象的根本原因是數據很難成為一種“標準化的交易標的”。設置數據產權,有利於各地數據交易所轉變思路。比如,將數據產品經營者權作為交易標的。如此安排,一方面有利於跳出交易標的究竟為“原始數據”“數據產品”還是“數據服務”的概念困境,從而直接根據買方的經營場景進行定價。這有利於在促進數據流通的場景下打通企業之間的數據流通,以市場邏輯取代架構邏輯,從而緩解數據定價困難問題。另一方面,以數據產品經營者權為交易標的有利於設置買方準入資格。相較產品而言,民法上的經營權常常伴有對資格的審查要求。如農村土地承包經營權便被明確限定為由農民集體使用。因此,“數據產品經營權”交易比“數據產品”交易更加與實務中數據合規流通的現實更加契合。

(二)生成式人工智能時代三權分置路徑的現實優勢

1.提供知識產權侵權替代性救濟手段

對生成式人工智能服務提供者企業而言,知識產權侵權的風險無處不在。推進數據確權,有利於確保企業對其合法處理加工後的數據產品享有知識產權。這是因為設置數據產權,實質上確認數據乃財產,有助於其正式落入民法典第123條下所指知識產權客體范圍。針對來源清晰可溯的數據,下遊企業可以依法或根據合同對上遊企業的數據進行加工使用。承認“加工”“使用”的事實,這無疑能夠公開肯定數據處理者的智力成果,從而符合知識產權法的立法精神。而數據產品經營權則在事實上發揮了知識產權中使用、收益的作用。鑒於目前數據資源以及數據產品能否適用知識產權法加以規制、如何規制的問題遲遲得不到解決,數據三權分置的路徑不失為替代性救濟路徑。此外,以財產規則取代責任規則,亦有利於上下遊企業多元化其權利救濟手段,而不僅僅是局限於反不正當競爭法等規則下的救濟手段。況且反不正當競爭方式是一種事後的侵權救濟路徑,相比財產規則是消極的救濟手段,不具有預防作用,且對“合法”與“非法”的界限留有較大的模糊空間。

2.協調個人與企業之間的法律關系,降低個人信息侵權風險

在三權分置路徑下,數據資源持有者權肯定了企業對數據的事實占有狀態,並突破傳統民法理論賦予其產權地位。企業對數據產品的貢獻得到充分肯定,具體體現在通過設立數據資源持有權以劃定用戶與企業之間對數據控制力度的邊界,從而起到定紛止爭的作用。同時,這也有利於讓企業在合法前提下,安心使用數據,不必過度擔憂後期飽受上遊數據來源主體牽制,從而積極行使數據加工使用權,創造利潤。從側面來看,《數據二十條》中指出要保障數據來源者的自主權與收益權,一方面鼓勵廣大個人信息主體開放更多的個人數據,“投喂”生成式人工智能,而企業則以高質量生成內容“反哺”用戶,從而實現數據來源者與數據處理者的雙贏。另一方面,個人信息主體對其數據的流向有著清晰追蹤和一定的決定權,這也有利於用戶在損害事實的發生或擴大之前知曉相關事宜,並行使相關權利要求企業采取措施避免損害事實的發生或擴大。如此,企業可以避免或降低由於侵權所造成的賠償損失等法律責任。

3.權利義務對等揭開“生成式人工智能侵權主體面紗”

權利義務對等原則要求法律主體所享有的權利與其所承擔的義務大致相當。在此原則的指導下,各國公司法借鑒“揭開公司面紗原則”,紛紛建立起法人人格否認制度。在確定人工智能生成物專利權權利人的問題上,亦有學者參照“揭開公司面紗原則”思考真正權利人的問題。在完成生成式人工智能各階段的數據確權工作後,真正的責任主體便可露出真面目。生成式人工智能服務提供者往往是在合同許可下行使了數據加工使用權。而用戶往往是行使了數據資源持有權和數據產品經營權。服務提供者享有數據加工使用權,故亦應當對此承擔合理加工使用的義務。用戶則相應地承擔合法取得數據資源、合法經營數據產品的義務。故倘若用戶取得數據,而服務提供者對此並不知情,則最後的侵權責任應當由用戶而非服務提供者承擔。若服務提供者泄露加工使用後的數據產品,則應當被視為濫用數據加工使用權,故應當承擔相應責任。在確定適用“揭開生成式人工智能侵權主體面紗原則後”,監管部門便可根據實際情況迅速確立起一系列靈活、可行、公平的歸責規則。數據確權路徑為適用權利義務對等原則提供了現實基礎。

4.有利於完善數據要素市場的構建

當個人、企業在數據確權的保障和激勵下更加傾向於共享其數據以獲得經濟利益時,市場上的數據流通量便得以擴大。此時數據質量自然將伴隨著各類市場主體對財富的期盼而得到改善。鑒於數據要素市場的建設可由數據要素的資源化、資產化和資本化進一步推動,以三權分置為特征的數據確權路徑為數據資產化進一步掃清障礙。目前,我國數據交易多以數據本身為交易標的。然而,以數據本身為交易標的不利於厘清其具體價值。以權利為交易標的,更能夠適應不同使用場景下數據價值多變的現實情況。在三權分置路徑下,可針對不同的數據類型建立以權利為標的的交易模式。比如,針對原始數據和其經加工後所形成的數據產品以數據資源持有權作為交易標的。針對純粹的數據轉手交易情形,如數據經紀人業務,則可適用以數據產品經營權為標的的交易模式。如此,在數據資產化加持之下,數據要素市場便可得到進一步完善,從而使得數據流通量增大且有利於數據精準定價。同時,此種情形下高質量數據價格畸高以及數據壟斷的現象將在一定程度上得以遏制。事實上,還可以在數據確權的前提下借鑒標準必要專利許可下的“公平、合理、非歧視”原則,制止大企業濫用數據產權的行為,從而“平衡數據財產權保護和數據充分利用兩種價值”。如此,在數據加速流通利用、禁止權利濫用的背景下,數據要素市場得以持續完善。這對依賴海量高質量數據輸入的生成式人工智能而言,無疑是福音。尤其是對該領域的中小企業而言,完善的數據市場是保障其在成長階段總體維持“投入—產出”平衡的關鍵。

四、完善生成式人工智能企業數據合規的建議

(一)統籌推進人工智能法與數據產權立法

目前,我國尚無一部全面的人工智能法,唯有2023年7月出臺的《生成式人工智能服務管理暫行辦法》暫時就特定對象發揮監管作用。目前歐盟已形成人工智能法草案,並經歐洲議會表決通過,現已正式進入歐洲議會、歐盟委員會以及成員國代表的三邊會談階段。國務院業已發佈2023年度立法工作計劃,其中提到預備提請全國人大常委會審議人工智能法草案。另一方面,數據三權分置目前暫時隻停留在政策層面,尚未在立法文件中得到具體體現。我國應當充分發揮後發優勢,針對人工智能與數據領域的最新進展以及聯動進行精準立法、綜合立法,從而保證立法可以適應未來社會發展。要做到生成式AI企業數據合規有法可依,這是完善企業數據合規工作的規則前提。

另一方面,應當協調推進數據產權結構性分置與其他數據產權相關制度。深圳市已於2022年上線“數據知識產權登記系統”。截至2023年4月,已經頒發36份登記證書。以登記模式保護數據知識產權的做法也為浙江、江蘇等地引進。然而這樣的創新性舉措在缺乏數據產權存在的前提下不僅缺乏上位法依據,甚至違反了著作權法等現行法律的規定。同時,如何明確數據三權與知識產權之間潛在的競合關系也值得進一步的學術研究和實踐探索。可見,不僅中央立法彼此之間需要協調,中央與地方之間也需要協調數據立法議程。

(二)推動實現數據精準確權、追蹤及高效管理

《數據二十條》指出要充分保護數據來源者合法權益,強調推動基於知情同意的數據流通使用模式,保障其享有獲取或復制轉移由其促成產生數據的權益。過去囿於數據活動的復雜性,(在未經同意采集的情況下)個人甚至未必能夠知道個人數據的存在,更不用說去占有自己的個人數據。而企業在大量的用戶提交的網頁數據、平臺生成的個人數據以及機器生成的非個人數據面前也難以清楚界定權屬關系。故而,以財產規則下的數據確權沒有實際意義。然而,區塊鏈、物聯網技術的快速發展逐漸使個人高效控制自身數據成為可能,不論一級市場抑或二級市場均有技術上的可行性。進一步完善技術基礎設施的搭建,有利於激勵更多的人積極參與到數據分享中,為人工智能領域提供豐富的數據資源。

(三)建立符合市場需求的數據經紀機制

如前文所述,要求個人數據主體對其個人信息數據事無巨細地行使管理權限是不現實的。在現實商業實踐中,可以由個體統一授權商業實體托管使用,由其再與企業訂立使用協議。如此,個人維護其數據的工作便可轉托第三方。實際上,“北京數據二十條”已經提出該項措施。實踐中的商業模式還可以根據用戶個人需求進行個性化定制,靈活打造個人數據賬戶。如此,便可在個人信息使用許可上引入類似於專利法領域的“開放許可制度”。此外,需要註意的是應當針對此類托管機構出臺專門的監管措施。

結論

生成式人工智能時代的到來對企業數據合規治理工作帶來了諸多挑戰。從其運行原理來看,生成式人工智能服務提供者極有可能侵犯他人知識產權,然而在司法實踐中適用責任模式的可行性存在問題,且企業數據的多樣性亦構成主張知識產權的障礙之一。其次,個人信息與隱私泄露問題也在生成式人工智能時代下被放大,且在實際生活中難以尋求有效的解決措施。此外,參與主體的復雜性以及服務條款的爭議性使得相關侵權案件中對責任主體的精準認定不易實現。最後,從數據經濟的角度來看,生成式人工智能時代下數據的合理定價亦為現行法律制度下所急需解決的問題。

對此,《數據二十條》所揭示的三權分置路徑在現實中具備獨特的優勢。針對以上風險,三權分置路徑分別呈現出提供替代性救濟手段、協調個人與企業之間的法律關系、引入“權利義務對等原則”以及保障數據合理定價,促進反壟斷機制發展的制度優勢。在未來的數據法治建設工作中,立法機構與監管機構應當在統籌推進《人工智能法》與數據產權立法的基礎上推動實現數據精準確權、追蹤及高效管理,並建立數據經紀機制以實現數據經濟在法治的軌道上平穩發展。