返回
頂部
我們已發(fā)送驗證鏈接到您的郵箱,請查收并驗證
沒(méi)收到驗證郵件?請確認郵箱是否正確或 重新發(fā)送郵件
確定

專(zhuān)利關(guān)聯(lián)度模型及應用

專(zhuān)利
小知2024-06-07
專(zhuān)利關(guān)聯(lián)度模型及應用

#本文僅代表作者觀(guān)點(diǎn),不代表IPRdaily立場(chǎng),未經(jīng)作者許可,禁止轉載#


“基于專(zhuān)利關(guān)聯(lián)度分析的專(zhuān)利地圖有其特定價(jià)值,專(zhuān)利分析不是固定的模板,不是固定的標準,通過(guò)方法改進(jìn)結論是一個(gè)有趣的過(guò)程?!?br/>


來(lái)源:IPRdaily中文網(wǎng)(iprdaily.cn)

作者:閆文龍

段曉玲 蘇州京昀知識產(chǎn)權代理事務(wù)所


專(zhuān)利關(guān)聯(lián)度模型及應用


PART 01
背景


“專(zhuān)利地圖”是將多件專(zhuān)利投射到二維空間的形象名稱(chēng),每件專(zhuān)利在二維空間的絕對坐標可以不具有實(shí)際含義,但彼此之間的位置關(guān)系應該與專(zhuān)利之間的關(guān)系特征存在關(guān)聯(lián)。因此作者認為按照一維方向展開(kāi)的柱狀圖、二維方向展開(kāi)的氣泡圖、以及具有時(shí)間序列屬性的趨勢圖,甚至將地區申請量投射到世界地圖的地區熱力圖不符合上述“專(zhuān)利地圖”的定義。

目前為止,專(zhuān)利與二維空間的映射主要基于專(zhuān)利之間的關(guān)聯(lián)度信息創(chuàng )建,專(zhuān)利之間的距離是專(zhuān)利之間關(guān)聯(lián)度的函數。專(zhuān)利在二維空間中形成具有不同密度的區域分布,一個(gè)區域內的專(zhuān)利可以具有相同的技術(shù)主題,不同區域的專(zhuān)利密度表征技術(shù)熱度。技術(shù)主題可以通過(guò)人工概括或利用算法抽取的方式得到。


基于專(zhuān)利關(guān)聯(lián)度的專(zhuān)利地圖相對于傳統的柱狀圖實(shí)現存在如下挑戰:


a.實(shí)現更復雜。

b.通常需要對原始數據進(jìn)行預處理,實(shí)現過(guò)程中還需根據技術(shù)領(lǐng)域進(jìn)行人工干預。

c.需要熟悉數據挖掘技術(shù)和工具。

d.了解專(zhuān)利數據與科技文獻、文學(xué)作品之間的差異,及其對數據挖掘技術(shù)造成的影響。

盡管如此,基于專(zhuān)利關(guān)聯(lián)度的專(zhuān)利地圖仍具有其他分析方法所無(wú)法比擬的優(yōu)勢:

a.從多維度展現專(zhuān)利之間的關(guān)系。

基于柱狀圖的分析需要對專(zhuān)利進(jìn)行一維歸類(lèi),本質(zhì)相當于將每個(gè)專(zhuān)利放入對應的封閉抽屜,一旦放入就再無(wú)法體現抽屜之間的關(guān)聯(lián)。

例如柱狀圖中橫坐標軸可以采用技術(shù)環(huán)節分類(lèi)展開(kāi),如器件類(lèi),量測標定,軟件算法,驅動(dòng)電路等,不同的分類(lèi)之間的關(guān)聯(lián)被完全忽略。而在產(chǎn)品研發(fā)過(guò)程中,針對同一問(wèn)題會(huì )有多個(gè)環(huán)節的部門(mén)共同參與討論,確認問(wèn)題可能的原因有哪些,通常情況下,問(wèn)題可能是多個(gè)環(huán)節共同作用的結果,例如需要器件方面、量測標定方面、軟件算法方面、驅動(dòng)電路方面分別做出各自的改進(jìn),才能使得問(wèn)題得到徹底解決。相應輸出的專(zhuān)利中,同一個(gè)技術(shù)問(wèn)題往往具有不同技術(shù)環(huán)節的專(zhuān)利方案。這類(lèi)相關(guān)性信息無(wú)法通過(guò)柱狀圖體現。

當然二維氣泡圖可以實(shí)現兩個(gè)維度(如技術(shù)環(huán)節和技術(shù)問(wèn)題)交叉點(diǎn)上的專(zhuān)利數量統計,但無(wú)法進(jìn)一步展開(kāi)交叉點(diǎn)氣泡內的專(zhuān)利之間的關(guān)聯(lián)度和差異大小,因此其結果仍然是相對粗糙的。

b.作為統計圖表和專(zhuān)利全文展示之間的過(guò)渡

目前我們所熟知的專(zhuān)利分析框架中,第一部分是專(zhuān)利宏觀(guān)分析,包含趨勢、技術(shù)、主體類(lèi)的分析,分析類(lèi)型包括時(shí)間序列分析(如申請趨勢)、類(lèi)別比較分析(如技術(shù)分布柱狀圖/雷達圖/餅狀圖、專(zhuān)利申請主體和發(fā)明人主體柱狀圖)、地理空間分析(如世界各區域專(zhuān)利申請熱力圖、同一國家內各區域申請熱力圖)、層次關(guān)系分析(如技術(shù)分類(lèi)魚(yú)骨圖/樹(shù)狀圖/旭日圖)。這部分的特點(diǎn)是“宏觀(guān)”,如果宏觀(guān)結論是已知的,又或者宏觀(guān)結論受外在環(huán)境影響而與實(shí)際產(chǎn)業(yè)發(fā)展情況不符,都會(huì )影響其實(shí)際價(jià)值,但這一部分在數據處理和標引所投入的時(shí)間和人力成本往往是最大的,為此需要進(jìn)一步挖掘宏觀(guān)分析輸出數據的利用價(jià)值。

第二部分是微觀(guān)分析,涉及選取至少一個(gè)子主題、篩選業(yè)界關(guān)鍵/基礎專(zhuān)利或使用對象更關(guān)注的專(zhuān)利作為數據集,進(jìn)行第二輪精細閱讀和分析。微觀(guān)分析是聚焦思想、和分階段項目推進(jìn)理念的體現,也是有限時(shí)間預算內輸出可用結論的現實(shí)選擇。這一部分的輸出盡管有技術(shù)路線(xiàn)圖等圖表的輔助,但最終仍然無(wú)法省略對專(zhuān)利全文或部分實(shí)現細節的展示。實(shí)際上,微觀(guān)分析目前證明切實(shí)有用的部分仍然是“展示全文”。

由此可見(jiàn),宏觀(guān)分析和微觀(guān)分析在分析方法、結論、和展現形式方面存在巨大的差別,二者能夠被讀懂的對象群體完全不同,前者偏向技術(shù)管理人員,后者傾向技術(shù)實(shí)現人員。產(chǎn)品的成功離不開(kāi)管理和實(shí)現的密切配合和相互了解,相應地,專(zhuān)利分析報告中的宏觀(guān)分析和微觀(guān)分析應該力求可以讓兩類(lèi)人群都感興趣。專(zhuān)利關(guān)聯(lián)度分析的專(zhuān)利地圖可以在宏觀(guān)分析和微觀(guān)分析之間架起一座橋梁,讓報告使用者更容易理解報告的全部?jì)热荨?br/>


PART 02

專(zhuān)利關(guān)聯(lián)度模型


本文采用的專(zhuān)利關(guān)聯(lián)度模型分為三類(lèi):


1.基于多維分類(lèi)的專(zhuān)利關(guān)聯(lián)度模型;
2.基于文本的專(zhuān)利關(guān)聯(lián)度模型;
3.將1和2疊加的專(zhuān)利關(guān)聯(lián)度模型。


PART 03
基于多維分類(lèi)的專(zhuān)利關(guān)聯(lián)度模型


在沒(méi)有文本挖掘技術(shù)基礎,或者沒(méi)有高質(zhì)量專(zhuān)利文本數據的情況下,基于多維分類(lèi)的專(zhuān)利關(guān)聯(lián)度模型是一個(gè)不錯的選擇,其與目前的“宏觀(guān)分析”工作相兼容,幾乎無(wú)需額外數據加工工作,并且當多維分類(lèi)標引由人工給出時(shí),基于其進(jìn)行計算的專(zhuān)利關(guān)聯(lián)度結果準確性也更高。

這里定義基于多維分類(lèi)的專(zhuān)利關(guān)聯(lián)度Sc如下式


專(zhuān)利關(guān)聯(lián)度模型及應用

(公式1)


ki為第i個(gè)維度近似度占總的專(zhuān)利關(guān)聯(lián)度Sc的權重系數,Si為專(zhuān)利之間在第i個(gè)維度上的近似度,由專(zhuān)利之間在第i個(gè)維度的分類(lèi)計算得出 。


以下圖示出的分類(lèi)框架為例,每件專(zhuān)利至少從四個(gè)維度進(jìn)行分類(lèi),包括技術(shù)領(lǐng)域,技術(shù)分類(lèi),技術(shù)問(wèn)題和技術(shù)環(huán)節等。每個(gè)維度進(jìn)一步以樹(shù)形結構形成相應的分類(lèi)結構。對每件專(zhuān)利進(jìn)行分類(lèi)的策略是:盡量分到樹(shù)形結構中靠近葉子節點(diǎn)對應的類(lèi)別,除非專(zhuān)利涵蓋多個(gè)節點(diǎn)對應的類(lèi)別,這時(shí)可以賦予對應的多個(gè)分類(lèi),也可以賦予其共同的父節點(diǎn)對應的分類(lèi),例如一件專(zhuān)利的技術(shù)方案同時(shí)適用于快門(mén)式眼鏡和偏振眼鏡式3D產(chǎn)品,則可以將其技術(shù)分類(lèi)賦予父節點(diǎn)對應的分類(lèi)“眼鏡式3D”。


專(zhuān)利關(guān)聯(lián)度模型及應用


接下來(lái)將分類(lèi)框架中的描述型文字轉換為代碼類(lèi)型的標識,以方便后續定量計算。

如下圖所示,將四個(gè)分類(lèi)維度對應的代碼分別為F,T,P和S。每個(gè)維度下的樹(shù)形分類(lèi)結構的描述型文字及其對應的代碼如每個(gè)方框中的第一行和第二行文本所示。例如領(lǐng)域A1對應分類(lèi)代碼F11。分類(lèi)代碼的格式應與其樹(shù)形分類(lèi)框架存在對應。如本文中的分類(lèi)代碼通過(guò)字符串中從左到右逐位表示各層的分類(lèi)標識。例如F111對應技術(shù)領(lǐng)域的第三層節點(diǎn),其是第二層節點(diǎn)F11的一個(gè)子節點(diǎn),而節點(diǎn)F11又是第一層節點(diǎn)F1的一個(gè)子節點(diǎn),F11和F12是兄弟節點(diǎn)。


專(zhuān)利關(guān)聯(lián)度模型及應用


下面確定節點(diǎn)之間的近似度計算方法,即基于分類(lèi)結果確定兩兩專(zhuān)利在每個(gè)維度上的近似度。

本文中定義同一維度內節點(diǎn)之間近似度為:(節點(diǎn)向上最近的共同父節點(diǎn)所在的層數)/(兩個(gè)節點(diǎn)所在層數的最大值)。

例如領(lǐng)域A11和領(lǐng)域A2節點(diǎn)之間的近似度可以定義為:2/3。本文將分類(lèi)代碼的每一位含義定義為分類(lèi)框架樹(shù)形結構完全對應,因此可以通過(guò)字符串逐位比對,計算上述近似度,以簡(jiǎn)化實(shí)現邏輯。

簡(jiǎn)化后的近似度計算公式為:(兩個(gè)節點(diǎn)代碼之間從左側第一位字符開(kāi)始連續匹配的數量)/(兩個(gè)節點(diǎn)代碼長(cháng)度的最大值)。

示例如下圖所示,左側的專(zhuān)利在四個(gè)維度的分類(lèi)代碼分別為F111,T11,P1和S1,右側的專(zhuān)利在四個(gè)維度的分類(lèi)代碼分別為F12,T12,P1和S2。需要說(shuō)明的是,分類(lèi)代碼中的第一位表示僅用于提示的維度信息,計算近似度時(shí)應忽略。由此不斷得出,左右兩個(gè)專(zhuān)利在F代表的維度的近似度=1/3,在T代表的維度的近似度=1/2,在P代表的維度的近似度=1/1,在S代表的維度的近似度=0/1。


專(zhuān)利關(guān)聯(lián)度模型及應用


通過(guò)上述過(guò)程確定各個(gè)維度的近似度后,可以代入公式1計算兩兩專(zhuān)利之間總的關(guān)聯(lián)度Sc。

當一件專(zhuān)利在同一個(gè)維度賦予多個(gè)分類(lèi)時(shí),兩兩專(zhuān)利之間在該維度上的近似度計算從兩個(gè)分類(lèi)之間的近似度計算,擴展為兩個(gè)分類(lèi)集合之間的近似度計算問(wèn)題。本文采用的方案是將兩個(gè)專(zhuān)利的分類(lèi)集合中的元素兩兩計算近似度,以最大的近似度數值作為兩個(gè)專(zhuān)利之間的近似度。


PART 04
專(zhuān)利地圖-基于專(zhuān)利關(guān)聯(lián)度的可視化


為了便于了解專(zhuān)利關(guān)聯(lián)度在專(zhuān)利可視化中的應用,在介紹其他兩類(lèi)專(zhuān)利關(guān)聯(lián)度模型之前,首先提供基于多維分類(lèi)的專(zhuān)利關(guān)聯(lián)度進(jìn)行可視化的示例結果,如下圖所示。

實(shí)驗條件如下:

a.輸入:帶有多維分類(lèi)代碼結果的專(zhuān)利清單Excel文件,編寫(xiě)VBA函數計算兩兩專(zhuān)利之間的關(guān)聯(lián)度。

b.工具支撐:本地網(wǎng)頁(yè)文件嵌入Javascript,導入Excel數據,完成數據預處理;嵌入Echarts組件,以專(zhuān)利數據作為節點(diǎn),以關(guān)聯(lián)度數據做為節點(diǎn)之間的連接屬性,創(chuàng )建力導圖進(jìn)行顯示。

c.主題提?。?/strong>人工完成,預覽各個(gè)簇內部的專(zhuān)利摘要,確定各個(gè)簇的專(zhuān)利主題。

上述實(shí)現條件借助Excel+Javascript+Echarts的工具組合可以實(shí)現數據量小于300條以?xún)鹊膶?zhuān)利地圖繪制,超過(guò)300條以上的數據集,建議更換為后文將介紹的R語(yǔ)言進(jìn)行處理和可視化,否則可能出現渲染不成功的現象。


專(zhuān)利關(guān)聯(lián)度模型及應用


PART 05

基于專(zhuān)利IPC分類(lèi)號計算專(zhuān)利近似度的陷阱


采用專(zhuān)利自有的IPC分類(lèi)號作為上述模型中的分類(lèi)代碼輸入,看起來(lái)可以省去人工標引的工作量,尤其專(zhuān)利數據量非常龐大的情況,但是需要正視如下問(wèn)題:

a.專(zhuān)利IPC分類(lèi)與產(chǎn)業(yè)界或報告使用者認同的分類(lèi)體系有一定差異。

b.專(zhuān)利IPC分類(lèi)號(即便同級別分類(lèi))之間存在涵義重疊問(wèn)題,不能夠完全區分某些技術(shù)的多個(gè)技術(shù)分支。

c.專(zhuān)利IPC分類(lèi)號整體上屬于一個(gè)維度的分類(lèi),無(wú)法映射多個(gè)維度的分類(lèi)信息。

d.專(zhuān)利IPC分類(lèi)號小組層面的樹(shù)形結構分類(lèi)體系依托于分類(lèi)號中的“."點(diǎn)符號的層級構建,而不是IPC分類(lèi)號的號碼格式,因此無(wú)法直接使用本文中提到的字符串匹配方式計算近似度,仍需要根據小組內的樹(shù)形結構分類(lèi)構建一套直接對應的分類(lèi)代碼體系,考慮到前三點(diǎn)的問(wèn)題,這類(lèi)重建工作所耗費的精力未必有價(jià)值。

e.某些專(zhuān)利的IPC分類(lèi)號不是很準。

因此,作者不推薦直接或間接使用IPC分類(lèi)號計算專(zhuān)利之間近似度。


PART 06
基于文本的專(zhuān)利關(guān)聯(lián)度模型


基于文本的專(zhuān)利關(guān)聯(lián)度計算是將文本挖掘技術(shù)轉用到專(zhuān)利分析領(lǐng)域的產(chǎn)物。


文本挖掘是從文本數據中抽取有價(jià)值的信息和知識的計算機處理技術(shù),是自然語(yǔ)言處理(NLP)的熱門(mén)話(huà)題?;谖谋就诰蚶缈梢苑治鑫恼碌那楦行畔?、確認文章之間的相關(guān)性、對文章進(jìn)行分類(lèi)。計算文章之間的相關(guān)性的主要處理流程如下:

S1.對文章分詞,統計詞頻。

S2.去掉停用詞,以避免無(wú)實(shí)際含義的虛詞,連詞等對后續計算結果造成不利影響。

S3.利用文章的詞頻數據通過(guò)Pearson公式等相關(guān)性公式計算進(jìn)文章之間的相關(guān)性。

S4.基于相關(guān)性數據進(jìn)行可視化。

將文章替換為專(zhuān)利的文本數據,即可實(shí)現基于文本的專(zhuān)利關(guān)聯(lián)度計算。

由于R語(yǔ)言提供了豐富的文本挖掘工具包和完善的數據可視化工具包,作者建議在R語(yǔ)言環(huán)境下完成一站式專(zhuān)利文本導入、專(zhuān)利關(guān)聯(lián)度計算、以及力導圖渲染。

下圖是實(shí)際的一個(gè)算例。


專(zhuān)利關(guān)聯(lián)度模型及應用


基于文本的專(zhuān)利關(guān)聯(lián)度計算強烈依賴(lài)專(zhuān)利的文本特征,為此需要了解專(zhuān)利文本與常見(jiàn)的文章類(lèi)文本之間的不同,以及對關(guān)聯(lián)度計算造成的影響,尤其是為了提升效率,只將專(zhuān)利摘要或權利要求作為專(zhuān)利文本參與計算的情況。

a.專(zhuān)利摘要,權利要求的語(yǔ)言抽象,部分詞匯含義需結合說(shuō)明書(shū)上下文或附圖方可理解,與自然語(yǔ)言中的通常含義存在差別。

b.專(zhuān)利權利要求中的語(yǔ)言有上下位關(guān)系,而基于詞頻統計的專(zhuān)利近似度計算,無(wú)法識別上位詞匯和下位詞匯之間的關(guān)系,這使得上位專(zhuān)利和下位專(zhuān)利之間的關(guān)聯(lián)度計算不準確。

以上兩點(diǎn)可以看出需要重寫(xiě)摘要的必要性,一方面實(shí)現統一的術(shù)語(yǔ)表述,另一方面將下位概念的列舉補入重寫(xiě)的摘要中,當然也可以補入技術(shù)問(wèn)題技術(shù)效果的描述。

c.文本挖掘技術(shù)中通用的停用詞集合,對于具體主題的專(zhuān)利分析是不夠用的。還需結合專(zhuān)利的檢索式,專(zhuān)利的詞頻統計結果增加一些額外的停用詞,例如檢索式中的關(guān)鍵詞、本主題專(zhuān)利普遍攜帶的詞匯(如“顯示”,“設備”“方法”……)。在實(shí)際操作中,停用詞的增補需要根據具體主題的專(zhuān)利實(shí)際情況進(jìn)行人工干預,類(lèi)似一種“調試”操作。


PART 07

基于多維分類(lèi)和文本的專(zhuān)利關(guān)聯(lián)度模型


考慮基于多維分類(lèi)和文本的兩種關(guān)聯(lián)度模型可以?xún)?yōu)勢互補,在實(shí)際中可以將二者采用線(xiàn)性加權求和方式計算綜合專(zhuān)利關(guān)聯(lián)度信息。

以下是該方法的實(shí)際算例。


專(zhuān)利關(guān)聯(lián)度模型及應用


代碼下載
本文算例示例代碼已通過(guò)Gitee平臺開(kāi)源,訪(fǎng)問(wèn)鏈接如下:
https://gitee.com/yanwenlongair/patent-analysis-r


PART 08
小結


綜上,基于專(zhuān)利關(guān)聯(lián)度分析的專(zhuān)利地圖有其特定價(jià)值,專(zhuān)利分析不是固定的模板,不是固定的標準,通過(guò)方法改進(jìn)結論是一個(gè)有趣的過(guò)程。目前的方法顯然不是專(zhuān)利分析的終點(diǎn)。


(原標題:專(zhuān)利關(guān)聯(lián)度模型及應用)


來(lái)源:IPRdaily中文網(wǎng)(iprdaily.cn)

作者:閆文龍 段曉玲

編輯:IPRdaily辛夷          校對:IPRdaily縱橫君


注:原文鏈接專(zhuān)利關(guān)聯(lián)度模型及應用點(diǎn)擊標題查看原文)


專(zhuān)利關(guān)聯(lián)度模型及應用

「關(guān)于IPRdaily」


IPRdaily是全球領(lǐng)先的知識產(chǎn)權綜合信息服務(wù)提供商,致力于連接全球知識產(chǎn)權與科技創(chuàng )新人才。匯聚了來(lái)自于中國、美國、歐洲、俄羅斯、以色列、澳大利亞、新加坡、日本、韓國等15個(gè)國家和地區的高科技公司及成長(cháng)型科技企業(yè)的管理者及科技研發(fā)或知識產(chǎn)權負責人,還有來(lái)自政府、律師及代理事務(wù)所、研發(fā)或服務(wù)機構的全球近100萬(wàn)用戶(hù)(國內70余萬(wàn)+海外近30萬(wàn)),2019年全年全網(wǎng)頁(yè)面瀏覽量已經(jīng)突破過(guò)億次傳播。


(英文官網(wǎng):iprdaily.com  中文官網(wǎng):iprdaily.cn) 


本文來(lái)IPRdaily中文網(wǎng)(iprdaily.cn)并經(jīng)IPRdaily.cn中文網(wǎng)編輯。轉載此文章須經(jīng)權利人同意,并附上出處與作者信息。文章不代表IPRdaily.cn立場(chǎng),如若轉載,請注明出處:“http://qaqi.cn

小知 注冊用戶(hù)
共發(fā)表文章 31253
最近文章
AD1
AD
 
焦點(diǎn)追蹤
本文來(lái)自于iprdaily,永久保存地址為/news_37200.html,發(fā)布時(shí)間為2024-06-07 11:33:59。
我也說(shuō)兩句
還可以輸入140個(gè)字
我要評論
相關(guān)文章
欧美GIFXXOO大尺度行房_亚洲欧美日韩综合俺去_一本精品99久久精品66_chinese国产老熟女