#本文僅代表作者觀(guān)點(diǎn),不代表IPRdaily立場(chǎng),未經(jīng)作者許可,禁止轉載#
“本示例說(shuō)明了對權利要求進(jìn)行適格分析的應用,這些權利要求涉及基于人工智能的方法,用于分析語(yǔ)音信號并將所需語(yǔ)音與無(wú)關(guān)語(yǔ)音或背景語(yǔ)音分離?!?br/>
來(lái)源:IPRdaily中文網(wǎng)(iprdaily.cn)
翻譯:杜衡
示例48.語(yǔ)音分離
本示例說(shuō)明了對權利要求進(jìn)行適格分析的應用,這些權利要求涉及基于人工智能的方法,用于分析語(yǔ)音信號并將所需語(yǔ)音與無(wú)關(guān)語(yǔ)音或背景語(yǔ)音分離。這些包含深度神經(jīng)網(wǎng)絡(luò )的權利要求,是粗略地基于當前語(yǔ)音分離文獻而虛構的。權利要求1不適格。它“針對”了一種司法排除對象,因為它記載了司法排除對象(抽象想法),而權利要求整體上并沒(méi)有將司法排除對象融入實(shí)際應用中(因此它針對的是一種抽象想法),而且權利要求并沒(méi)有明顯超過(guò)司法排除對象(沒(méi)有提供發(fā)明構思)。權利要求2重復了與權利要求1相同的司法排除對象,但適格,因為該權利要求作為一個(gè)整體改進(jìn)了語(yǔ)音分離技術(shù),從而將排除對象融入到了分離語(yǔ)音的實(shí)際應用中,因此不是“針對”司法排除對象。權利要求3適格,它記載了一種司法排除對象(抽象想法),但該權利要求作為一個(gè)整體,通過(guò)改進(jìn)語(yǔ)音到文本的轉錄,將該排除對象融入實(shí)際應用中,因此不是“針對”司法排除對象。
背景技術(shù)
在過(guò)去的幾年里,視聽(tīng)多媒體內容的創(chuàng )作和消費出現了大幅增長(cháng)。智能手機、游戲機和頭戴式設備都配備了用于錄音的麥克風(fēng)和攝像頭。這些設備還采用了允許用戶(hù)通過(guò)語(yǔ)音命令控制設備的技術(shù)。當使用相同的設備錄制事件時(shí),這些設備可能會(huì )捕捉語(yǔ)音命令作為錄音的一部分,或者未能從錄音中過(guò)濾掉附近揚聲器的聲音。這些錄音可用于社交媒體上的簡(jiǎn)單重放、個(gè)人使用或自動(dòng)字幕或轉錄等應用。
典型的人類(lèi)聽(tīng)眾可以很容易地感知聲音混合物中的獨立聲源。例如,在擁擠的餐廳里,即使聽(tīng)者周?chē)衅渌陕?tīng)到的對話(huà),普通人也能注意到單個(gè)對話(huà)。計算機在解釋有聲語(yǔ)言時(shí),會(huì )接收到來(lái)自麥克風(fēng)的音頻信號,其中包含麥克風(fēng)拾取到的所有音頻。要讓計算機 “關(guān)注”單個(gè)對話(huà)或說(shuō)話(huà)者,必須將相關(guān)語(yǔ)音從音頻信號的其他部分中分離出來(lái)。傳統的基于計算機的語(yǔ)音分離技術(shù)在區分和分離不同類(lèi)別的音頻(如人類(lèi)語(yǔ)音和背景噪音)方面表現出色,但在分離屬于同一類(lèi)別的音頻(如來(lái)自不同說(shuō)話(huà)者的語(yǔ)音)方面表現不佳。一些現有的解決方案依賴(lài)于根據音量來(lái)分離語(yǔ)音,但在說(shuō)話(huà)者說(shuō)話(huà)的聲音大小或與麥克風(fēng)的距離不同的環(huán)境中,基于音量的方法并不可靠。其他解決方案需要對輸入設備進(jìn)行識別特定語(yǔ)音的訓練,但要求用戶(hù)明確地與設備互動(dòng)以提供訓練數據。此外,與單個(gè)用戶(hù)發(fā)出的指令相比,語(yǔ)音分離系統不適合區分相關(guān)個(gè)人之間的對話(huà)。因此,使用傳統的語(yǔ)音分離技術(shù)可能會(huì )導致在錄音過(guò)程中捕捉到的重要信息被刪除,或者根本無(wú)法刪除不需要的數據。
當這些技術(shù)用于語(yǔ)音到文本或自動(dòng)語(yǔ)音識別系統的預處理階段時(shí),轉錄質(zhì)量就會(huì )受到影響。為了保護用戶(hù)隱私和提供高質(zhì)量的錄音或轉錄,有必要從音頻中去除這些不需要的語(yǔ)音。
人工神經(jīng)網(wǎng)絡(luò )(ANN)為分離不同來(lái)源的語(yǔ)音信號提供了一種很有前景的解決方案。申請人已提交了一份專(zhuān)利申請,其中公開(kāi)了一種系統,該系統從記錄事件的音頻記錄設備(如麥克風(fēng))接收混合語(yǔ)音信號x作為輸入。該系統使用深度神經(jīng)網(wǎng)絡(luò ) (DNN)(ANN的一種),在聚類(lèi)過(guò)程中促進(jìn)特征分離。具體來(lái)說(shuō),DNN通過(guò)將特征表達映射到嵌入空間來(lái)學(xué)習信號x的高水平特征表達。隨后,對這些特征表達進(jìn)行聚類(lèi),每個(gè)聚類(lèi)代表一個(gè)不同的語(yǔ)音源,從而分離出不同語(yǔ)音源的語(yǔ)音信號Sn,其中n∈{1, ……N} ,在混合語(yǔ)音信號中識別出來(lái)。這樣分離出來(lái)的信號可應用于下游環(huán)節,如轉錄、從錄音中刪除語(yǔ)音命令以及上傳到社交網(wǎng)站。
DNN可以是自動(dòng)編碼器、遞歸神經(jīng)網(wǎng)絡(luò )或卷積神經(jīng)網(wǎng)絡(luò )。在一個(gè)實(shí)施例中,DNN在由多個(gè)說(shuō)話(huà)者的語(yǔ)音片段組成的音頻數據集上進(jìn)行語(yǔ)音分離預訓練。訓練數據可包括人工標注的音頻,其中指定了單獨的說(shuō)話(huà)者和單獨的對話(huà),這樣DNN就能學(xué)會(huì )區分單個(gè)聲音和語(yǔ)音上下文。如下文所述,使用這些深度學(xué)習技術(shù)的優(yōu)勢在于可以通過(guò)簡(jiǎn)單的聚類(lèi)來(lái)實(shí)現不同來(lái)源語(yǔ)音信號的分離。
傳統的傅里葉變換描述的是整個(gè)信號的各種頻率成分,而語(yǔ)音的頻率成分會(huì )隨時(shí)間變化。短時(shí)傅里葉變換(STFT)是一種數學(xué)工具,通過(guò)對信號的較小“窗口”或“幀”進(jìn)行一系列傅里葉變換,在頻率成分隨時(shí)間變化時(shí)獲得信號的表達。在一個(gè)實(shí)施方案中,混合語(yǔ)音信號x(t) 被劃分為T(mén)個(gè)等長(cháng)的交疊幀。該混合語(yǔ)音信號在STFT域中的處理過(guò)程如下。對于每個(gè)幀,通常會(huì )提取已知的時(shí)間特征,如音高、方差和過(guò)零率,并用特征矩陣FMtj表示,其中t是幀索引,j是特征索引。除了時(shí)間特征提取外,還利用STFT將混合音頻信號轉換為時(shí)頻(TF)域Stf,其中f為頻率倉的索引,從而生成每幀的頻譜圖。在這一步結束時(shí),每幀用Xt表示,它對應于頻譜圖St和特征矩陣FMt的相應行。
DNN會(huì )學(xué)習輸入混合語(yǔ)音信號x的高級特征表達。具體來(lái)說(shuō),DNN會(huì )將從頻譜圖St和相應特征矩陣FMt中獲得的這些特征表達Xt轉換為多維嵌入向量V,并將這些嵌入向量V作為輸入信號的全局函數分配給TF倉(V =fθ(X),其中 fθ表示DNN函數)。DNN為每個(gè)TF區域分配嵌入向量V,使同一信號源主導TF倉的嵌入向量之間的歐氏距離最小,不同信號源主導的TF倉的嵌入向量之間的歐氏距離最大。這樣,代表不同來(lái)源的所有TF倉的嵌入向量V就計算出來(lái)了。
接下來(lái),使用k均值(k-means)聚類(lèi)算法進(jìn)行聚類(lèi),以分離混合信號中的不同語(yǔ)音源Sn。嵌入向量V被聚類(lèi)為k個(gè)不同的組,每個(gè)組代表Sn的一個(gè)不同語(yǔ)音源。聚類(lèi)算法任意選擇k個(gè)初始中心C。然后,直到算法收斂,嵌入向量V被分配到與其最接近的聚類(lèi)中心,每個(gè)中心被移動(dòng)到其當前分配的聚類(lèi)子集的平均值。這一過(guò)程結束后,嵌入向量V被劃分為與不同組成源相對應的聚類(lèi)Sn。
二進(jìn)制時(shí)頻掩碼是通過(guò)使用二進(jìn)制矩陣來(lái)表示應打開(kāi)或關(guān)閉表示的哪些部分,從而分離信號。在音頻處理中,二進(jìn)制掩碼是一個(gè)由二進(jìn)制值組成的矩陣,這些二進(jìn)制值與音源相對應,將其與頻譜圖相乘,即可包含或排除音頻的某些部分。每個(gè)揚聲器的二進(jìn)制時(shí)頻掩碼是通過(guò)聚類(lèi)分配獲得的,方法是將對應于各自揚聲器的所有TF倉賦值為1,其余TF倉賦值為0。反STFT將獲得的分離信號轉換到時(shí)域。分離出的語(yǔ)音信號可用于多種不同的下游應用,下文將對此進(jìn)行討論。
由于DNN將嵌入向量V作為函數的整個(gè)輸入信號進(jìn)行分配,因此嵌入向量V考慮到了輸入信號的全局屬性,從而使k個(gè)不同組與混合語(yǔ)音信號中識別出的N個(gè)源相對應,從而提供了出色的語(yǔ)音分離效果。本發(fā)明的這一特點(diǎn)是對之前語(yǔ)音分離方法的改進(jìn),因為它允許盲語(yǔ)音分離(即系統不需要事先知道說(shuō)話(huà)者的數量,也不需要對混合音頻信號中不同組成源的語(yǔ)音進(jìn)行訓練)。因此,DNN可以使用由較少發(fā)言人組成的混合語(yǔ)音信號進(jìn)行訓練,并可用于分離來(lái)自較多來(lái)源的語(yǔ)音信號。此外,由于這種語(yǔ)音分離過(guò)程同時(shí)使用了語(yǔ)音信號的時(shí)間和空間特征,并根據輸入信號的全局屬性推導出嵌入向量V,因此在自動(dòng)語(yǔ)音識別(ASR)等下游應用中,它能很好地處理同一音頻類(lèi)別中不同說(shuō)話(huà)人之間的差異。測試結果一致表明,在預處理階段使用所公開(kāi)方法的通用ASR系統,與傳統的語(yǔ)音到文本系統相比,在重音揚聲器的轉錄性能方面差距明顯縮小。
該方法的一種應用是去除棒球比賽等活動(dòng)錄音中的語(yǔ)音命令或背景對話(huà)。通過(guò)傳統方法,例如通過(guò)獲取與不想要的信號源相對應的音頻片段,來(lái)識別來(lái)自不想要的信號源(例如Ss)的語(yǔ)音信號。在一個(gè)實(shí)施方案中,用戶(hù)可以通過(guò)提供要從混合音頻信號x中編輯的非預期音頻信號樣本來(lái)請求分離語(yǔ)音信號。系統將樣本的時(shí)間特征與源信號Sn進(jìn)行比較,以找到最匹配的非預期源信號Ss。在反STFT步驟之后,將來(lái)自所有幀T的各種語(yǔ)音信號拼接在一起,排除來(lái)自Ss的語(yǔ)音信號。在一個(gè)優(yōu)選的實(shí)施方案中,使用交疊添加法重建整個(gè)干凈的語(yǔ)音信號。因此,輸出是干凈的音頻信號x',這樣x'包括了來(lái)自所有源信號Sn的語(yǔ)音信號,其中n∈{1, ……N},不包括來(lái)自Ss的語(yǔ)音信號。干凈的音頻信號x'被傳輸到遠程位置存儲,以應用于下游,如上傳到社交網(wǎng)站。
另一種應用是實(shí)時(shí)語(yǔ)音轉錄或錄音轉錄。在一個(gè)示例性實(shí)施例中,用戶(hù)可以在回放錄制的音頻時(shí),使用圖形用戶(hù)界面 (GUI) 要求轉錄混合語(yǔ)音信號x中所需的源信號Sd。在反STFT步驟之后,僅來(lái)自所需信號源Sd的語(yǔ)音信號會(huì )被傳輸到語(yǔ)音到文本系統。ASR或語(yǔ)音到文本系統使用通用方法從所需信號源Sd中提取頻譜特征并生成詞語(yǔ)序列,然后將其轉換為文本。系統將翻譯結果顯示為GUI上的文本。
申請人介紹說(shuō),本專(zhuān)利申請中討論的系統可由一個(gè)或多個(gè)處理器與一個(gè)或多個(gè)非臨時(shí)性計算機可讀介質(zhì)耦合實(shí)現。此處所述方法可通過(guò)處理器執行存儲在非臨時(shí)計算機可讀存儲介質(zhì)(如隨機讀取存儲器、閃存、磁/光存儲器等)上的計算機可讀指令來(lái)執行。GUI是硬件或硬件與軟件的組合。GUI與上述系統相連,被配置為接收用戶(hù)指令并輸出用戶(hù)選擇的音頻轉錄。
權利要求
[權利要求1] 一種語(yǔ)音分離方法,包括:
(a) 接收混合語(yǔ)音信號x,該信號由來(lái)自多個(gè)不同來(lái)源的語(yǔ)音Sn組成,其中n∈{1, ……N};
(b) 使用短時(shí)傅里葉變換將混合語(yǔ)音信號x轉換為時(shí)頻域的頻譜圖,并獲得特征表達X,其中X對應于混合語(yǔ)音信號x的頻譜圖和從混合語(yǔ)音信號x提取的時(shí)間特征;
(c) 使用深度神經(jīng)網(wǎng)絡(luò )(DNN),利用公式 V =fθ(X)確定嵌入向量V,其中 fθ(X) 是混合語(yǔ)音信號x的全局函數。
[權利要求2] 權利要求1所述的語(yǔ)音分離方法還包括:
(d) 將嵌入向量V劃分為與不同源Sn相對應的簇;
(e) 對簇應用二進(jìn)制掩碼以創(chuàng )建掩碼簇;
(f) 由掩碼簇合成語(yǔ)音波形,其中每個(gè)語(yǔ)音波形對應一個(gè)不同的源Sn;
(g) 合并語(yǔ)音波形,以生成混合語(yǔ)音信號x',通過(guò)拼接對應于不同信源Sn的語(yǔ)音波形,并排除來(lái)自目標信源Ss的語(yǔ)音波形,從而使混合語(yǔ)音信號x' 包括來(lái)自不同信源Sn的語(yǔ)音波形,并排除來(lái)自目標信源Ss的語(yǔ)音波形;
(h) 將混合語(yǔ)音信號x'發(fā)送到遠程位置存儲。
[權利要求3] 一種非暫時(shí)性計算機可讀存儲介質(zhì),其上存儲有計算機可執行指令,當這些指令被一個(gè)或多個(gè)處理器執行時(shí),導致一個(gè)或多個(gè)處理器執行包括以下處理的操作:
(a) 接收混合語(yǔ)音信號x,該信號包括來(lái)自多個(gè)不同來(lái)源的語(yǔ)音Sn,其中n∈{1, ……N},在深度神經(jīng)網(wǎng)絡(luò ) (DNN)中進(jìn)行來(lái)源分離訓練;
(b) 使用DNN將混合語(yǔ)音信號x 的時(shí)頻表達轉換為特征空間中的嵌入,作為混合語(yǔ)音信號x的函數;
(c) 使用K均值聚類(lèi)算法對嵌入進(jìn)行聚類(lèi);
(d) 對聚類(lèi)應用二進(jìn)制掩碼,以獲得掩碼聚類(lèi);
(e) 將掩碼簇轉換到時(shí)域,以獲得N個(gè)與不同聲源Sn相對應的分離語(yǔ)音信號;
(f) 從N個(gè)分離的語(yǔ)音信號中的目標源Sd提取頻譜特征,并從頻譜特征生成詞語(yǔ)序列,以生成與目標源Sd相對應的語(yǔ)音信號轉錄本。
分析
權利要求1不適格。
權利要求的解釋?zhuān)?/strong>根據最寬泛合理解釋?zhuān)瑱嗬蟮男g(shù)語(yǔ)被推定為具有與本領(lǐng)域普通技術(shù)人員對說(shuō)明書(shū)的解釋一致的常規含義。參見(jiàn)《專(zhuān)利審查操作指南》(MPEP)2111。
關(guān)于步驟(a),權利要求沒(méi)有對如何接收混合語(yǔ)音信號做出任何限定。對混合語(yǔ)音信號的最寬泛合理解釋是包括來(lái)自不同來(lái)源的可聽(tīng)語(yǔ)音?;旌险Z(yǔ)音信號可以通過(guò)用戶(hù)設備中的麥克風(fēng)或其他將聲音轉換為電信號的傳感器而被接收。
關(guān)于步驟(b),權利要求規定,使用STFT將混合語(yǔ)音信號轉換為時(shí)頻域的頻譜。獲得與從混合語(yǔ)音信號x中提取的頻譜和時(shí)間特征相對應的特征表達X。權利要求沒(méi)有說(shuō)明如何獲得混合語(yǔ)音信號的時(shí)間特征和頻譜。
關(guān)于步驟(c),權利要求規定,根據步驟(b)的結果,使用一個(gè)公式來(lái)確定嵌入向量。權利要求還規定,在確定嵌入向量時(shí)使用DNN。但權利要求中沒(méi)有包含任何有關(guān)DNN或其操作方式的細節。
對權利要求1最寬泛合理解釋是:一種方法,接收來(lái)自不同來(lái)源的口語(yǔ)音頻、得出音頻的時(shí)間特征表達和頻譜,以及使DNN基于時(shí)間特征表達和頻譜使用數學(xué)公式計算嵌入向量。
步驟1:這部分的適格分析評估權利要求是否屬于任何法定類(lèi)別。參見(jiàn)MPEP 2106.03。該權利要求記載了接收混合語(yǔ)音信號、轉換混合語(yǔ)音信號和使用DNN確定嵌入向量的步驟或行為,因此是一個(gè)方法(一系列步驟或行為)。方法是發(fā)明的法定類(lèi)別。(步驟1:是)。
步驟2A分支一:這部分的適格分析評估權利要求是否記載了司法排除對象。正如MPEP 2106.04第II小節所解釋的,當司法排除對象在權利要求中被“闡釋”或“描述”時(shí),權利要求就“記載”了司法排除對象。該權利要求記載了步驟(b):“使用STFT將混合語(yǔ)音信號x轉換為時(shí)頻域的頻譜,并獲得特征表達X,其中X對應于混合語(yǔ)音信號x的頻譜和從混合語(yǔ)音信號x中提取的時(shí)間特征”。在本權利要求中,將混合語(yǔ)音信號 x“轉換”為時(shí)頻域的頻譜涉及使用STFT的數學(xué)運算。因此,該權利要求記載了使用特定變換函數將信號從一個(gè)域轉換到另一個(gè)域的數學(xué)運算。權利要求還記載了步驟(c),即“使用公式V =fθ(X)確定嵌入向量V,其中fθ(X)是輸入信號的全局函數”。所記載的公式顯然是一個(gè)數學(xué)公式或等式,而“確定”則是一種數學(xué)計算。因此,該權利要求記載了一個(gè)數學(xué)公式或等式以及一種數學(xué)計算,兩者都屬于抽象想法中的數學(xué)概念類(lèi)別。正如MPEP所解釋的那樣,當一項權利要求記載了屬于相同或不同類(lèi)別的多個(gè)抽象想法時(shí),審查員應將這些限定視為一種單一的抽象想法,而不是作為多個(gè)單獨的抽象想法進(jìn)行單獨分析。由于步驟(b)和(c)屬于同一類(lèi)抽象想法(即數學(xué)概念),這些限定被視為單一抽象想法進(jìn)行進(jìn)一步分析。(步驟2A分支一:是)。
步驟2A分支二:這部分的適格分析評估的是權利要求作為一個(gè)整體是否將所記載的司法排除對象融入排除對象的實(shí)際應用中。這一評估是通過(guò)以下方式進(jìn)行的:(1)確定權利要求中除了司法排除對象之外是否還記載了任何附加元素;(2)對這些附加元素進(jìn)行單獨和組合評估,以確定權利要求作為一個(gè)整體是否將排除對象融入實(shí)際應用中。參見(jiàn) MPEP 2106.04(d)。
權利要求在步驟(a)中記載了第一個(gè)附加元素,即“接收混合語(yǔ)音信號 x,該信號包括來(lái)自多個(gè)不同來(lái)源的語(yǔ)音Sn,其中n∈{1, ……N}”。如上所述,步驟(a)的權利要求具有高度通用性,可以描述以用戶(hù)設備中的麥克風(fēng)或其他聲音傳感器接收混合語(yǔ)音信號。該元素只不過(guò)是收集數據。為了使用所記載的司法排除對象進(jìn)行計算(即將混合語(yǔ)音信號轉換為時(shí)頻域表示),必然需要獲取數據。元素“接收”并沒(méi)有對權利要求施加任何其他有意義的限定。因此,附加限定是解決方案之外的次要行為。參見(jiàn)MPEP 2106.05(g)。
該方法在步驟(c)中還記載了第二個(gè)附加元素“使用深度神經(jīng)網(wǎng)絡(luò ) (DNN) 確定嵌入向量V……”在確定一項權利要求是否僅僅記載了帶有“應用它”(或等同詞)的司法排除對象時(shí),例如僅僅記載了指示在計算機上執行抽象想法,審查員可以考慮以下幾點(diǎn) (1) 權利要求是否只記載了解決方案的想法或結果,即權利要求沒(méi)有記載如何完成問(wèn)題解決方案的細節;(2) 權利要求是否僅僅將計算機或其他機器作為執行現有程序的工具;(3) 應用司法排除對象的特殊性或普遍性。參見(jiàn) MPEP 2106.05(f)。在本案中,除了DNN被用于確定嵌入向量之外,沒(méi)有關(guān)于特定DNN或DNN如何操作以得出嵌入向量的細節。DNN被用于一般性地應用抽象想法(即使用所記載的數學(xué)公式進(jìn)行數學(xué)計算),而沒(méi)有對DNN如何將作為輸入信號的函數來(lái)推導嵌入向量的操作方法做出任何限定。此外,該限定只記載了使用DNN確定嵌入向量的想法,而沒(méi)有詳細說(shuō)明如何實(shí)現。該權利要求省略了DNN如何解決技術(shù)問(wèn)題的任何細節,而只記載了關(guān)于解決方案或結果的想法。此外,該權利要求僅僅記載了通用DNN作為進(jìn)行所述數學(xué)計算的工具,而非旨在改進(jìn)技術(shù)或計算機。參見(jiàn)MPEP 2106.05(f)。因此,該限定僅僅代表了指示在計算機上應用司法排除對象。它也可以被視為只是試圖將司法排除對象的應用與計算機的技術(shù)環(huán)境泛泛地聯(lián)系起來(lái)。
公開(kāi)內容指出了在語(yǔ)音分離領(lǐng)域遇到的技術(shù)問(wèn)題,并提供了本發(fā)明作為解決所指出的語(yǔ)音分離問(wèn)題的方法。公開(kāi)內容清楚地描述了本發(fā)明如何通過(guò)提供一種特殊的語(yǔ)音分離技術(shù),解決從同一類(lèi)別的不同語(yǔ)音源中分離出語(yǔ)音的問(wèn)題,同時(shí)不需要事先了解說(shuō)話(huà)者數量或說(shuō)話(huà)者特征的訓練,從而對現有的語(yǔ)音分離方法進(jìn)行改進(jìn)。具體地說(shuō),這種改進(jìn)是通過(guò)確定作為輸入信號函數的嵌入向量、將這些向量劃分為簇,以及根據這些簇合成重建的混合語(yǔ)音信號來(lái)實(shí)現的。然而,該權利要求只要求確定嵌入向量,因此沒(méi)有反映出公開(kāi)內容中討論的改進(jìn)。所記載的通用DNN只是增加了一個(gè)通用的計算機組件來(lái)執行該方法,因此未能提供對技術(shù)或技術(shù)領(lǐng)域的改進(jìn)。參見(jiàn) MPEP 2106.05(a)。即使綜合來(lái)看,這些附加元素也沒(méi)有將所記載的司法排除對象融入到實(shí)際應用中(步驟 2A分支二:否),因此該權利要求是針對司法排除對象的。(步驟2A:是)。
步驟2B:這部分的適格分析評估的是權利要求作為一個(gè)整體是否明顯超過(guò)了所記載的排除對象,即是否有任何附加元素或附加元素的組合為權利要求添加了發(fā)明構思。參見(jiàn)MPEP 2106.05。
在步驟2A分支二中,步驟 (c) 中的第二個(gè)附加元素“使用深度神經(jīng)網(wǎng)絡(luò )”被認為僅僅是指示在使用通用計算組件的計算機上應用司法排除對象。步驟2A分支二的分析貫穿于步驟2B。此外,步驟(a)中的第一個(gè)附加元素被認定為解決方案之外的次要行為。然而,在步驟2A中得出的某一附加元素屬于解決方案之外的次要行為的結論,應在步驟2B中重新評估。參見(jiàn)MPEP 2106.05(g)。在步驟2B中,對解決方案之外的次要行為的重新評估要考慮到該解決方案之外的行為是否為該領(lǐng)域熟知、常規而普遍的行為。在本案中,接收混合語(yǔ)音信號的步驟僅僅是收集數據,該步驟被高度概括地記載,并且正如公開(kāi)的內容所討論的那樣,是熟知的(例如,背景技術(shù)的第一段解釋說(shuō),智能手機和其他設備早已配備了通過(guò)集成在設備中的麥克風(fēng)接收混合語(yǔ)音信號的功能)。因此,即使重新評估,這一限定仍然是解決方案之外的次要行為,并沒(méi)有達到明顯超過(guò)的程度。
即使綜合考慮,這些附加元素也僅僅指示是應用排除對象和解決方案之外的次要行為,因此沒(méi)有提供發(fā)明構思(步驟2B:否)。權利要求不適格。
權利要求2適格。
權利要求的解釋?zhuān)?/strong> 根據最寬泛合理解釋?zhuān)瑱嗬蟮男g(shù)語(yǔ)被推定為具有與本領(lǐng)域普通技術(shù)人員對說(shuō)明書(shū)的解釋一致的常規含義。參見(jiàn)《專(zhuān)利審查操作指南》(MPEP)2111。權利要求2是從屬權利要求,依賴(lài)并要求權利要求1的所有限定。
關(guān)于步驟(d),權利要求沒(méi)有對如何將嵌入向量劃分為與不同來(lái)源相對應的簇做出任何限定。聚類(lèi)可以使用公開(kāi)的K均值算法或本領(lǐng)域普通技術(shù)人員已知的任何其他算法。
步驟(e)要求對聚類(lèi)應用二進(jìn)制掩碼。對于本領(lǐng)域的普通技術(shù)人員來(lái)說(shuō),“應用二進(jìn)制掩碼”的通常含義就是使用二進(jìn)制矩陣來(lái)指示哪些表述的部分應該打開(kāi)或關(guān)閉的數學(xué)運算。這種掩碼可以用本領(lǐng)域已知的任何方式進(jìn)行,例如,對兩個(gè)數字進(jìn)行位操作或將二進(jìn)制矩陣與另一個(gè)數字表述相乘等等。
步驟(f)合成來(lái)自掩碼簇的語(yǔ)音波形,其中每個(gè)波形對應于混合語(yǔ)音信號的不同來(lái)源。背景部分說(shuō)明該合成是通過(guò)使用反STFT將掩碼簇轉換為時(shí)域中的單獨語(yǔ)音信號,與混合語(yǔ)音信號中的不同語(yǔ)音源相對應。
步驟(g)將步驟(f)中分離的語(yǔ)音波形拼接在一起,拼接的方式是將對應于不同聲源Sn的語(yǔ)音波形拼接在一起,但剔除來(lái)自目標聲源Ss的語(yǔ)音波形,這樣得到的混合語(yǔ)音信號剔除了來(lái)自目標聲源的至少一個(gè)語(yǔ)音信號,而包括來(lái)自其他聲源的語(yǔ)音信號。背景技術(shù)部分指出,使用交疊添加法進(jìn)行拼接,以重建整個(gè)干凈的語(yǔ)音信號,但步驟(g)的范圍很廣,足以涵蓋本領(lǐng)域已知的任何拼接方法。
步驟(h)規定將重建的混合語(yǔ)音信號傳輸到遠程位置進(jìn)行存儲。請注意,這一步并不要求實(shí)際存儲重構的混合語(yǔ)音信號,而是要求傳輸信號的預期結果是將其存儲到遠程位置。
如上關(guān)于權利要求1的描述,權利要求2的最寬泛合理解釋是一種方法,即接收來(lái)自不同來(lái)源的口語(yǔ)音頻、得出音頻的時(shí)間特征表達和頻譜,以及使DNN基于時(shí)間特征表達和頻譜使用數學(xué)公式計算嵌入向量。然后將嵌入向量劃分為若干個(gè)簇,使用二進(jìn)制掩碼對這些簇進(jìn)行修改,并將修改后的簇合成為單獨的語(yǔ)音信號。通過(guò)剔除來(lái)自一個(gè)信號源的至少一個(gè)語(yǔ)音信號,并包含來(lái)自其他信號源的語(yǔ)音信號,可生成一個(gè)新的混合語(yǔ)音信號。然后,傳輸合并后的混合語(yǔ)音信號。
步驟1:如上關(guān)于權利要求1的討論,該權利要求記載了接收混合語(yǔ)音信號、轉換混合語(yǔ)音信號和使用DNN確定嵌入向量的步驟或行為。從屬權利要求2 進(jìn)一步增加了以下步驟:將嵌入向量劃分成簇,對簇應用二進(jìn)制掩碼并合成結果,將結果信號組合成混合語(yǔ)音信號,以及傳輸混合語(yǔ)音信號。因此,權利要求2是一種方法(一系列步驟或行為)。方法是發(fā)明的法定類(lèi)別。(步驟1:是)。
步驟2A分支一:這部分的適格分析評估權利要求是否記載了司法排除對象。正如MPEP 2106.04第II小節所解釋的,當司法排除對象在權利要求中被“闡釋”或“描述”時(shí),權利要求就“記載”了司法排除對象。如上關(guān)于權利要求1的討論,步驟(b)和(c)記載了數學(xué)概念。步驟(d)記載了“將嵌入向量V劃分為與不同來(lái)源Sn相對應的簇”。權利要求對如何進(jìn)行這種劃分沒(méi)有任何限定。也就是說(shuō),權利要求中的任何內容都不妨礙在頭腦中實(shí)際執行這一步驟。例如,“將……劃分為簇”包括人類(lèi)任意選擇向量組并在頭腦中將它們分配到簇中。本權利要求中對DNN的記載并不能否定這些限定的思維屬性,因為本權利要求只是將DNN用作執行思維過(guò)程的工具。參見(jiàn)MPEP 2106.04(a)(2)第III.C小節。權利要求因此記載了思維過(guò)程。
該權利要求還記載了步驟(e)——“對聚類(lèi)應用二進(jìn)制掩碼以創(chuàng )建掩碼簇”。該步驟記載了基于二進(jìn)制計算生成數字的數學(xué)運算。因此,該權利要求包含了進(jìn)一步的數學(xué)計算,屬于抽象想法中的數學(xué)概念類(lèi)別。
“除非清楚地表明權利要求中包含了不同的排除對象,如自然規律和抽象想法,否則應注意不要將權利要求解析為多個(gè)排除對象,特別是在涉及抽象想法的權利要求中?!盡PEP 2106.04,第II.B小節(在Bilski訴Kappos案中論述,561 U.S. 593 (2010))。因此,在可能的情況下,審查員應將這些限定視為一種單一的抽象想法,而不是多個(gè)單獨的抽象想法進(jìn)行單獨分析。如上所述,權利要求2的步驟 (b)、(c) 和 (e)記載了數學(xué)概念,步驟 (d) 記載了思維過(guò)程。審查員應在步驟 2A分支一中確定權利要求同時(shí)記載了思維過(guò)程和數學(xué)概念,并將限定(b)-(e)共同視為一個(gè)單獨的抽象想法進(jìn)行進(jìn)一步分析。參見(jiàn)MPEP 2106.04第II.B小節。
步驟(f)合成來(lái)自掩碼簇的語(yǔ)音波形,其中每個(gè)波形對應混合語(yǔ)音信號的不同來(lái)源。這一步需要將步驟(e)的結果在時(shí)域上轉換成單獨的語(yǔ)音信號。從數字簇合成語(yǔ)音波形的過(guò)程無(wú)法實(shí)際上在人腦中完成。進(jìn)一步來(lái)說(shuō),雖然合成涉及數學(xué)計算,但權利要求并沒(méi)有具體說(shuō)明任何數學(xué)公式、計算或關(guān)系。此外,步驟(f)不屬于組織人類(lèi)活動(dòng)的方法,因為它不屬于所列舉的基本經(jīng)濟原則或實(shí)踐、商業(yè)或法律互動(dòng)、管理個(gè)人行為和人際關(guān)系或互動(dòng)等子類(lèi)別。
同樣,步驟(g)將語(yǔ)音波形組合在一起,生成混合語(yǔ)音信號,具體方法是將不同信號源對應的語(yǔ)音波形拼接在一起,但不包括來(lái)自目標信號源的語(yǔ)音信號。盡管公開(kāi)內容解釋說(shuō),拼接可以通過(guò)交疊添加法(這是一種數學(xué)運算)來(lái)執行,但權利要求中并未詳細說(shuō)明如何執行拼接。此外,雖然權利要求中提到了變量,但變量本身并不是數學(xué)關(guān)系、公式或計算。因此,組合步驟只是基于或涉及數學(xué)概念,但并沒(méi)有記載數學(xué)概念。生成混合語(yǔ)音信號,使其包括來(lái)自不同來(lái)源的語(yǔ)音信號,并剔除來(lái)自目標源的語(yǔ)音信號,這不是一種可以在人腦中實(shí)際執行的過(guò)程。因此,步驟(g)既不是數學(xué)概念,也不是思維過(guò)程。此外,步驟(g)也不是組織人類(lèi)活動(dòng)的方法,因為它不屬于所列舉的子類(lèi)別。
如上所述,(b)-(e)項限定被視為一種單一的抽象想法,權利要求被視為包含了屬于抽象想法的數學(xué)概念類(lèi)別的限定。(步驟2A分支一:是)。
步驟2A分支二:這部分的適格分析評估的是權利要求作為一個(gè)整體是否將所記載的司法排除對象融入排除對象的實(shí)際應用中。這一評估是通過(guò)以下方式進(jìn)行的:(1)確定權利要求中除了司法排除對象之外是否還記載了任何附加元素;(2)對這些附加元素進(jìn)行單獨和組合評估,以確定權利要求作為一個(gè)整體是否將排除對象融入實(shí)際應用中。參見(jiàn) MPEP 2106.04(d)。
如上所述對權利要求 1的討論,步驟(a)記載了接收混合語(yǔ)音信號的數據收集步驟,步驟(c)記載了使用DNN確定嵌入向量,相當于“應用它”。
步驟(h)記載了“將混合語(yǔ)音信號x' 發(fā)送到遠程位置存儲”。如上所述,傳輸混合語(yǔ)音信號 x' 的預期結果是將其存儲到遠程位置以供將來(lái)使用,例如用于音頻播放或上傳到社交媒體網(wǎng)站。這一限定僅僅是傳輸數據輸出的后解決步驟——是對權利要求的一種微不足道的補充,并沒(méi)有對權利要求進(jìn)行有意義的限定。因此,步驟(h)是解決方案之外的次要行為。參見(jiàn)MPEP 2106.05(g)。在限定(b)、(c)、(d)和(e)中記載的抽象想法之外,其余的附加限定是限定(f)中記載的從掩碼簇合成語(yǔ)音波形,以及限定(g)中記載的生成混合語(yǔ)音信號,其剔除來(lái)自目標源的語(yǔ)音信號。
步驟(f)記載了“合成來(lái)自掩碼簇的語(yǔ)音波形,其中每個(gè)語(yǔ)音波形對應于不同的來(lái)源Sn”,步驟(g)記載了“通過(guò)拼接對應于不同來(lái)源Sn的語(yǔ)音波形,生成混合語(yǔ)音信號x’,剔除來(lái)自目標源Ss的語(yǔ)音波形,從而使混合語(yǔ)音信號x’包括來(lái)自不同來(lái)源Sn的語(yǔ)音信號,其中n∈{1, ……N},并剔除來(lái)自目標源Ss的語(yǔ)音信號”。步驟(f)和(g)將抽象想法融入到實(shí)際應用中。公開(kāi)內容中解釋說(shuō),捕捉音頻的設備無(wú)法正確區分屬于同一類(lèi)別的不同語(yǔ)音源,而目前可用的解決方案并不能充分解決這一問(wèn)題,因為它們需要目標用戶(hù)(其語(yǔ)音需要被識別)明確地與設備進(jìn)行交互,以提供訓練數據。公開(kāi)內容指出,本發(fā)明提供了一種特殊的語(yǔ)音分離技術(shù),解決了將屬于同一類(lèi)別的不同語(yǔ)音源的語(yǔ)音分離出來(lái)的問(wèn)題,同時(shí)不需要事先了解說(shuō)話(huà)者的數量或針對說(shuō)話(huà)者的訓練,從而改進(jìn)了現有的語(yǔ)音分離方法。該權利要求反映了公開(kāi)內容中討論的改進(jìn),詳細記載了 DNN 如何幫助簇分配,以對應混合語(yǔ)音信號中識別出的語(yǔ)音源,然后在時(shí)域中合成為單獨的語(yǔ)音波形,并轉換為混合語(yǔ)音信號,剔除不需要的語(yǔ)音源的音頻。參見(jiàn) MPEP 2106.05(a)。雖然步驟(b)-(e)本身包含了司法排除對象,但步驟(f)和(g)的目的是創(chuàng )建一個(gè)新的語(yǔ)音信號,該信號不再包含來(lái)自不需要信號源的無(wú)關(guān)語(yǔ)音信號。所要求保護的發(fā)明通過(guò)包含這些特征反映了這一技術(shù)改進(jìn)。此外,將語(yǔ)音簇轉換為單獨的語(yǔ)音波形,以及從單獨的語(yǔ)音波形生成混合語(yǔ)音信號并不是解決方案之外的次要行為,也不僅僅是指示應用排除對象,或僅僅是使用領(lǐng)域的限定。相反,這些步驟反映了公開(kāi)內容中描述的改進(jìn)。因此,該權利要求針對的是對現有計算機技術(shù)或語(yǔ)音分離技術(shù)的改進(jìn),該權利要求將抽象想法融入了實(shí)際應用中。(步驟2A分支二:是)。權利要求適格。(步驟2A:否)。
權利要求3適格。
權利要求的解釋?zhuān)?/strong>根據最寬泛合理解釋?zhuān)瑱嗬蟮男g(shù)語(yǔ)被推定為具有與本領(lǐng)域普通技術(shù)人員對說(shuō)明書(shū)的解釋一致的常規含義。參見(jiàn)《專(zhuān)利審查操作指南》(MPEP)2111。前序部分明確指出,該權利要求涉及一種非暫時(shí)計算機可讀存儲介質(zhì),該存儲介質(zhì)包含指令,當指令被與其關(guān)聯(lián)的一個(gè)或多個(gè)處理器執行時(shí),可使處理器執行權利要求中所述的接收、生成和產(chǎn)生步驟。本公開(kāi)內容給出了隨機存取存儲器、閃存、磁/光存儲器等作為非暫時(shí)計算機可讀存儲介質(zhì)的示例,但權利要求并沒(méi)有說(shuō)明非暫時(shí)計算機可讀存儲介質(zhì)的類(lèi)型。
關(guān)于步驟(a),權利要求沒(méi)有對如何接收混合語(yǔ)音信號做出任何限定。對混合語(yǔ)音信號最寬泛合理解釋是包括來(lái)自不同來(lái)源的可聽(tīng)語(yǔ)音?;旌险Z(yǔ)音信號可以通過(guò)用戶(hù)設備中的麥克風(fēng)或其他將聲音轉換為電信號的傳感器接收。權利要求要求對接收這種混合語(yǔ)音信號的DNN進(jìn)行來(lái)源分離訓練。
關(guān)于步驟(b),權利要求規定DNN用于將混合語(yǔ)音信號的時(shí)頻表達轉換為特征空間中的嵌入,但并未提供有關(guān)DNN本身的任何結構細節。說(shuō)明書(shū)討論了在STFT域處理混合語(yǔ)音信號以獲得時(shí)間特征和頻譜圖,然后DNN使用這些特征和頻譜圖確定特征空間中作為輸入信號函數的嵌入向量V。由于權利要求中沒(méi)有說(shuō)明如何獲得混合語(yǔ)音信號的時(shí)頻表達或如何將其轉換為作為信號x的函數的嵌入,因此該子步驟可以按照說(shuō)明書(shū)或本領(lǐng)域普通技術(shù)人員已知的任何其他方法執行。
步驟(c)要求使用k均值聚類(lèi)算法對嵌入進(jìn)行聚類(lèi),但對算法的實(shí)現方式不做任何限定。聚類(lèi)可以使用本公開(kāi)中描述的k均值算法,也可以使用本領(lǐng)域普通技術(shù)人員已知的其他方法。
步驟(d)通過(guò)對聚類(lèi)應用二進(jìn)制掩碼獲得掩碼簇。對于本領(lǐng)域的普通技術(shù)人員來(lái)說(shuō),“應用二進(jìn)制掩碼”的常規含義是使用二進(jìn)制矩陣來(lái)指示哪些表達部分應該打開(kāi)或關(guān)閉的數學(xué)運算。這種掩碼可以用本領(lǐng)域已知的任何方式進(jìn)行,例如,對兩個(gè)數字進(jìn)行位操作或將二進(jìn)制矩陣與另一種數字表達相乘等等。
步驟(e)要求在時(shí)域中將掩碼簇轉換為單獨的語(yǔ)音信號,與混合語(yǔ)音信號中的不同音源相對應。權利要求沒(méi)有具體說(shuō)明如何進(jìn)行轉換。
最后一步(f)要求從步驟(e)的輸出中僅從N個(gè)分離的語(yǔ)音信號中的目標源Sd提取頻譜特征,并從頻譜特征中生成詞語(yǔ)序列,以生成與目標源Sd相對應的語(yǔ)音信號轉錄本。公開(kāi)內容指出,從反STFT步驟輸出的所需語(yǔ)音信號被傳輸到ASR,ASR使用傳統方法從所需來(lái)源Sd中提取頻譜特征并生成詞語(yǔ)序列,然后將其轉換為文本。權利要求中沒(méi)有具體說(shuō)明提取和生成的特定方式;因此,提取頻譜特征和生成詞語(yǔ)序列的步驟可以由本領(lǐng)域已知的ASR系統實(shí)現,以生成文本。
因此,對權利要求3最寬泛合理解釋是,非暫時(shí)計算機可讀存儲介質(zhì)存儲指令,當指令被處理器執行時(shí),使處理器執行以下步驟:通過(guò)DNN接收由來(lái)自不同來(lái)源的音頻構成的混合語(yǔ)音信號,DNN從信號的時(shí)頻表達計算嵌入向量。然后,將嵌入向量劃分為簇,并將簇轉換為時(shí)域中的單獨語(yǔ)音信號。在這些分離的語(yǔ)音信號中,只有一個(gè)特定的分離語(yǔ)音信號會(huì )被轉換成文本,從而生成一份轉錄本。
步驟1:這部分的適格分析評估權利要求是否屬于任何法定類(lèi)別。參見(jiàn)MPEP 2106.03。前序部分明確指出,該權利要求涉及一種非暫時(shí)計算機可讀介質(zhì),該介質(zhì)可使與其關(guān)聯(lián)的一個(gè)或多個(gè)處理器執行一系列步驟。本公開(kāi)內容給出了隨機存取存儲器、閃存和磁/光存儲器作為非暫時(shí)計算機可讀存儲介質(zhì)的非限定性示例。依據公開(kāi)內容,對該權利要求的最寬泛合理解釋只包括有關(guān)計算機可讀介質(zhì)的法定實(shí)施例,而不包括暫態(tài)信號。非暫時(shí)計算機可讀存儲介質(zhì)屬于“制造物”類(lèi)別的發(fā)明。(步驟1:是)。
該權利要求記載了一系列步驟,因此是一種方法。參見(jiàn)MPEP 2106.03(步驟1:是)。
步驟2A分支一:這部分適格分析評估了權利要求是否記載了司法排除對象。正如 MPEP 2106.04 第II小節所解釋的,當司法排除對象在權利要求中被“闡釋”或“描述”時(shí),權利要求即“記載”了司法排除對象。步驟(b)要求將混合語(yǔ)音信號的時(shí)頻表達轉換為特征空間中作為混合語(yǔ)音信號函數的嵌入,這是以文本格式書(shū)寫(xiě)的數學(xué)公式。步驟(c)需要通過(guò)k均值聚類(lèi)算法對嵌入進(jìn)行聚類(lèi),這是一種數學(xué)計算。步驟(d)通過(guò)對聚類(lèi)應用二進(jìn)制掩碼來(lái)獲得掩碼簇,這也是一種數學(xué)計算。因此,權利要求中的數學(xué)計算屬于抽象想法中的數學(xué)概念類(lèi)別。
步驟(e)要求將特征空間中的點(diǎn)簇轉換為時(shí)域中的語(yǔ)音信號,這不是人類(lèi)頭腦中可以實(shí)際完成的過(guò)程。此外,雖然轉換可能基于數學(xué)概念,但權利要求中并沒(méi)有說(shuō)明任何數學(xué)公式、計算或關(guān)系。
最后,步驟(f)要求從步驟(e)輸出的N個(gè)分離信號中僅提取一個(gè)目標源Sd的頻譜特征,并從頻譜特征生成詞語(yǔ)序列,以生成與目標源Sd相對應的語(yǔ)音信號轉錄本。從信號中提取頻譜特征并從這些提取的特征中生成單詞序列以生成文本的過(guò)程并不能在人腦中實(shí)際完成。雖然這種提取和生成涉及數學(xué)運算,但權利要求并沒(méi)有具體說(shuō)明任何數學(xué)公式、計算或關(guān)系。步驟(e)和(f)也不屬于所列舉的人類(lèi)活動(dòng)組織方法的子類(lèi)別。因此,步驟(e)和(f)不屬于司法排除對象。
正如MPEP中所解釋的,當一項權利要求記載了屬于相同或不同類(lèi)別的多個(gè)抽象想法時(shí),審查員應將這些限定視為一個(gè)單一的抽象想法,而不是作為多個(gè)單獨的抽象想法進(jìn)行單獨分析。如上所述,(b)-(d)的限定中記載了數學(xué)概念。由于(b)-(d)所有步驟都屬于同一類(lèi)抽象想法(即數學(xué)概念),這些限定被視為單一抽象想法進(jìn)行進(jìn)一步分析。(步驟2A分支一:是)。
步驟2A分支二:這部分的適格分析評估的是權利要求作為一個(gè)整體是否將所記載的司法排除對象融入排除對象的實(shí)際應用中。這一評估是通過(guò)以下方式進(jìn)行的:(1)確定權利要求中除了司法排除對象之外是否還記載了任何附加元素;(2)對這些附加元素進(jìn)行單獨和組合評估,以確定權利要求作為一個(gè)整體是否將排除對象融入實(shí)際應用中。參見(jiàn)MPEP 2106.04(d)。
權利要求3的步驟(a) 作為附加限定記載了“接收混合語(yǔ)音信號x,該信號包括來(lái)自多個(gè)不同來(lái)源的語(yǔ)音Sn,其中n∈{1, ……N}” 正如上文權利要求解釋部分所討論的,該限定的要求具有高度通用性,可以描述通過(guò)用戶(hù)設備中的麥克風(fēng)或其他聲音傳感器接收混合語(yǔ)音信號。該限定只不過(guò)是收集數據。為了使用所記載的司法排除對象來(lái)執行步驟(b)、(c)和(d)的計算,必然需要獲取數據。該限定并未對權利要求施加任何其他有意義的限定。因此,這一附加限定是解決方案之外的次要行為。參見(jiàn)MPEP 2106.05(g)。
在步驟(b)中記載的抽象想法之外的另一個(gè)附加限定是使用經(jīng)過(guò)源分離訓練的 DNN。在確定一項權利要求是否僅僅是以“應用它”(或等同物)的措辭記載了一個(gè)司法排除對象,例如僅僅指示是在計算機上實(shí)現一種抽象想法時(shí),審查員可以考慮以下幾點(diǎn):(1) 權利要求是否只記載了解決方案或結果的想法,即權利要求沒(méi)有記載如何完成問(wèn)題解決方案的細節;(2) 權利要求是否只是將計算機或其他機器作為執行現有程序的工具;以及 (3) 應用司法排除對象的特殊性或一般性。參見(jiàn) MPEP 2106.05(f)。在本案中,權利要求沒(méi)有記載有關(guān)特定DNN的細節。DNN 被用來(lái)泛泛地應用抽象想法(即執行步驟(b)中記載的數學(xué)計算),而沒(méi)有對DNN如何操作以推導出嵌入向量做出任何限定。此外,該限定還涵蓋了使用DNN實(shí)現所述抽象想法的每一種模式。該權利要求省略了DNN如何解決技術(shù)問(wèn)題的全部細節,而只記載了解決方案或結果的想法。參見(jiàn)MPEP 2106.05(f)。因此,該限定僅僅代表了指示實(shí)現步驟(b)中所記載的抽象想法,相當于在所記載的司法排除對象中添加了“應用它”的字樣。此外,權利要求將步驟(b)中記載的司法排除對象的使用限定在DNN的技術(shù)環(huán)境中,將司法排除對象的使用與記載的DNN泛泛地聯(lián)系起來(lái)。因此,這種一般性的DNN記載并沒(méi)有將司法排除對象融入實(shí)際應用中。參見(jiàn)MPEP 2106.05(h)。因此,也可以將其視為只是試圖將司法排除對象的使用與特定的使用領(lǐng)域或技術(shù)環(huán)境泛泛地聯(lián)系起來(lái)。
剩余的附加限定是步驟(e)和步驟(f),步驟(e)在時(shí)域中將掩碼簇轉換為N個(gè)獨立的語(yǔ)音信號,步驟(f) 僅從步驟(e)輸出的N個(gè)獨立信號中的一個(gè)目標源Sd 提取頻譜特征,并根據頻譜特征生成詞語(yǔ)序列,從而生成一份轉錄本。這些額外限定將步驟(b)、(c)和(d)中記載的抽象想法融入語(yǔ)音至文本轉換的實(shí)際應用中。
該公開(kāi)內容解釋說(shuō),由于無(wú)法區分屬于同一類(lèi)別的不同語(yǔ)音源,捕獲音頻的設備在區分感興趣的人之間的對話(huà)和不需要的話(huà)語(yǔ)方面表現不佳,從而導致錄制的語(yǔ)音轉錄質(zhì)量低下。公開(kāi)內容指出,本發(fā)明提供了一種特殊的語(yǔ)音分離技術(shù),解決了從同一類(lèi)別的不同語(yǔ)音源中分離語(yǔ)音的問(wèn)題,同時(shí)還能很好地處理同一語(yǔ)音類(lèi)別中不同說(shuō)話(huà)者之間的差異,從而改進(jìn)了現有的語(yǔ)音分離方法。該公開(kāi)內容指出,本發(fā)明通過(guò)DNN根據輸入信號的全局屬性推導嵌入向量,這是對現有技術(shù)語(yǔ)音分離方法的改進(jìn)。此外,本發(fā)明還使用了語(yǔ)音信號的時(shí)間和空間特征;本發(fā)明的這一特點(diǎn)有助于下游傳統語(yǔ)音轉文本系統縮小重音揚聲器在轉錄性能上與傳統語(yǔ)音轉文本方法的差距。
在這里,權利要求反映了公開(kāi)內容中討論的這些技術(shù)改進(jìn),它詳細記載了在音源分離方面經(jīng)過(guò)訓練的DNN如何幫助進(jìn)行簇分配,以對應混合語(yǔ)音信號中識別出的音源,然后在時(shí)域中將這些音源轉換為單獨的語(yǔ)音信號,以便從頻譜特征中生成單詞序列,從而使每個(gè)分離的語(yǔ)音信號的單獨轉錄成為可能。參見(jiàn) MPEP 2106.05(a)。
雖然(b)、(c)和(d)步驟本身記載了一種抽象想法,但接收混合語(yǔ)音信號、處理語(yǔ)音信號以產(chǎn)生掩碼簇、在時(shí)域中將掩碼簇轉換為單獨信號、從這樣的一個(gè)轉換信號中提取頻譜特征,以及從提取的頻譜特征中生成詞語(yǔ)序列以產(chǎn)生轉錄本等步驟的有序組合,反映了公開(kāi)內容中討論的技術(shù)改進(jìn)。因此,該權利要求針對的是對現有語(yǔ)音到文本技術(shù)的改進(jìn),該權利要求將步驟(b)、(c)和(d)中記載的抽象思想融入語(yǔ)音到文本轉換的實(shí)際應用中,該語(yǔ)音信號對應于混合語(yǔ)音信號的一個(gè)源。因此,權利要求作為一個(gè)整體將司法排除對象融入了實(shí)際應用中(步驟 2A分支二:是),因此權利要求并非針對司法排除對象。(步驟 2A:否)。該權利要求適格。
注釋?zhuān)?/strong>
* 本文翻譯自《July 2024 Subject Matter Eligibility Examples》,來(lái)源美國專(zhuān)利商標局官網(wǎng),https://www.uspto.gov/patents/laws/examination-policy/subject-matter-eligibility。
相關(guān)閱讀:
1、美國專(zhuān)利商標局2024年7月專(zhuān)利適格指南更新及最新案例導讀
(原標題:USPTO《2024年7月主題適格示例集》全譯【二】)
點(diǎn)擊“閱讀原文”查看USPTO《2024年7月主題適格示例集》原件。
來(lái)源:IPRdaily中文網(wǎng)(iprdaily.cn)
翻譯:杜衡
編輯:IPRdaily趙甄 校對:IPRdaily縱橫君
注:原文鏈接:USPTO《2024年7月主題適格示例集》全譯(二)(點(diǎn)擊標題查看原文)
「關(guān)于IPRdaily」
IPRdaily是全球領(lǐng)先的知識產(chǎn)權綜合信息服務(wù)提供商,致力于連接全球知識產(chǎn)權與科技創(chuàng )新人才。匯聚了來(lái)自于中國、美國、歐洲、俄羅斯、以色列、澳大利亞、新加坡、日本、韓國等15個(gè)國家和地區的高科技公司及成長(cháng)型科技企業(yè)的管理者及科技研發(fā)或知識產(chǎn)權負責人,還有來(lái)自政府、律師及代理事務(wù)所、研發(fā)或服務(wù)機構的全球近100萬(wàn)用戶(hù)(國內70余萬(wàn)+海外近30萬(wàn)),2019年全年全網(wǎng)頁(yè)面瀏覽量已經(jīng)突破過(guò)億次傳播。
(英文官網(wǎng):iprdaily.com 中文官網(wǎng):iprdaily.cn)
本文來(lái)自IPRdaily中文網(wǎng)(iprdaily.cn)并經(jīng)IPRdaily.cn中文網(wǎng)編輯。轉載此文章須經(jīng)權利人同意,并附上出處與作者信息。文章不代表IPRdaily.cn立場(chǎng),如若轉載,請注明出處:“http://qaqi.cn”