本文介紹了刪除POS標簽器的標簽的處理方法,對大家解決問題具有一定的參考價值,需要的朋友們下面隨著小編來一起學習吧!
問題描述
可以去掉句子中的標簽嗎?你可以通過掃描文件并找到標簽并刪除它們來實現這一點,但由于標簽很多(一些型號有30+,一些型號大約有48-50,它們基本上遵循penn treebank pos tags),有沒有一種快速而甜蜜的方法來更有效地刪除標簽?
我確實檢查了API,但沒有這樣的方法來移除標簽。
推薦答案
沒有為此專門構建的內容,但由于輸出既包括單詞又包括其標記,我不確定為什么需要再次掃描原始文檔。難道不能通過刪除最后一個標記分隔符(‘/’或其他字符)直到空格來刪除標記嗎?或者,它可以更簡單地使用
-outputFormat tsv
然后,您將獲得兩列輸出,其中單詞在第一列,標記在第二列,完成后只需保留第一列。
這篇關于刪除POS標簽器的標簽的文章就介紹到這了,希望我們推薦的答案對大家有所幫助,