spaCy是一款提供給編程人員使用的句法解析器軟件,這款軟件可以對Python和Cython高級自然語言進行解析處理,然后我們就可以快速分析這些代碼語言中是否存在錯誤和漏洞了。
spaCy 是一個 Python 和 CPython 的 NLP 自然語言文本處理庫。它建立在最新的研究基礎上,從設計的第一天起就被用于實際產品中。
spaCy 自帶預訓練的管道,目前支持 60 多種語言的標記化和訓練。它具有最先進的速度和神經網絡模型,可用于標記、解析、命名實體識別、文本分類等,使用 BERT 等預訓練的變換器進行多任務學習,以及生產就緒的訓練系統和簡單的模型打包、部署和工作流管理。
非破壞性標記化
指定實體的確認
預訓練的統計模型和單詞向量
迅猛的速度
強大的、經過嚴格評估的精度
簡單的深度學習集成
語音部分標簽
標簽化依賴性解析
方便的字符串到哈希值映射
句法驅動的句子分割
內置的語法和NER的可視化工具。
高效的二進制序列化
Numpy數據數組導出
簡單的模型包裝和部署
支持50多種語言
en_core_web_sm:英語多任務CNN,在OntoNotes上訓練,大小為11 MB
en_core_web_md:英語多任務CNN,在OntoNotes上訓練,并且使用Common Crawl上訓練的GLoVe詞嵌入,大小為91 MB
en_core_web_lg:英語多任務CNN,在OntoNotes上訓練,并且使用Common Crawl上訓練的GLoVe詞嵌入,大小為789 MB