本周優(yōu)秀開源項(xiàng)目分享,人員檢測(cè)和跟蹤、OCR工具庫(kù)、漢字字符特征提取工具 等8大開源項(xiàng)目
?Deep-SORT-YOLOv4 使用Tensorflow進(jìn)行人員檢測(cè)和跟蹤
將YOLO v3替換成了YOLO v4,并添加了用于異步處理的選項(xiàng),這大大提高了FPS。但是,使用異步處理時(shí)FPS監(jiān)視將被禁用,因?yàn)樗粶?zhǔn)確。
從本文中提取了算法,并將其實(shí)現(xiàn)到deep_sort / track.py中。確認(rèn)軌跡的原始方法僅基于檢測(cè)到對(duì)象的次數(shù)而不考慮檢測(cè)置信度,從而在發(fā)生不可靠的檢測(cè)時(shí)(即低置信度真陽(yáng)性或高置信度假陽(yáng)性)導(dǎo)致高跟蹤誤報(bào)率。
軌道過(guò)濾算法通過(guò)在確認(rèn)軌道之前計(jì)算一組檢測(cè)次數(shù)的平均檢測(cè)置信度,從而大大降低了這一點(diǎn)。

請(qǐng)注意,此處使用的跟蹤模型僅針對(duì)跟蹤人員進(jìn)行了訓(xùn)練,因此您需要自己訓(xùn)練模型以跟蹤其他對(duì)象。
項(xiàng)目環(huán)境:
Tensorflow GPU 1.14
Keras 2.3.1
opencv-python 4.2.0
imutils 0.5.3
numpy 1.18.2
sklearn
項(xiàng)目地址:
https://github.com/LeonLok/Deep-SORT-YOLOv4
?PytorchOCR 基于Pytorch的OCR工具庫(kù)
PytorchOCR旨在打造一套訓(xùn)練,推理,部署一體的OCR引擎庫(kù)。支持常用的文字檢測(cè)和識(shí)別算法。

crnn訓(xùn)練與python版預(yù)測(cè)
DB訓(xùn)練與python版預(yù)測(cè)
imagenet預(yù)訓(xùn)練模型
環(huán)境配置:
pytorch 1.4+
torchvision 0.5+
gcc 4.9+ (pse,pan會(huì)用到)
在ICDAR2015文本檢測(cè)公開數(shù)據(jù)集上,算法效果如下:

項(xiàng)目地址:
https://github.com/WenmuZhou/PytorchOC
?PixelLib 圖像和視頻分割庫(kù)


Pixellib是用于對(duì)圖像和視頻進(jìn)行分割的庫(kù)。它支持兩種主要類型的圖像分割:
語(yǔ)義分割
實(shí)例分割
您可以用幾行代碼實(shí)現(xiàn)語(yǔ)義和實(shí)例分割。
有兩種類型的Deeplabv3 +模型可用于通過(guò)PixelLib執(zhí)行語(yǔ)義分割:
使用Xception作為網(wǎng)絡(luò)主干的Deeplabv3 +模型在Ade20k數(shù)據(jù)集上訓(xùn)練,該數(shù)據(jù)集包含150類對(duì)象。
使用Xception作為網(wǎng)絡(luò)主干的Deeplabv3 +模型在Pascalvoc數(shù)據(jù)集上訓(xùn)練,該數(shù)據(jù)集包含20類對(duì)象。
通過(guò)在可數(shù)據(jù)集上訓(xùn)練的Mask R-CNN模型,使用PixelLib實(shí)現(xiàn)實(shí)例分割。
項(xiàng)目地址:
https://github.com/ayoolaolafenwa/PixelLib
TextGenerator是一個(gè)用來(lái)生成ocr數(shù)據(jù),文字檢測(cè)數(shù)據(jù),字體識(shí)別的最方便的工具。
實(shí)現(xiàn)功能:
生成基于不同語(yǔ)料的,不同字體、字號(hào)、顏色、旋轉(zhuǎn)角度的文字貼圖;
支持多進(jìn)程快速生成;
文字貼圖按照指定的布局模式填充到布局塊中;
在圖像中尋找平滑區(qū)域當(dāng)作布局塊;
支持文字區(qū)域的圖塊摳取導(dǎo)出(導(dǎo)出json文件,txt文件和圖片文件,可生成voc數(shù)據(jù),ICDAR_LSVT數(shù)據(jù)集格式!);
支持每個(gè)文字級(jí)別的標(biāo)注(存入了lsvt的json文件中);
支持用戶自己配置各項(xiàng)生成配(圖像讀取,生成路徑,各種概率);

項(xiàng)目地址:
https://github.com/BboyHanat/TextGenerator
? char_featurizer 漢字字符特征提取工具
char_featurizer 是一個(gè)漢字字符特征提取工具,他可以提取漢字的字音(包括聲母、韻母、聲調(diào))、字形(偏旁、部首)、四角符號(hào)等信息。?
同時(shí)可以將這些特征信息轉(zhuǎn)換為tensor,作為模型的輸入特征。這個(gè)項(xiàng)目是在安德森大佬的 字符提取工具 的基礎(chǔ)上做了優(yōu)化整合。
目前 char_featurizer 支持的功能有:
字形特征提取
字音特征提取
四角編碼提取
tensor轉(zhuǎn)換

項(xiàng)目地址:
https://github.com/charlesXu86/char_featurizer
? yolov3-keras-tf2 yoloV3 V4在keras和Tensorflow 2.2中的實(shí)現(xiàn)

yolov3-keras-tf2最初是yolov3的實(shí)現(xiàn)(訓(xùn)練和推論),并添加了YoloV4支持(2020年6月6日)。
它是最新的實(shí)時(shí)對(duì)象檢測(cè)系統(tǒng)非??焖偾覝?zhǔn)確。有許多支持tensorflow的實(shí)現(xiàn),只有少數(shù)支持tensorflow v2,并且由于找不到適合需求的版本,因此決定創(chuàng)建此版本,該版本非常靈活且可自定義。
它要求Python解釋器版本3.6、3.7、3.7+不是特定于平臺(tái)的,并且是MIT許可的,這意味著您可以隨意使用,復(fù)制,修改,分發(fā)該軟件。
特點(diǎn):
直接從.cfg文件加載的DarkNet模型
YoloV4支持
Tensorflow 2.2和keras api
CPU和GPU支持
隨機(jī)權(quán)重和DarkNet權(quán)重支持
項(xiàng)目地址:
https://github.com/emadboctorx/yolov3-keras-tf2
? TransformerTTS 基于非自回歸Transformer的神經(jīng)網(wǎng)絡(luò)的文本到語(yǔ)音的實(shí)現(xiàn)

基于非自回歸變壓器的文本到語(yǔ)音(TTS)神經(jīng)網(wǎng)絡(luò)的實(shí)現(xiàn)。項(xiàng)目基于以下論文:
Neural Speech Synthesis with Transformer Network
FastSpeech: Fast, Robust and Controllable Text to Speech
我們的預(yù)訓(xùn)練LJSpeech模型與來(lái)自以下方面的預(yù)訓(xùn)練聲碼器兼容:
WaveRNN
MelGAN
由于是非自回歸的,因此該Transformer模型為:
魯棒性:對(duì)于挑戰(zhàn)性句子,沒(méi)有重復(fù)和注意力模式失敗。
快速:沒(méi)有自回歸,預(yù)測(cè)只需花費(fèi)一小部分時(shí)間。
可控制的:可以控制所產(chǎn)生話語(yǔ)的速度。
項(xiàng)目地址:
https://github.com/as-ideas/TransformerTTS
