在這個(gè)項(xiàng)目中,我構(gòu)建了啟用語(yǔ)音的可教機(jī)器,該機(jī)器可以掃描書頁(yè)或任何文本源中的文本并將其轉(zhuǎn)換為上下文,用戶可以提出與該上下文有關(guān)的問題,并且該機(jī)器可以僅使用上下文進(jìn)行回答。我一直想制造一種易于部署且可以輕松針對(duì)給定上下文進(jìn)行培訓(xùn)而無(wú)需任何互聯(lián)網(wǎng)連接的邊緣設(shè)備。
硬件部件:
- Raspberry Pi 4 B型×1個(gè)
- 英特爾神經(jīng)計(jì)算棒2×1個(gè)
- Seeed ReSpeaker 2-麥克風(fēng)Pi HAT×1個(gè)
- Raspberry Pi攝像頭模塊V2×1個(gè)
- 喇叭3W x 2×1個(gè)
軟件應(yīng)用程序和在線服務(wù):
- 樹莓派Raspbian
- 英特爾OpenVINO工具包
- Tesseract OCR
- 深度語(yǔ)音
應(yīng)用程序中使用的機(jī)器學(xué)習(xí)模型
使用了三種機(jī)器學(xué)習(xí)模型:
1. Tesseract OCR(基于LSTM的模型)
Tesseract是一種OCR引擎,支持unicode,并具有開箱即用地識(shí)別100多種語(yǔ)言的能力??梢杂?xùn)練它識(shí)別其他語(yǔ)言。
2. DeepSpeech(TensorFlow Lite型號(hào))
DeepSpeech是一個(gè)開源的語(yǔ)音轉(zhuǎn)文本引擎,使用由機(jī)器學(xué)習(xí)技術(shù)訓(xùn)練的模型,該模型由Google的TensorFlow簡(jiǎn)化實(shí)施。
3. BERT
BERT是一種語(yǔ)言表示模型,代表變壓器的雙向編碼器表示。預(yù)訓(xùn)練的BERT模型僅需增加一個(gè)輸出層即可進(jìn)行微調(diào),以創(chuàng)建適用于各種任務(wù)(例如問題解答和語(yǔ)言推論)的最新模型,而無(wú)需進(jìn)行大量針對(duì)特定任務(wù)的體系結(jié)構(gòu)修改。
前兩個(gè)模型在Raspberry Pi 4上運(yùn)行,最后一個(gè)模型在使用OpenVINO Toolkit的Intel Neural Compute Stick 2上運(yùn)行。