自動語音識別技術(Automatic Speech Recognition)是一種將人的語音轉換為文本的技術。語音識別是一個多學科交叉的領域,它與聲學、語音學、語言學、數字信號處理理論、信息論、計算機科學等眾多學科緊密相連。由于語音信號的多樣性和復雜性,語音識別系統只能在一定的限制條件下獲得滿意的性能,或者說只能應用于某些特定的場合。
中文名稱 | 自動語音識別 | 外文名稱 | Automatic Speech Recognition |
---|---|---|---|
俗????稱 | 語音聽寫機 | 簡????稱 | ASR |
別????稱 | 語音識別或計算機語音識別 |
首先制作簡易開關,用兩個貼片相互錯開,按下相連即可,可以簡單參考一下,你們家里的開關,看看原理;其次,你可以把導線連載電極上,讓燈泡連接在導線上不就可以了嗎。這些你都可以參考一下實物,簡單分析一下即可...
這個只要在聲控開關的基礎上加一個語音芯片(要定做你的“亮電燈”和“關電燈”的語音芯片),再用一個識別電路與你聲音進行比對相同時輸出控制信號.這還要有一個聲控取樣電路,就是模數轉電路.元件不多,但要調試...
智能語音控制開關在目前在中國也有十多年,家庭安防,智能家電,自動窗簾,智能終端,空中控制,智能照明,集中控制,家電控制,電腦遙控器,智能開關,無線控制,安防系統,智能家居,智能空調,智能插座,電器控制...
格式:pdf
大小:349KB
頁數: 1頁
評分: 4.3
隨著高等職業教育和網絡技術的快速發展,傳統的C/S結構的考試系統已不能滿足使用需求,運用B/S結構設計一套語音識別考試系統體現了許多優勢。本文以齊齊哈爾工程學院考試系統為背景,描述了采用B/S結構模式設計系統的模塊、數據流圖,使用ASP語言設計技術搭建系統平臺,讓學生、教師、管理員三類用戶隨時注冊和登錄,在不同的用戶界面實現不同的系統功能。
格式:pdf
大小:349KB
頁數: 5頁
評分: 4.7
通過語音識別技術在電梯系統的應用研究,文章提出一種具有語音識別功能的電梯外招串行通信板的設計,其以STM32作為主控制芯片,結合LD3320語音識別集成芯片,加入軟硬件抗干擾設計,應用于電梯各層門廳外招系統中,能夠通過語音方式實現呼梯。經過實踐測試,系統工作穩定,實時性良好,通信信號穩定。在安靜環境下,呼梯識別率約達90%;在嘈雜環境中,呼梯識別率還有待進一步提高。
TTS就是Text To Speech,文本轉語音,文本朗讀,差不多是一個意思。在語音系統開發中經常要用到。
目前市場上的TTS很多,實現方式也各式各樣,有的很昂貴,如科大訊飛,據說當初得到863計劃的資助,有很高的技術;有的相對便宜,如捷通華聲, InfoTalk;也有免費的,如微軟的TTS產品。
相對于ASR(Automatic Speech Recognition,自動語音識別)來說,實現一個TTS產品所需要的技術難度不算大,在我看來也就是個力氣活。
要是讓我們來做一個能夠把漢語句子朗讀出來的TTS,我們會怎么做呢?
有一種最簡單的TTS,就是把每個字都念出來,你會問,豈不要錄制6千多個漢字的語音?幸運的是,漢語的音節很少,很多同音字。我們最多只是需要錄制: 聲母數×韻母數×4,(其實不是每個讀音都有4聲),這樣算來,最多只需要錄制幾百個語音就可以了。
在合成的時候需要一張漢字對應拼音的對照表,漢字拼音輸入法也依賴這張表,可以在網上找到,不過通常沒有4聲音調,大不了自己加上,呵呵,要不怎么說是力氣活呢。
這樣做出來的TTS效果也還可以,特別是朗讀一些沒有特別含義的如姓名,家庭住址,股票代碼等漢語句子,聽起來足夠清晰。這要歸功于我們偉大的母語通常都是單音節,從古代的時候開始,每個漢字就有一個詞,表達一個意思。而且漢字不同于英語,英語里面很多連讀,音調節奏變化很大,漢字就簡單多了。
當然,你仍然要處理一些細節,比如多音字,把"銀行"讀成"yin xing"就不對了;再比如,標點符號的處理,數字、字母的處理,這些問題對于寫過很多程序的你,當然不難了。
國內的一些語音板卡帶的TTS,不管是賣錢的還是免費的,大體都是這樣做出來的,也就是這樣的效果。
如果要把TTS的效果弄好一點,再來點力氣活,把基本的詞錄制成語音,如常見的兩字詞,四字成語等,再做個詞庫和語音庫的對照表,每次需要合成時到詞庫里面找。這樣以詞為單位,比以字為單位,效果自然是好多了。當然,這里面還是有個技術,就是分詞的技術,要把復雜的句子斷成合理的詞序列,也有點技術。這也要怪新文化那些先驅們,當初倡導白話文,引進西文的橫排格式、標點符號的時候,沒有引進西文中的空格分詞。不過即使分詞算法那么不高效,不那么準確,也問題不大,如前面所說,漢字是單音節詞,把聲音合起來,大體上不會有錯。
當然,科大訊飛的力氣活又干的多了些,據說已經進化到以常用句子為單位來錄音了,大家可以想像,這要耗費更多的力氣,換來更好的效果。
至于增加一些銜接處的"詞料",弄一些修飾性的音調,我認為是無關緊要的,對整體的效果改進不是太大。
市面上商品化TTS一般還支持粵語,請個粵語播音員錄音,把上面的力氣活重做一遍就是了。
再說句題外話,很多人覺得錄音最好找電臺、電視臺的播音員,其實找個你周圍的女同事來錄制,只要吐字清晰就可以了。在某種情況下,尋常聲音比字正腔圓的新聞聯播來得可愛。
再來說說文本的標識,對于復雜文本,某些內容程序沒有辦法處理,需要標識出來。比如,單純的數字"128",是應該念成"一百二十八"還是"一二八"?解決辦法通常是加入XML標注,如微軟的TTS:"<context ID = "number_cardinal">128</context>"念成"一百二十八","<context ID = "number_digit">128</context>"將念成"一二八"。TTS引擎可以去解釋這些標注。遺憾的是,語音XML標注并沒有形成大家都完全認可的標準,基本上是各自一套。
再說說TTS應用編程,微軟的TTS編程接口叫SAPI,是COM接口,開發起來還是有點麻煩,還好MSDN的網站上資料很全面。微軟的TTS雖然免費,但其中文角色目前是個男聲,聲音略嫌混濁,感覺不爽。
國內一般的廠家提供API調用接口,相對比較簡單,可以方便地嵌入應用程序中去。
商品化的TTS還有個并發許可限制,就是限制同時合成的并發線程數,我覺得這個限制用處不大。無論哪種TTS,都可以將文本文件轉換成語音文件,供語音卡播放。大部分應用句子比較短小,一般不會超過100個漢字,合成的時間是非常短的,弄個線程專門負責合成,其它應用向該線程請求就是了,萬一句子很長,把它分解成多個短句子就是了,播放的速度總是比合成的速度慢。
也很多應用是脫機合成,沒有實時性要求,就更不必買多個許可了。
更多情況下,我們甚至沒有必要購買TTS,比如語音開發中常見的費用催繳,撥通后播放:"尊敬的客戶,您本月的費用是:212元",前面部分對所有客戶都一樣,錄一個語音文件就是了,而數字的合成是很簡單的,你只要錄制好10個數字語音,再加上十,百,千,萬,再加上金錢的單位"元"。
語音合成和語音識別技術是實現人機語音通信,建立一個有聽和講能力的口語系統所必需的兩項關鍵技術。使電腦具有類似于人一樣的說話能力,是當今時代信息產業的重要競爭市場。和語音識別相比,語音合成的技術相對說來要成熟一些,并已開始向產業化方向成功邁進,大規模應用指日可待。
自動語音識別技術(Auto Speech Recognize,簡稱ASR)所要解決的問題是讓計算機能夠“聽懂”人類的語音,將語音中包含的文字信息“提取”出來。ASR技術在“能聽會說”的智能計算機系統中扮演著重要角色,相當于給計算機系統安裝上“耳朵”,使其具備“能聽”的功能,進而實現信息時代利用“語音”這一最自然、最便捷的手段進行人機通信和交互。
語音評測技術,又稱計算機輔助語言學習(Computer Assisted Language Learning)技術,是一種通過機器自動對發音進行評分、檢錯并給出矯正指導的技術。語音評測技術是智能語音處理領域的一項研究前沿,同時又因為能顯著提高受眾對語言(口語)學習的興趣、效率和效果而有著廣闊的應用前景。
自然語言是幾千年來人們生活、工作、學習中必不可少的元素,而計算機是20世紀最偉大的發明之一,如何利用計算機對人類掌握的自然語言進行處理、甚至理解,使計算機具備人類的聽說讀寫能力,一直是國內外研究機構非常關注和積極開展的研究工作。
“面對面翻譯”是訊飛輸入法升級的新增功能。該功能支持中英、中俄、中日、中韓四種對話翻譯模式,并配備有真人發音,中文用戶通過它可以直接與外國友人面對面交流。
文字掃描識別是訊飛輸入法新上線的又一功能。該功能可通過拍照和上傳已有圖片實現。但是受限于文字特別是藝術字體文字的顏色及陰影等變量的干擾,該功能尚不能實現較高的識別率。
方言識別是科大訊飛在AI能力開發上獨具特色的“賣點”,支持22種方言,其中粵語、四川話、東北話、河南話等方言的識別率均已超過90%。
語音答疑:
建造師答疑提供語音提問服務,將問題通過語音清晰表述,系統將進行自動語音識別,分析問題性質,分類篩選,找到最適合的答疑老師,及時給出最準確的深度解析。
拍照答疑:
建造師答疑提供拍照提問服務,將問題及復雜公式通過手機拍照上傳,即可將問題送達分析系統或指定答疑名師,用極簡的操作步驟完成疑問的解答。
最直白的解析:
解析作為對問題的解答與分析,需要通俗易懂,對深入的問題進行通俗的解答,用最直白和形象的語言,力求清晰詮釋誤解點,建造師答疑應用通過答疑團隊對問題的深入討論和探究,從提問的角度出發,完全站在問題發生點解決問題,做到透徹明了。
疑難知識點,名師舉例解答:
對于晦澀難懂的知識點,通過一個經典案例,進行透徹解析,讓死的知識點活起來,賦予每一個知識點生命,從枯燥的學習過程中解放出來,讓學習過程變的更有樂趣,生動鮮活。
經典問題,精彩解析,大家推選:
基于用戶的不斷篩選,實時更新問題及解析推選榜單,大家共同推選和預測本年度最有可能在考試中遇到的問題。
熱播視頻解析推送,只推重點:
熱播視頻是根據歷年來考試中容易犯錯的問題,制作的視頻解析,通過對必考點、易錯點、重難點的講解,將碎片時間合理運用,視頻長度1-3分鐘,從繁雜的工作中抽空學習,已經是更多用戶迫不得已的選擇。