語音和圖象、視頻1樣,是人與人之間溝通的交換方式。
語音信號處理是1門綜合性的學科,它與語音學、心理學、數字信號處理、計算機科學、模式辨認等有著密切聯系。
語音技術1般可以分為3大類:
1.人與人之間的通訊:語音增強、語音編碼、語音通訊、VOIP等
簡單的說,以網絡為載體,實現人與人之間的語音通訊,觸及到語音前端去噪,增強,語音緊縮編碼等。
語音增強、語音去噪等, 主要解決的是前端問題,單純的語音、音頻處理技術主要利用在嵌入式方向。
開源的像Webrtc、Speex之類。
VOIP、語音通訊主要對網絡協議等需求更多1些,VOIP和傳統移動語音通訊相比,主要體現在價格上的優勢,通話質量上和傳統相比還是有1定差距。 現在移動運營商的收益也在逐步減低,當價格上有所調劑時,VOIP估計也很難生存了。
這1類崗位主要集中在芯片類、通訊類、語音類、嵌入式、少數互聯網公司:高通、聯發科、展訊、科大訊飛、華為、思科、愛立信、哈曼、創新科技、微軟Skype、騰訊等。
語音、音頻編碼,做標準的很少,單純做算法的也很少。主要需求集中圍繞著具體的芯片在代碼和性能做底層匯編優化,1般很少能觸及到算法層面的優化。
開源的像ffmpeg 等,未來安卓平臺也會像蘋果1樣,都支持硬解,所以這方面就業情況更窄。
2.語音合成:
簡單的說,機器說話給人聽,代替人把相干的信息繪聲繪色的念出來。
主要流程:
語音庫 訓練好模型
文本分析,上下文語義分析,韻律分析,輸出語音參數
語音合成器輸出
技術相對較為成熟,像HTS、Straight等,每塊模塊都非常重要,都需要深入研究,才能合成出高質量的語音,所以需要全部團隊成員配合。
功能:由文本產生語音,解放了用戶的雙眼。
利用:語音合成引擎,它的優化在于大范圍,任意文本組合發音,目前市場上有懶人說書、聽書之類的APP。
如果是小量的語音需求,完全用錄音就能夠代替,本錢低。
3.語音辨認和理解:
簡單的說,人說話,機器能夠聽懂,能夠依照人說的內容和唆使,代替人完成相干的操作。相干的還有說話人辨認、情感辨認、語種辨認、語音測評、語義理解等。
行業現狀:
傳統的語音公司:Nuance、科大訊飛、捷通華聲等。
傳統的軟件類公司:微軟、IBM等。
互聯網公司:云知聲、百度等。
1方面語音辨認是最難的語音技術,搭建好辨認平臺相對容易,有很多開源的項目,像HTK、Kaldi,但是本質進1步提高辨認率其實不簡單。
它包括了許多個模塊技術,門坎很高,數學功底深厚,這1類的人材更加希少。
首先,必須要準備好大量的語音庫,做好訓練和辨認。
其次,就算你只深入到語音辨認的某1項技術,首先必須搭建1整套辨認流程來檢測實驗的效果。
再者,基本上各個模塊都能影響到辨認率,特別是噪聲,所以也必須要熟習這些模塊。
最后,還有其它技術還在等著你,中文分詞、語言模型的訓練和建立、和后期的自然語言處理、語義辨認、云端服務等。
另外一方面,目前語音辨認盈利模式還不是很明朗,所以也決定了投入這1塊的人力也很稀缺。
初期做這1塊的微軟和IBM基本上也不靠這個盈利,Nuance的贏利點主要在車載、醫療轉錄等,最后也是與蘋果合作,做了款SIRI,火了1把。
國內的科大訊飛,在辨認方向盈利也很低。
http://www.huxiu.com/article/9885/1.html
該公司的營收主要依托傳統業務如普通話測評、英語測評、呼喚中心、嵌入式語音導航和毛利率很低的信息工程業務。
所以“科大訊飛”、云知聲開放了自己的云平臺,提供免費API,給產品利用公司提高效力,下降本錢,侵占更大的市場,將語音技術融入到互聯網當中,必將會有1些小語音公司或團隊將會解散。
雖然如此,語音辨認依然是解決用戶與機器交互體驗性最好的方式,未來前景1片光明。
語音公司向來不依賴于員工范圍,關鍵的是幾個技術大牛,所以語音公司或部門人數比較少,令缺勿濫。
未來只有少數比較牛的團隊才能生存下來,其它的都會被Kill掉。
1方面,互聯網語音技術,用戶肯定免費,所以未來語音公司可能向第3方公司收取費用,也就是說,語音公司是給大多數公司提供解決方案,第3方公司給報酬。因此大公司BAT都有組建自己的語音團隊,不依賴第3方,效果據稱不錯。
另外一方面,語音技術公司未來可能會轉型,不單單給第3方公司提供語音技術支持,將技術轉化成產品,語音公司也將會開發直接面向用戶的產品,將盈利方式多樣化,所以未來利用開發的產品人員需求可能增多。
4.音樂技術:
聽音識曲,放個音樂片斷,能檢索出歌曲的名稱。
哼唱識曲:哼唱音樂片斷,能檢索出歌曲的名稱。
這個需求主要存在于互聯網音樂類軟件中,目前大多數播放器都有自己的檢索,其它主要依賴于音樂雷達。
從對語音、音頻技術來看全部技術行業:
技術里面,掌舵好方向,提供解決方案的人材是最重要的。
技術1般依賴于團隊,1個人很難撐起。
技術能細化成很多單元,每一個人精力有限,只是其中的1顆螺絲釘,只能深入1部份,了解全部全局。
不能夠單純弄技術,技術的尋求永久是無止境的。
技術更新是非常快的,特別是在開源的大趨勢下,所以在年輕的時候必須淘到錢。
做技術要像醫生1樣,做些有積累性的技術,利用面、公司比較需求比較寬的技術,這樣才會值錢。太窄的技術只會把人作死,除非是在大公司還可以換崗。
技術必須轉化成產品,必須有盈利才會持久。
做技術的同時,結交各種各樣的人材,多多開闊眼界,說不定,有1天,你需要他們,或他們需要你。
再感興趣的事情,干多了也會覺得沒啥意思,最后都是往錢看,特別是年齡越大的時候。
盡可能接觸1些產品,能將自己的技術沉淀到產品中,開發出1個自己的產品。
互聯網的精神是開源,最需的是創意、點子。
總而言之,技術全部產品線的1環,它是為了解決問題而存在,問題是由于用戶需求在,解決需求是由于有錢在推動。
上一篇 常用命令