接下來從場景出發(fā),探討HoloLens結(jié)合認(rèn)知服務(wù)可以如何在業(yè)務(wù)場景中發(fā)揮優(yōu)勢,并給出實現(xiàn)難度評級,然后提出予力眾生的設(shè)想和思路。
場景一:借助HoloLens提升客艙服務(wù)質(zhì)量
新聞報道:
“近日某航空公司宣布,他們正在討論嘗試將HoloLens用于機上服務(wù)。在該航空公司描述的系統(tǒng)中,佩戴著HoloLens的空乘人員將能通過人臉識別技術(shù)識別出乘客,檢索出他們的國籍、目的地、身體情況、過敏史,甚至他們最后一次要飲品的時間間隔。除此之外,該項目還希望通過視覺和音頻線索探測出乘客的情緒??粘巳藛T可以看到乘客的情緒由平靜變得焦慮,繼而恢復(fù)平靜。從長期來看,對于那些在來回走動而且雙手不空閑的空中服務(wù)人員來說,增強現(xiàn)實頭顯是他們查看信息的一個好的工具。”
客艙服務(wù)的挑戰(zhàn):
個性化,飛行中往往需要服務(wù)乘客的各種個性化需求,需要準(zhǔn)確及時查詢客戶的信息
特殊情況,不可避免,需要及時了解乘客的情緒波動,預(yù)警可能發(fā)生的特殊情況
MR+AI解決方案:
1. 通過HoloLens結(jié)合圖像識別技術(shù)識別乘客的身份(人臉API)
2. 識別乘客的情緒(情緒API)
3. 為乘客提供更優(yōu)質(zhì)服務(wù)的同時解放雙手(Heads up, hands free特性)
可落地難度總體評估:
第2和3點易于實現(xiàn),難度較低;第1點需要預(yù)先訓(xùn)練再使用面部識別,難度適中。
擴展方案思路:
A. 結(jié)合HoloLens的空間記錄存儲乘客對應(yīng)位置信息(Spatial awareness特性)
B. 結(jié)合認(rèn)知服務(wù)提供多種語音翻譯(翻譯工具語音API)方便與乘客交流
C. 通過語音指令(必應(yīng)語音API、語言理解智能服務(wù)LUIS、知識探索服務(wù)API)搜索特定的信息
D. 預(yù)測客戶需求并給出智能的推薦和決策(自定義決策服務(wù))
該場景可落地難度總體評估:
A. 需要將身份信息與空間信息對應(yīng),難度適中;B. 實現(xiàn)難度較低,但提高翻譯準(zhǔn)確度難度較大;C. 易于實現(xiàn),難度較低;D. 需要足夠的上下文數(shù)據(jù),難度適中。
場景二:為所有人設(shè)計的MR體驗
予力眾生:
我們需要思考讓混合現(xiàn)實為所有人帶來便利,通過將HoloLens與AI結(jié)合,可以有很大可能更好地解決不同的人在使用HoloLens時的難點。
MR+AI解決方案:
1. 對于不便于用手勢、不方便看的人,可以結(jié)合語音和語言服務(wù)利用語音和HoloLens交互(必應(yīng)語音API、語言理解智能服務(wù)LUIS)
2. 對于不方便聽和說的人,可以結(jié)合語言服務(wù)(語言理解智能服務(wù)LUIS)準(zhǔn)確識別出意圖后利用視覺圖像反饋與之進行交互
可落地難度總體評估:
第1點易于實現(xiàn),難度較低;第2點需要考慮如何快速進行文字輸入,需要視覺反饋準(zhǔn)確反映意圖,總體難度適中。
HoloLens與微軟認(rèn)知服務(wù)結(jié)合的實戰(zhàn)示例
實戰(zhàn)一:Intelligent Bot in HoloLens
目標(biāo):
使用認(rèn)知服務(wù)的Bing語音API, 語言理解智能服務(wù)LUIS以及Bot Framework實現(xiàn)在HoloLens應(yīng)用內(nèi)的中文語音交互問答。
關(guān)鍵技術(shù)包括:
- 語音處理:使用Bing語音API的語音到文本轉(zhuǎn)換、文本到語音轉(zhuǎn)換功能
- Bot框架:使用Direct Line通道傳輸問答數(shù)據(jù)
- 語言理解:使用語言理解智能服務(wù)自定義語言模型(包括構(gòu)造目的/實體)
應(yīng)用架構(gòu)如下:

遇到的問題和挑戰(zhàn):
錄音的啟動停止是重要的環(huán)節(jié),處理不好將會影響體驗,最簡單的方式是手動點擊開始,點擊停止,但在HoloLens上做頻繁的Air tap操作會增加操作的復(fù)雜度,我們后來改成了設(shè)定固定時長,但是這樣會有兩個問題,一是有可能還沒說完就停止采集,二是在問話簡短的時候仍會增加需要傳輸?shù)腤av文件的大小,增加傳輸延遲。
解決方法:
在采集時判斷是否有顯著的幅度升高,即為錄音開始,在達(dá)到一定的低閾值條件后,即判斷為靜音,結(jié)束錄制。
實戰(zhàn)二:Custom Vision in HoloLens
目標(biāo):
使用HoloLens拍攝照片后調(diào)用認(rèn)知服務(wù)的自定義影像服務(wù)Custom Vision API實現(xiàn)畫作識別,判斷出是哪位畫家的作品,并結(jié)合Bing Search實現(xiàn)相關(guān)作品搜索功能。
關(guān)鍵技術(shù)包括:
- 圖片訓(xùn)練:在自定義影像服務(wù)中進行圖片標(biāo)記、訓(xùn)練、迭代和訓(xùn)練集預(yù)測
- 獲取圖片:使用HoloLens內(nèi)置Camera拍照
- 搜索信息:使用必應(yīng)圖片搜索API獲得更多相關(guān)信息
應(yīng)用架構(gòu)如下:

遇到的問題和挑戰(zhàn):
在自定義影像服務(wù)中訓(xùn)練模型比較容易,但最終畫作的識別率依賴于HoloLens拍攝的照片質(zhì)量,尤其是其中要識別的目標(biāo)物體在整張照片中的比例,盡管我們可以在拍照時貼近畫作使其在圖片中占比較大,但是HoloLens仍會將多余的場景攝入。
解決方法:
我們加入了裁剪功能,可以在拍攝完成后根據(jù)實際情況使用拖拽手勢進行關(guān)鍵部分裁剪,并將處理后的圖片用作識別,識別準(zhǔn)確率大大提升。