
數據對人工智能產業的良好發展的必要性
通過這些發展政策我們可以發現的是,人工智能正在成為數字經濟的核心驅動力。作為國家“新型基礎設施建設”之一的人工智能,已經運用在智慧城市、交通、家居、醫療、金融和教育等各個領域。但其實在目前階段,人工智能落地亟需高質的數據來完成算法訓練,數據越多、越精準,落地的AI應用也就越智能、越好用,可以說人工智能產業的發展離不開數據的支持。
提到AI數據,不得不提在AI數據質量方面擁有豐富交付經驗的頭部企業——云測數據。云測數據自建的數據標注基地和場景實驗室,以及專職數據服務人員的規范化管理和硬實力的技術投入,是數據高質量交付的硬性保證;內部完善的數據作業協同流轉體系,在保證數據質量的同時,可大幅提升數據作業的生產效率;文字、圖片、音頻、視頻等全品類數據處理能力、獨立第三方的身份和對數據隱私安全的嚴格把控,讓眾多 AI 企業和各個行業的龍頭企業選擇與云測數據保持著長期良好的合作關系。
垂直行業數據需求各有不同,高質量是共同點
以前文提到的智能駕駛舉例,智能駕駛多應用于自動駕駛、自主泊車、智能駕艙等場景,云測數據為其提供多維度、多模態的數據服務。如在車內場景中涉及到疲勞監測、動作識別、場景光線等一切會在車內發生的場景,以及在車外環境中更復雜的障礙物、道路、天氣、地點、車道線、路標,以及一些長尾場景諸如闖紅燈車輛、橫穿馬路的行人、路邊違章停靠的車輛等所有可能會涉及的場景數據,可實現連續幀標注、2D圖像框選、圖像分割、3D點云標注、2D3D融合標注等眾多功能,。
再比如智能家居行業。智能家居多應用于智能家電、智能音箱、智能掃地機器人等場景,云測數據依托于豐富項目經驗與優秀的行業理解,為智能家居企業提供全類型的數據標注數據采集服務。如語義分割、ASR語音轉寫,喚醒詞/控制詞、方言語料采集等等。
這其中,又涉及到AI技術中重要分支的自然語言處理(NLP),具體的商業化應用有:機器翻譯、輿情監測、自動摘要、問答機器人、客服機器人、智能問診等,云測數據為以上眾多領域提供高質量的NLP數據支撐。在云測數據,以智能客服單個場景的意圖標注,就分為10-20個大類,上百個子類,根據業務需求可能還會有進一步的標注細分。同時,云測數據除了對NLP數據進行對話意圖、領域、槽位等進行判斷和標注,還可以進行多角度的泛化。
量變到質變,數據是新基建的“基建”
其實,站在AI數據服務的發展歷史角度看,AI對數據的要求也是伴隨著不同發展階段逐步提高。在AI商業化初期,AI算法對數據的精度要求不高,日常的AI訓練首先要求數據量大,數據標注質量要求相對不那么嚴格。但是隨著AI與各個產業結合得愈加緊密,企業開始從實際落地場景出發,高精度、高質量以及更多維度的數據,對現階段AI產業化落地的至關重要。
經歷了從量到質的改變,數據已成為引領人工智能發展的重要戰略窗口,人工智能可以說是目前最火的新基建之一,而高質量數據就是人工智能基建的唯一和支撐AI產業化落地的基石。