“咔咔咔”手機拍照過新年 是時候瞭解下背後的技術了

2022-08-05 15:43:57 字數 2767 閱讀 1016

除了炒作和吹牛,過去的幾年裡攝影技術取得了驚人的進步,且進步不會減慢,而最大的飛躍源自人工智慧,而非感測器或鏡頭,這很大程度上要歸功於人工智慧讓攝像頭更精準地捕捉景象。

2015年google photos釋出之際,清楚地展示了人工智慧和攝影技術混合後強悍的功能。在此之前,谷歌這家搜尋巨頭多年來一直使用機器學習對google+中的進行分類,但其現今推出了**應用程式包括面向消費者的人工智慧功能,這是大多數人無法想象的,數千張無標籤的**儲存在手機裡,雜亂無章的相簿一夜之間轉換成可搜尋的資料庫。突然間,或是說看似突然,谷歌知道了你家貓的長相。

谷歌取得的突破基於2013年收購dnn搜尋的前期工作,該技術可以建立一個受人類標記資料訓練的深度神經網路,稱之為監督學習,這個過程包括對網路進行數百萬張影象訓練,以便它可以通過畫素尋找視覺線索,幫助識別分類,隨著時間的推移,該演算法在識別方面越來越出色,拿熊貓舉例,曾用來正確識別熊貓的模式都會被納入,具體來說,它可以習得黑色皮毛和白色皮毛之間的分佈關係,熊貓與荷斯坦奶牛的毛色區別,經過進一步的訓練,該演算法可以用來檢索更抽象的術語,如“動物”或者“早餐”,也許檢索出來的並非是常見的視覺影象,但仍可一眼認出影象主體。

訓練這樣的演算法需要耗費大量的時間和處理能力,不過在資料中心完成任務後就可以在低功耗的移動裝置上執行,並且不費事,繁重的工作已經完成,因此一旦你的**上傳到雲端,谷歌就可以用自己的模型來分析和標記相簿,google photos釋出約一年後,蘋果公司宣佈了一項在神經網路上接受過類似訓練的**搜尋功能,但作為公司對隱私承諾的一部分,實際分類在每個裝置的處理器上單獨進行,不需要傳送資料,而這通常需要一兩天時間在設定好的後臺進行。

智慧**管理軟體是一回兒事,但首先要說的是人工智慧和機器學習對影象的捕獲方式產生了更大的影響,毫無疑問,鏡頭會繼續變快,感測器也總能變大一點,但涉及將光學系統塞進輕薄的移動裝置,我們已經快接近物理限制,儘管如此,現在的手機在某些情況下能拍出比許多專業相機裝置更好的**,這並不罕見,至少在後期處理之前是這樣,傳統相機無法與同樣配備高階攝影的硬體片上系統競爭,其包括一個**處理器、一個影象訊號處理器,以及一個越來越多的神經處理單元(npu)。

這是計算攝影,一個廣義的術語,涵蓋方方面面,譬如手機肖像模式的假景深效果,以及有助於提升google pixel高清影象質量的演算法,並非所有計算攝影都涉及人工智慧,但人工智慧必定是其中一個重要組成部分。

蘋果利用此項技術來驅動其手機的雙鏡頭肖像模式,蘋果手機的影象訊號處理器依靠機器學習,通過一個攝像頭識別人像,另一個攝像頭建立深度圖以分離拍攝主體和模糊背景,2016年此功能首次亮相時,通過機器學習識別人像的技能並不是什麼新鮮事,因為處理軟體已經在做這個了,但以智慧手機攝像頭所需的速度實時識別則是一項重大突破。

然而,谷歌預設的拍攝模式hdr+使用了一種更復雜的演算法,將幾個**不足的幀合併為一個,正如谷歌計算攝影負責人馬克·勒沃伊(marc levoy)所說,機器學習意味著系統只會隨著時間越來越好。就像google photos,谷歌已經將其人工智慧訓練在一龐大的標籤**資料集上,進一步輔助相機**,尤其是pixel 2生成的基線影象質量非常好,the verge**在專業工作中也會使用到,效果非常滿意。

不過谷歌的優勢從來沒有像幾個月前推出夜視系統那樣突出,新版pixel將長**縫合在一起,使用機器學習演算法計算更精確的白平衡和顏色,坦白說,效果令人驚豔,因為演算法的設計以最新的硬體為依託,該功能在pixel 3上效果最好,不過谷歌為各種pixel版本的手機都推出了夜視功能,即使是缺乏光學影象穩定性的原始影象也可以處理,這說明了軟體在移動攝影領域比相機硬體更重要。

也就是說,硬體仍有進步的空間,特別是在人工智慧的支援下,據瞭解,華為和榮耀的**手機第一個使用了索尼imx586影象感測器,這是一個比多數競爭對手都大的感測器,有4800萬畫素,是目前任何手機上看到的最高解析度,但這也意味著要在一個很小的空間裡塞進許多微小的畫素,影象質量往往會成問題。然而,在測試中榮耀的“人工智慧超清”模式擅長最大限度地利用解析度,去除感測器異常的濾鏡,呈現額外的細節,這也會產生巨大的**,放大看需要幾日時間。

影象訊號處理器在一段時間內對手機相機的效能非常重要,但隨著計算攝影技術的發展,npu可能會發揮更大的作用,華為第一個宣佈採取專用人工智慧硬體的片上系統kirin 970,儘管蘋果的a11 bionic最終率先到達了使用者端,全球最大的安卓處理器**商高通公司尚未將機器學習作為主要的焦點,谷歌方面開發了自己的晶片,pixel visual core,幫助完成與人工智慧相關的成像任務。

與此同時,最新的蘋果a12 bionic配備8核的神經引擎,在蘋果的機器學習框架core ml中執行任務,比a11快九倍,並且實現首次直接連線到影象處理器。蘋果公司表示,這能讓相機更好地解析焦平面,例如生成更真實的景深。

由於片上系統對處理器的要求非常高,對於提高裝置機器學習的效率和效能而言,它將越來越重要,別忘了,google photos的演算法是在具有強大gpu和張量計算核心的計算機上訓練,然後再放進**庫,可以說大部分工作都可以“提前”完成,不過在移動裝置上實時進行機器學習計算的能力仍然是最前沿的科技。

谷歌已經展示了一些可以減輕處理負擔的工作,令人印象深刻,神經引擎在這一年裡也越來越快。即使是在計算攝影的早期階段,圍繞機器學習而設計的手機攝像頭也能帶來真正的好處。事實上,過去幾年人工智慧炒作浪潮帶來的所有可能性和應用中,今天運用最實際的領域可以說就是攝影。

相機是任何手機的基本功能,而人工智慧是我們改進它的最佳手段。