銀行和金融業陸續應用生成式人工智能(GenAI),以提升生產效率,但同時也增加詐騙的風險。這促使企業投資於人工智能技術以進行詐騙檢測。
德勤發佈關於金融服務業生成式AI增加深度偽造(Deepfake)欺詐風險的報告,在美國與深度偽造相關的網路攻擊損失預計將從2023年的123億美元飆升至2027年的400億美元。
深度偽造技術是一種偽造手法,利用人工智能創造逼真的圖像和影片。最近,一個 GitHub 上的項目Deep-Live-Cam突然爆紅,它可以用一張照片,就能在直播中即時換臉,而且效果不錯。這顯示深度偽造技術既有趣同時具危險性。
金融詐騙的新威脅
人工智能深度偽造已成為一種越趨複雜的詐騙方法,特別是在身份驗證方面:
- 繞過面部驗證系統:網絡罪犯利用實時換臉操縱網絡銀行驗證系統,使他們能夠在不被檢測的情況下進行詐騙活動。
- 在通話和影片中冒充他人:騙徒使用個人圖像,在視像通話中令人信服地冒充他人,導致受害者被騙而轉移資金。
檢測技術的進步
近年來人工智能生成內容(AIGC)造假激增,嚴重威脅業務安全。隨著詐騙工具威脅的增長,各種檢測方法相繼出現。早期的檢測技術集中於單一模態,例如驗證圖像或音頻的真實性。雖然這些單模態方法能快速完成檢測,但在不同媒體類型之間缺乏有效的泛化能力。
為了解決這些限制,金融科技解決方案供應商開發出多模態鑒偽方法。然而,現有的多模態技術往往在小數據集上進行訓練,並忽略身份信息,限制了其泛化能力。為了增強檢測模型的穩健性,本公司和復旦大學的研究人員提出了參照輔助的多模態鑒偽方法(Reference-assisted Multimodal Forgery Detection Network, R-MFDN),並在ACM Multimedia 2024會議上獲得認可。
核心技術見解
多模態鑒偽中的R-MFDN方法創新性地利用豐富的身份信息,通過探索跨模態不一致性來檢測防偽。R-MFDN方法由三個模塊組成:多模態特徵提取、特徵信息融合和偽造辨識。視頻幀編碼組件使用圖像特徵提取器Resnet以及時序特徵提取器Vision Transformer進行圖像級特徵以及時序級特徵的提取,而音頻編碼組件則使用音頻頻譜變壓器,融合模塊使用自注意力機制以及交叉注意力機制逐步對多模態特徵進行融合,鑒偽模塊基於融合後的多模態特徵進行資料真偽判斷及偽造方法類別判斷。
基於R-MFDN技術研發的多模態智能鑒偽大模型,通過對偽造影片的視頻幀、音訊、話文本分別進行特徵提取,並運用基於身份的對比學習和跨模態對比學習進行訓練,提取出對身份和模態間不一致的敏感特徵來鑒別真偽。該模型可廣泛應用在金融身份認證、視訊會議核身認證、網絡視像電話防欺詐等場景。目前,雙模態篡改檢出率已達到99.9%以上,單模態篡改檢出率達到96%以上。
隨著深度偽造技術的不斷演進,騙徒所使用的詐騙方法也在不斷變化。金融行業必須保持警覺,並採取先進的檢測策略以減低風險。在這個新環境中,研究人員、行業專業人士和監管機構之間的合作對於促進更安全的數碼環境至關重要。