跳到主要内容

我心中的SOTA

一、AIGC

大语言模型(LLM)

问答：Qwen3，kimi k2，DeepSeekV3.1
编码：Qwen-code
翻译：Hunyuan-MT-7B，支持33种语言
向量化：Qwen3-Embedding-8B
重排：Qwen3-Reranker-8B
视理解：Qwen3-VL，Janus-Pro，MiniCPM-v
实时的多模态互动：Qwen3-omni，GPT-4o(不开源)

文生图

NanoBanana(不开源)
Qwen-Image
Qwen-Image-Edit
Seedream 4.0

图生视频

wan2.2
Hunyuan
veo3(不开源)

数字人

图片数字人：infiniteTalk，Wan2.2-S2V，Multitalk，humo
对口型: HeyGem,Wav2Lip, DINet, TalkLip,IP-LAP,MuseTalk,LatentSync,StableDub
动作迁移：Wan Animate

换脸

DynamicFace
FaceFusion

超分

FlashVSR
realesr
GPEN
人脸修复：GFPGAN,CodeFormer，restoreformer

二、声音处理

语音识别

英文：whisper
中文：FireRed
边缘计算：sensevoice-small

声音克隆与TTS

IndexTTS 2
cosyvoice 3
Qwen3-TTS
FireRedTTS-2
MiMo Audio

三、视觉模型(CV)

人脸(关键点)检测与识别

mediapipe-face
yolo-face
insightface
openface
facelib
facexlib

目标检测

yolo系列

图像分割

SEC：视频分割新王者
DINOv3：一个模型搞定分割、检测、深度估计
Segment Anything Model 2 (SAM 2)
DeepLabv3+

图像增强

BPAM：融合双边网格与非线性MLP

深度估计

Depth Anything V2

人像抠图

segnext
BiRefNet V2

视频镜头分割

TransNetV2

ocr

PaddleOCR-VL
deepseek-ocr
MinerU2.5
dots.ocr
tesseract
PP-OCR
GOT-OCR2.0
PP-StructureV3
MonkeyOCR-3B

四、工具和研发