一、AIGC
大语言模型(LLM)
- 问答:Qwen3,kimi k2,DeepSeekV3.1
- 编码:Qwen-code
- 翻译:Hunyuan-MT-7B,支持33种语言
- 向量化:Qwen3-Embedding-8B
- 重排:Qwen3-Reranker-8B
- 视理解:Qwen3-VL,Janus-Pro,MiniCPM-v
- 实时的多模态互动:Qwen3-omni,GPT-4o(不开源)
文生图
- NanoBanana(不开源)
- Qwen-Image
- Qwen-Image-Edit
- Seedream 4.0
图生视频
- wan2.2
- Hunyuan
- veo3(不开源)
数字人
- 图片数字人:infiniteTalk,Wan2.2-S2V,Multitalk,humo
- 对口型: HeyGem,Wav2Lip, DINet, TalkLip,IP-LAP,MuseTalk,LatentSync,StableDub
- 动作迁移:Wan Animate
- DynamicFace
- FaceFusion
- FlashVSR
- realesr
- GPEN
- 人脸修复:GFPGAN,CodeFormer,restoreformer
二、声音处理
语音识别
- 英文:whisper
- 中文:FireRed
- 边缘计算:sensevoice-small
声音克隆与TTS
- IndexTTS 2
- cosyvoice 3
- Qwen3-TTS
- FireRedTTS-2
- MiMo Audio
三、视觉模型(CV)
人脸(关键点)检测与识别
- mediapipe-face
- yolo-face
- insightface
- openface
- facelib
- facexlib
目标检测
- yolo系列
图像分割
- SEC:视频分割新王者
- DINOv3:一个模型搞定分割、检测、深度估计
- Segment Anything Model 2 (SAM 2)
- DeepLabv3+
图像增强
- BPAM:融合双边网格与非线性MLP
深度估计
- Depth Anything V2
人像抠图
- segnext
- BiRefNet V2
视频镜头分割
- TransNetV2
ocr
- PaddleOCR-VL
- deepseek-ocr
- MinerU2.5
- dots.ocr
- tesseract
- PP-OCR
- GOT-OCR2.0
- PP-StructureV3
- MonkeyOCR-3B
四、工具和研发
- AI底层算法
- 大模型应用开发
- 常用开发框架