一、AIGC
大语言模型(LLM)
- 问答:Qwen3,kimi k2,DeepSeekV3.1
- 编码:Qwen-code
- 翻译:Hunyuan-MT-7B,支持33种语言
- 向量化:Qwen3-Embedding-8B
- 重排:Qwen3-Reranker-8B
- 视理解:Qwen3-VL,Janus-Pro,MiniCPM-v
- 实时的多模态互动:Qwen3-omni,GPT-4o(不开源)
文生图
- NanoBanana(不开源)
- Qwen-Image
- Qwen-Image-Edit
- Seedream 4.0
图生视频
- wan2.2
- Hunyuan
- veo3(不开源)
数字人
- 图片数字人:infiniteTalk,Wan2.2-S2V,Multitalk,humo
- 对口型: HeyGem,Wav2Lip, DINet, TalkLip,IP-LAP,MuseTalk,LatentSync,StableDub
- 动作迁移:Wan Animate
- DynamicFace
- FaceFusion
- FlashVSR
- realesr
- GPEN
- 人脸修复:GFPGAN,CodeFormer,restoreformer
二、声音处理
语音识别
- 英文:whisper
- 中文:FireRed
- 边缘计算:sensevoice-small
声音克隆与TTS
- IndexTTS 2
- cosyvoice 3
- Qwen3-TTS
- FireRedTTS-2
- MiMo Audio
三、视觉模型(CV)