在 Midjourney 出现之前,设计师想要一张"概念图",有几条路可以走:自己画、找插画师、买素材库、用 Photoshop 拼合。每一条路都需要时间,有的还需要预算。你描述不清楚的视觉感受,只能靠大量沟通或反复修改来逼近。
Midjourney 改变了这件事。你用文字描述想要的画面,它在几秒钟内生成图片。不需要会画画,不需要懂 Photoshop,不需要找素材。你的想法和视觉结果之间,只隔着一段文字。
但这句话说起来简单,背后有一些东西值得搞清楚——Midjourney 到底是怎么生成图的,它擅长什么,在哪些地方会失败。这些如果不理解,你就没有办法判断什么时候该用它、什么时候不该指望它。
Midjourney 是一个 AI 图像生成工具,底层基于一类叫做"扩散模型"的技术。你不需要理解这个技术的数学原理,但理解它的工作方式很有用。
扩散模型的训练过程是这样的:它看了数以亿计的图片,同时学习了每张图片对应的文字描述。通过这个过程,它建立起了"这段文字对应什么样的视觉"的内部理解。当你输入一段提示词,它并不是在"画"图,而是在根据它学到的规律,生成一张"在统计意义上符合你的描述"的图片。
这个机制解释了一件事:Midjourney 特别擅长生成那些"有大量相似图片可以参考"的内容,因为它对这类内容有丰富的视觉经验。同时它也有天然的弱点:对于需要精确逻辑或精确文字的内容,它没有办法保证准确,因为准确性不是它学习的方式。
这是 Midjourney 表现最好的领域。当你需要一张能传递特定情绪的图——比如"深夜城市街道、雨后、霓虹灯反光在水坑里"——Midjourney 能生成出极具感染力的画面。这类图不需要精确,只需要"对"。设计师在做方案提案、情绪板、用户旅程图时,经常需要这类内容,Midjourney 能极大压缩制作时间。
插画风格、水彩风格、3D 渲染、概念艺术——各种视觉风格的素材,Midjourney 都能生成。运营设计师需要活动主视觉,品牌设计师需要视觉方向探索,海报设计师需要场景配图,这些需求 Midjourney 都可以承接。
需要特定场景下的人物图——比如"在咖啡馆工作的年轻女性、温暖的自然光、浅景深"——用传统方式要么买素材、要么拍照,Midjourney 可以直接生成,而且能精确控制光线、情绪、构图。
在项目早期需要快速探索视觉方向时,Midjourney 能在几分钟内生成多个方向的参考图,帮助团队对齐视觉感受。这个用法不是为了直接产出成品,而是作为沟通和决策的工具。
理解这些局限,能帮你避免把时间浪费在 Midjourney 不适合处理的需求上。
在图片里生成准确的文字是 Midjourney 的软肋。如果你需要图片里出现特定的标语、产品名称、数字,Midjourney 生成的文字大概率是错的,或者根本不可辨认——字母会变形、词语会拼错、中文会出现不存在的字。需要在图片里放文字的设计,应该用 Midjourney 生成底图,再在 Figma 或 Photoshop 里添加文字。
人脸和手是 Midjourney 最常出问题的地方。生成的人物面部有时会出现轻微变形,手指数量不对、指节弯曲方向奇怪的情况也时有发生。如果你的设计对人物细节有严格要求,Midjourney 的生成结果需要经过后期处理,或者换用专门针对人物生成优化过的工具。
如果你的需求包含需要逻辑推理才能理解的内容——比如"一个人把一个苹果放在另一个人的手上"这种包含明确动作关系的场景——Midjourney 经常会生成出位置关系错误、物体数量不对的图。它理解的是视觉模式,不是逻辑关系。
如果你需要生成特定品牌的产品、特定建筑的外观、特定人物的面孔,Midjourney 做不到。它生成的是"看起来像这类东西"的图,不是对特定对象的精确复现。这类需求需要用参考图引导(后面的课程会讲),但即使有参考图,结果也是近似而非精确。
有些设计师想用 Midjourney 生成看起来像真实 App 界面的截图,实际效果很差。界面元素会变形,文字不准确,控件的位置和比例都会出问题。这个场景不适合用 Midjourney。
在 Figma 或 Photoshop 里,你是在精确操作每一个元素——把按钮放在哪里、字体是什么、颜色的色值是多少。结果完全由你的操作决定,可重复,可精确控制。
Midjourney 的逻辑完全不同。你描述你想要的,它生成一个它认为符合描述的版本。每次生成都有一定的随机性,同样的提示词生成两次,结果不会完全一样。你无法像在 Figma 里那样精确控制每一个细节,但你可以通过更精确的描述来缩小结果的范围,让它越来越接近你想要的方向。
这意味着用 Midjourney 工作需要一种不同的心理预期:不是"我输入了什么,输出就是什么",而是"我描述了方向,它生成一个方向上的结果,我再根据结果调整描述"。这是一个迭代的过程,不是一步到位的操作。
很多设计师刚开始用 Midjourney 时会感到沮丧,原因就在这里——他们用操作精确工具的预期来使用一个需要迭代的工具。调整预期之后,配合本课程的方法,这种沮丧感会消失。
在具体使用之前,可以用一个简单的标准来判断:
如果你的需求是"我需要一张传递某种视觉感受的图,细节上有一定灵活空间",Midjourney 适合。
如果你的需求是"我需要一张精确包含特定文字、特定人物、特定物体外观的图",Midjourney 只能作为起点,后期还需要在其他工具里继续处理。
如果你的需求是"我需要一张 UI 界面截图"或者"我需要精确复现某个真实存在的东西",Midjourney 不适合,换工具。
Midjourney 是一个根据文字描述生成图片的工具,擅长氛围图、风格化素材和人物场景配图,不擅长精确文字、复杂逻辑场景和 UI 界面。它的工作方式需要迭代而不是一步到位,这和你熟悉的设计工具不同。带着这个认知进入下一节,你在学习过程中会少走很多弯路。