174.人工智能——图像理解:视觉问答(VQA和GQA)_人工智能_本身的
***moondream模型
直接运行测试一下:
测试图像
测试结果
In the image, a woman and her dog are sitting on the sand at the beach. The woman is wearing a plaid shirt while holding out
her hand with a treat for the dog to grab. They seem to be enjoying each other's company as they share this moment together.
二、程序代码运行测试
# 安装ollama>pip install ollama
import ollamaprompt="图片中有什么?"img="img/agirl.jpg"modelid="moondream:latest"response = ollama.chat(model=modelid, messages=[ { 'role': 'user', 'content': prompt, "images": [img] },])print(response['message']['content'])
三、Web UI办法运行利用gradio来构建web ui
测试结果
图片显示了一个庭院,院子里摆放着几张桌子和椅子,周围环抱着盆栽植物。场景中有多个人,有些人坐在桌子旁,而另一些人则站着或走来走去。还可以看到一些雨伞,为坐在表面的人供应遮荫。整体氛围轻松宜人,是社交或户外用餐的空想场所。
庭院位于一栋石头建筑内,增长了环境的魅力。该区域周围还放置了一些长凳,供应额外的座位选择。总的来说,这个户外空间彷佛掩护得很好,很吸引人,为人们供应了一个愉快的环境,让他们聚拢在一起享受他们的光阴。
MoonDream输出的结果是英文,但可以中文的输入没有什么影响。从运行的速率和效果来看,非常让人满意的。
人工智能的发展速率很快,各种大模型不断呈现,并迭代升级,功能也不断增加提升。虽然目前各种大模型存在一些无法避免的毛病,比如幻觉征象、时效性问题等。但这并不影响人工智能的发展。对付普通用户来说,精确的办法该当是关注并选择得当自己的人工智能工具,为提升自己的生活、事情和学习效率就足够了。——以下是利用ChatTTS天生的音频。
ChatTTS天生音频
本文系作者个人观点,不代表本站立场,转载请注明出处!