174.人工智能——图像理解：视觉问答（VQA和GQA)_人工智能_本身的

2024-12-18 20:56:54 云服务

***moondream模型

174.人工智能——图像理解：视觉问答（VQA和GQA)_人工智能_本身的云服务

直接运行测试一下：

测试图像

测试结果

In the image, a woman and her dog are sitting on the sand at the beach. The woman is wearing a plaid shirt while holding out
her hand with a treat for the dog to grab. They seem to be enjoying each other's company as they share this moment together.
二、程序代码运行测试
# 安装ollama>pip install ollama
import ollamaprompt="图片中有什么？"img="img/agirl.jpg"modelid="moondream:latest"response = ollama.chat(model=modelid, messages=[ { 'role': 'user', 'content': prompt, "images": [img] },])print(response['message']['content'])三、Web UI办法运行
利用gradio来构建web ui
测试结果
图片显示了一个庭院，院子里摆放着几张桌子和椅子，周围环抱着盆栽植物。
场景中有多个人，有些人坐在桌子旁，而另一些人则站着或走来走去。
还可以看到一些雨伞，为坐在表面的人供应遮荫。
整体氛围轻松宜人，是社交或户外用餐的空想场所。
庭院位于一栋石头建筑内，增长了环境的魅力。
该区域周围还放置了一些长凳，供应额外的座位选择。
总的来说，这个户外空间彷佛掩护得很好，很吸引人，为人们供应了一个愉快的环境，让他们聚拢在一起享受他们的光阴。
MoonDream输出的结果是英文，但可以中文的输入没有什么影响。
从运行的速率和效果来看，非常让人满意的。
人工智能的发展速率很快，各种大模型不断呈现，并迭代升级，功能也不断增加提升。
虽然目前各种大模型存在一些无法避免的毛病，比如幻觉征象、时效性问题等。
但这并不影响人工智能的发展。
对付普通用户来说，精确的办法该当是关注并选择得当自己的人工智能工具，为提升自己的生活、事情和学习效率就足够了。
——以下是利用ChatTTS天生的音频。
ChatTTS天生音频