Lambert Benjamin

ditikhatun11 · Dołączył: 27 Kwi 2024 Posty: 3

屏幕用户界面 (UI) 和信息图表（例如图表、图表和表格）在人类交流和人机交互中发挥着重要作用，因为它们促进了丰富的交互式用户体验。 UI 和信息图表共享相似的设计原则和视觉语言（例如图标和布局），这提供了构建可以理解、推理并与这些界面交互的单一模型的机会。然而，由于其复杂性和不同的呈现格式，信息图表和 UI 提出了独特的建模挑战。为此，我们引入了“ ScreenAI：用于 UI 和信息图形理解的视觉语言模型”。 ScreenAI通过pix2struct的灵活修补策略改进了PaLI 架构。我们在独特的数据集和任务组合上训练 ScreenAI，其中包括一项新颖的屏幕注释任务，该任务要求模型识别屏幕上的 UI 元素信息（即类型、位置和描述）。这些文本注释为大型语言模型 (LLM) 提供了屏幕描述，生成问答 (QA)、UI 导航和摘要训练数据集。

仅用 5B 参数，ScreenAI 就可以在基于 UI 和信息图表的任务（WebSRC和MoTIF）上实日本电报吗数据库现最先进的结果，并且与类似大小的模型相比，实现一流的性能。我们还发布了三个新数据集：用于评估模型布局理解能力以及用于更全面评估其 QA。屏幕人工智能 ScreenAI的架构基于PaLI，由多模态编码器块和自回归解码器组成。 PaLI 编码器使用创建图像嵌入的视觉变换器(ViT) 和将图像和文本嵌入的串联作为输入的多模态编码器。这种灵活的架构够解决可以重新转换为文本+图像到文本问题的视觉任务。在 PaLI 架构之上，我们采用了 pix2struct 中引入的灵活修补策略。不使用固定网格图案，而是选择网格尺寸以保留输入图像的原始纵横比。这使得能够在各种长宽比的图像上正常工作。型分两个阶段进行训练：预训练阶段和微调阶段。首先，应用自监督学习自动生成数据标签，然后用于训练 ViT 和语言模型。 ViT 在微调阶段被冻结，其中使用的大多数数据都是由人类评估者手动标记的。

ScreenAI模型架构。数据生成为了创的预训练数据集，我们首先编译来自各种设备（包括台式机、移动设备和平板电脑）的大量屏幕截图。这是通过使用可公开访问的网页并遵循用于移动应用程序的RICO 数据集的编程探索方法来实现的。然后，我们应用基于DETR模型的布局注释器，识别并标记各种 UI 元素（例如图像、象形图、按钮、文本）及其空间关系。使用能够区分 77 种不同图标类型的图标分类器对象形图进行进一步分析。这种详细的分类对于解释通过图标传达的微妙信息至关重要。对于分类器未覆盖的图标以及信息图表和图像，我们使用 PaLI 图像字幕模型来生成提供上下文信息的描述性字幕。我们还应用光学字符识别(OCR) 引擎来提取和注释屏幕上的文本内容。我们将 OCR 文本与之前的注释相结合，创建每个屏幕的详细描述。屏幕AI-2 带有生成注释的移动应用程序屏幕截图，其中包括 UI 元素及其描述，例如，TEXT 元素还包含来自 OCR 的文本内容元素包含图像标题包含其所有子元素。基于LLM的数据生成我们使用PaLM 2增强预训练数据的多样性，通过两步过程生成输入输出对。首先，使用上述技术生成屏幕注释，然后我们围绕此模式制作提示，以便法学硕士创建合成数据。这个过程需要及时的工程和迭代细化才能找到有效的提示。
_________________
意大利电报吗数据库

Reklama

ditikhatun11 · Dołączył: 27 Kwi 2024 Posty: 3

Reklama