Lambert Benjamin
Benjamin Lambert
POMOC
FAQ
Szukaj
Użytkownicy
Grupy
Rejestracja
Profil
Zaloguj się, by sprawdzić wiadomości
Zaloguj
使它们能够
Forum Lambert Benjamin Strona Główna
->
milgetfstanel
Zobacz poprzedni temat
::
Zobacz następny temat
Autor
Wiadomość
ditikhatun11
Dołączył: 27 Kwi 2024
Posty: 3
Wysłany: Sob Kwi 27, 2024 10:48
Temat postu: 使它们能够
屏幕用户界面 (UI) 和信息图表(例如图表、图表和表格)在人类交流和人机交互中发挥着重要作用,因为它们促进了丰富的交互式用户体验。 UI 和信息图表共享相似的设计原则和视觉语言(例如图标和布局),这提供了构建可以理解、推理并与这些界面交互的单一模型的机会。然而,由于其复杂性和不同的呈现格式,信息图表和 UI 提出了独特的建模挑战。 为此,我们引入了“ ScreenAI:用于 UI 和信息图形理解的视觉语言模型”。 ScreenAI通过pix2struct的灵活修补策略改进了PaLI 架构。我们在独特的数据集和任务组合上训练 ScreenAI,其中包括一项新颖的屏幕注释任务,该任务要求模型识别屏幕上的 UI 元素信息(即类型、位置和描述)。这些文本注释为大型语言模型 (LLM) 提供了屏幕描述,生成问答 (QA)、UI 导航和摘要训练数据集。
仅用 5B 参数,ScreenAI 就可以在基于 UI 和信息图表的任务(WebSRC和MoTIF)上实
日本电报吗数据库
现最先进的结果,并且与类似大小的模型相比,实现一流的性能。我们还发布了三个新数据集:用于评估模型布局理解能力以及用于更全面评估其 QA。 屏幕人工智能 ScreenAI的架构基于PaLI,由多模态编码器块和自回归解码器组成。 PaLI 编码器使用创建图像嵌入的视觉变换器(ViT) 和将图像和文本嵌入的串联作为输入的多模态编码器。这种灵活的架构够解决可以重新转换为文本+图像到文本问题的视觉任务。 在 PaLI 架构之上,我们采用了 pix2struct 中引入的灵活修补策略。不使用固定网格图案,而是选择网格尺寸以保留输入图像的原始纵横比。这使得能够在各种长宽比的图像上正常工作。型分两个阶段进行训练:预训练阶段和微调阶段。首先,应用自监督学习自动生成数据标签,然后用于训练 ViT 和语言模型。 ViT 在微调阶段被冻结,其中使用的大多数数据都是由人类评估者手动标记的。
ScreenAI模型架构。 数据生成 为了创的预训练数据集,我们首先编译来自各种设备(包括台式机、移动设备和平板电脑)的大量屏幕截图。这是通过使用可公开访问的网页并遵循用于移动应用程序的RICO 数据集的编程探索方法来实现的。然后,我们应用基于DETR模型的布局注释器,识别并标记各种 UI 元素(例如图像、象形图、按钮、文本)及其空间关系。使用能够区分 77 种不同图标类型的图标分类器对象形图进行进一步分析。这种详细的分类对于解释通过图标传达的微妙信息至关重要。对于分类器未覆盖的图标以及信息图表和图像,我们使用 PaLI 图像字幕模型来生成提供上下文信息的描述性字幕。我们还应用光学字符识别(OCR) 引擎来提取和注释屏幕上的文本内容。我们将 OCR 文本与之前的注释相结合,创建每个屏幕的详细描述。 屏幕AI-2 带有生成注释的移动应用程序屏幕截图,其中包括 UI 元素及其描述,例如,TEXT 元素还包含来自 OCR 的文本内容 元素包含图像标题包含其所有子元素。 基于LLM的数据生成 我们使用PaLM 2增强预训练数据的多样性,通过两步过程生成输入输出对。首先,使用上述技术生成屏幕注释,然后我们围绕此模式制作提示,以便法学硕士创建合成数据。这个过程需要及时的工程和迭代细化才能找到有效的提示。
_________________
意大利电报吗数据库
Powrót do góry
Reklama
Wysłany: Sob Kwi 27, 2024 10:48
Temat postu:
Powrót do góry
ditikhatun11
Dołączył: 27 Kwi 2024
Posty: 3
Wysłany: Sob Kwi 27, 2024 12:51
Temat postu: Re: 使它们能
ditikhatun11 napisał:
屏幕用户界面 (UI) 和信息图表(例如图表、图表和表格)在人类交流和人机交互中发挥着重要作用,因为它们促进了丰富的交互式用户体验。 UI 和信息图表共享相似的设计原则和视觉语言(例如图标和布局),这提供了构建可以理解、推理并与这些界面交互的单一模型的机会。然而,由于其复杂性和不同的呈现格式,信息图表和 UI 提出了独特的建模挑战。 为此,我们引入了“ ScreenAI:用于 UI 和信息图形理解的视觉语言模型”。 ScreenAI通过pix2struct的灵活修补策略改进了PaLI 架构。我们在独特的数据集和任务组合上训练 ScreenAI,其中包括一项新颖的屏幕注释任务,该任务要求模型识别屏幕上的 UI 元素信息(即类型、位置和描述)。这些文本注释为大型语言模型 (LLM) 提供了屏幕描述,生成问答 (QA)、UI 导航和摘要训练数据集。
仅用 5B 参数,ScreenAI 就可以在基于 UI 和信息图表的任务(WebSRC和MoTIF)上实
日本电报吗数据库
现最先进的结果,并且与类似大小的模型相比,实现一流的性能。我们还发布了三个新数据集:用于评估模型布局理解能力以及用于更全面评估其 QA。 屏幕人工智能 ScreenAI的架构基于PaLI,由多模态编码器块和自回归解码器组成。 PaLI 编码器使用创建图像嵌入的视觉变换器(ViT) 和将图像和文本嵌入的串联作为输入的多模态编码器。这种灵活的架构够解决可以重新转换为文本+图像到文本问题的视觉任务。 在 PaLI 架构之上,我们采用了 pix2struct 中引入的灵活修补策略。不使用固定网格图案,而是选择网格尺寸以保留输入图像的原始纵横比。这使得能够在各种长宽比的图像上正常工作。型分两个阶段进行训练:预训练阶段和微调阶段。首先,应用自监督学习自动生成数据标签,然后用于训练 ViT 和语言模型。 ViT 在微调阶段被冻结,其中使用的大多数数据都是由人类评估者手动标记的。
ScreenAI模型架构。 数据生成 为了创的预训练数据集,我们首先编译来自各种设备(包括台式机、移动设备和平板电脑)的大量屏幕截图。这是通过使用可公开访问的网页并遵循用于移动应用程序的RICO 数据集的编程探索方法来实现的。然后,我们应用基于DETR模型的布局注释器,识别并标记各种 UI 元素(例如图像、象形图、按钮、文本)及其空间关系。使用能够区分 77 种不同图标类型的图标分类器对象形图进行进一步分析。这种详细的分类对于解释通过图标传达的微妙信息至关重要。对于分类器未覆盖的图标以及信息图表和图像,我们使用 PaLI 图像字幕模型来生成提供上下文信息的描述性字幕。我们还应用光学字符识别(OCR) 引擎来提取和注释屏幕上的文本内容。我们将 OCR 文本与之前的注释相结合,创建每个屏幕的详细描述。 屏幕AI-2 带有生成注释的移动应用程序屏幕截图,其中包括 UI 元素及其描述,例如,TEXT 元素还包含来自 OCR 的文本内容 元素包含图像标题包含其所有子元素。 基于LLM的数据生成 我们使用PaLM 2增强预训练数据的多样性,通过两步过程生成输入输出对。首先,使用上述技术生成屏幕注释,然后我们围绕此模式制作提示,以便法学硕士创建合成数据。这个过程需要及时的工程和迭代细化才能找到有效的提示。
_________________
意大利电报吗数据库
Powrót do góry
Reklama
Wysłany: Sob Kwi 27, 2024 12:51
Temat postu:
Powrót do góry
Wyświetl posty z ostatnich:
Wszystkie Posty
1 Dzień
7 Dni
2 Tygodnie
1 Miesiąc
3 Miesiące
6 Miesięcy
1 Rok
Najpierw Starsze
Najpierw Nowsze
Forum Lambert Benjamin Strona Główna
->
milgetfstanel
Wszystkie czasy w strefie CET (Europa)
Strona
1
z
1
Skocz do:
Wybierz forum
milgetfstanel
----------------
milgetfstanel
Nie możesz
pisać nowych tematów
Nie możesz
odpowiadać w tematach
Nie możesz
zmieniać swoich postów
Nie możesz
usuwać swoich postów
Nie możesz
głosować w ankietach
To forum działa w systemie
phorum.pl
Masz pomysł na forum?
Załóż forum za darmo!
Forum narusza regulamin?
Powiadom nas o tym!
Powered by
Active24
,
phpBB
© phpBB Group