Forum Lambert Benjamin Strona Główna Lambert Benjamin
Benjamin Lambert
 
 POMOCPOMOC   FAQFAQ   SzukajSzukaj   UżytkownicyUżytkownicy   GrupyGrupy   RejestracjaRejestracja 
 ProfilProfil   Zaloguj się, by sprawdzić wiadomościZaloguj się, by sprawdzić wiadomości   ZalogujZaloguj 

使它们能够

 
Napisz nowy temat   Odpowiedz do tematu    Forum Lambert Benjamin Strona Główna -> milgetfstanel
Zobacz poprzedni temat :: Zobacz następny temat  
Autor Wiadomość
ditikhatun11



Dołączył: 27 Kwi 2024
Posty: 3

PostWysłany: Sob Kwi 27, 2024 10:48    Temat postu: 使它们能够 Odpowiedz z cytatem

屏幕用户界面 (UI) 和信息图表(例如图表、图表和表格)在人类交流和人机交互中发挥着重要作用,因为它们促进了丰富的交互式用户体验。 UI 和信息图表共享相似的设计原则和视觉语言(例如图标和布局),这提供了构建可以理解、推理并与这些界面交互的单一模型的机会。然而,由于其复杂性和不同的呈现格式,信息图表和 UI 提出了独特的建模挑战。 为此,我们引入了“ ScreenAI:用于 UI 和信息图形理解的视觉语言模型”。 ScreenAI通过pix2struct的灵活修补策略改进了PaLI 架构。我们在独特的数据集和任务组合上训练 ScreenAI,其中包括一项新颖的屏幕注释任务,该任务要求模型识别屏幕上的 UI 元素信息(即类型、位置和描述)。这些文本注释为大型语言模型 (LLM) 提供了屏幕描述,生成问答 (QA)、UI 导航和摘要训练数据集。

仅用 5B 参数,ScreenAI 就可以在基于 UI 和信息图表的任务(WebSRC和MoTIF)上实 日本电报吗数据库 现最先进的结果,并且与类似大小的模型相比,实现一流的性能。我们还发布了三个新数据集:用于评估模型布局理解能力以及用于更全面评估其 QA。 屏幕人工智能 ScreenAI的架构基于PaLI,由多模态编码器块和自回归解码器组成。 PaLI 编码器使用创建图像嵌入的视觉变换器(ViT) 和将图像和文本嵌入的串联作为输入的多模态编码器。这种灵活的架构够解决可以重新转换为文本+图像到文本问题的视觉任务。 在 PaLI 架构之上,我们采用了 pix2struct 中引入的灵活修补策略。不使用固定网格图案,而是选择网格尺寸以保留输入图像的原始纵横比。这使得能够在各种长宽比的图像上正常工作。型分两个阶段进行训练:预训练阶段和微调阶段。首先,应用自监督学习自动生成数据标签,然后用于训练 ViT 和语言模型。 ViT 在微调阶段被冻结,其中使用的大多数数据都是由人类评估者手动标记的。






ScreenAI模型架构。 数据生成 为了创的预训练数据集,我们首先编译来自各种设备(包括台式机、移动设备和平板电脑)的大量屏幕截图。这是通过使用可公开访问的网页并遵循用于移动应用程序的RICO 数据集的编程探索方法来实现的。然后,我们应用基于DETR模型的布局注释器,识别并标记各种 UI 元素(例如图像、象形图、按钮、文本)及其空间关系。使用能够区分 77 种不同图标类型的图标分类器对象形图进行进一步分析。这种详细的分类对于解释通过图标传达的微妙信息至关重要。对于分类器未覆盖的图标以及信息图表和图像,我们使用 PaLI 图像字幕模型来生成提供上下文信息的描述性字幕。我们还应用光学字符识别(OCR) 引擎来提取和注释屏幕上的文本内容。我们将 OCR 文本与之前的注释相结合,创建每个屏幕的详细描述。 屏幕AI-2 带有生成注释的移动应用程序屏幕截图,其中包括 UI 元素及其描述,例如,TEXT 元素还包含来自 OCR 的文本内容 元素包含图像标题包含其所有子元素。 基于LLM的数据生成 我们使用PaLM 2增强预训练数据的多样性,通过两步过程生成输入输出对。首先,使用上述技术生成屏幕注释,然后我们围绕此模式制作提示,以便法学硕士创建合成数据。这个过程需要及时的工程和迭代细化才能找到有效的提示。
_________________
意大利电报吗数据库
Powrót do góry
Ogląda profil użytkownika Wyślij prywatną wiadomość
Reklama






Wysłany: Sob Kwi 27, 2024 10:48    Temat postu:

Powrót do góry
ditikhatun11



Dołączył: 27 Kwi 2024
Posty: 3

PostWysłany: Sob Kwi 27, 2024 12:51    Temat postu: Re: 使它们能&#22 Odpowiedz z cytatem

ditikhatun11 napisał:
屏幕用户界面 (UI) 和信息图表(例如图表、图表和表格)在人类交流和人机交互中发挥着重要作用,因为它们促进了丰富的交互式用户体验。 UI 和信息图表共享相似的设计原则和视觉语言(例如图标和布局),这提供了构建可以理解、推理并与这些界面交互的单一模型的机会。然而,由于其复杂性和不同的呈现格式,信息图表和 UI 提出了独特的建模挑战。 为此,我们引入了“ ScreenAI:用于 UI 和信息图形理解的视觉语言模型”。 ScreenAI通过pix2struct的灵活修补策略改进了PaLI 架构。我们在独特的数据集和任务组合上训练 ScreenAI,其中包括一项新颖的屏幕注释任务,该任务要求模型识别屏幕上的 UI 元素信息(即类型、位置和描述)。这些文本注释为大型语言模型 (LLM) 提供了屏幕描述,生成问答 (QA)、UI 导航和摘要训练数据集。

仅用 5B 参数,ScreenAI 就可以在基于 UI 和信息图表的任务(WebSRC和MoTIF)上实 日本电报吗数据库 现最先进的结果,并且与类似大小的模型相比,实现一流的性能。我们还发布了三个新数据集:用于评估模型布局理解能力以及用于更全面评估其 QA。 屏幕人工智能 ScreenAI的架构基于PaLI,由多模态编码器块和自回归解码器组成。 PaLI 编码器使用创建图像嵌入的视觉变换器(ViT) 和将图像和文本嵌入的串联作为输入的多模态编码器。这种灵活的架构够解决可以重新转换为文本+图像到文本问题的视觉任务。 在 PaLI 架构之上,我们采用了 pix2struct 中引入的灵活修补策略。不使用固定网格图案,而是选择网格尺寸以保留输入图像的原始纵横比。这使得能够在各种长宽比的图像上正常工作。型分两个阶段进行训练:预训练阶段和微调阶段。首先,应用自监督学习自动生成数据标签,然后用于训练 ViT 和语言模型。 ViT 在微调阶段被冻结,其中使用的大多数数据都是由人类评估者手动标记的。






ScreenAI模型架构。 数据生成 为了创的预训练数据集,我们首先编译来自各种设备(包括台式机、移动设备和平板电脑)的大量屏幕截图。这是通过使用可公开访问的网页并遵循用于移动应用程序的RICO 数据集的编程探索方法来实现的。然后,我们应用基于DETR模型的布局注释器,识别并标记各种 UI 元素(例如图像、象形图、按钮、文本)及其空间关系。使用能够区分 77 种不同图标类型的图标分类器对象形图进行进一步分析。这种详细的分类对于解释通过图标传达的微妙信息至关重要。对于分类器未覆盖的图标以及信息图表和图像,我们使用 PaLI 图像字幕模型来生成提供上下文信息的描述性字幕。我们还应用光学字符识别(OCR) 引擎来提取和注释屏幕上的文本内容。我们将 OCR 文本与之前的注释相结合,创建每个屏幕的详细描述。 屏幕AI-2 带有生成注释的移动应用程序屏幕截图,其中包括 UI 元素及其描述,例如,TEXT 元素还包含来自 OCR 的文本内容 元素包含图像标题包含其所有子元素。 基于LLM的数据生成 我们使用PaLM 2增强预训练数据的多样性,通过两步过程生成输入输出对。首先,使用上述技术生成屏幕注释,然后我们围绕此模式制作提示,以便法学硕士创建合成数据。这个过程需要及时的工程和迭代细化才能找到有效的提示。

_________________
意大利电报吗数据库
Powrót do góry
Ogląda profil użytkownika Wyślij prywatną wiadomość
Reklama






Wysłany: Sob Kwi 27, 2024 12:51    Temat postu:

Powrót do góry
Wyświetl posty z ostatnich:   
Napisz nowy temat   Odpowiedz do tematu    Forum Lambert Benjamin Strona Główna -> milgetfstanel Wszystkie czasy w strefie CET (Europa)
Strona 1 z 1
Skocz do:  
Nie możesz pisać nowych tematów
Nie możesz odpowiadać w tematach
Nie możesz zmieniać swoich postów
Nie możesz usuwać swoich postów
Nie możesz głosować w ankietach

Lambert Benjamin  

To forum działa w systemie phorum.pl
Masz pomysł na forum? Załóż forum za darmo!
Forum narusza regulamin? Powiadom nas o tym!
Powered by Active24, phpBB © phpBB Group