diff --git a/docs/EN_US/CMakeLists.txt b/docs/EN_US/CMakeLists.txt index ec3071dc745..7739ab01ab9 100644 --- a/docs/EN_US/CMakeLists.txt +++ b/docs/EN_US/CMakeLists.txt @@ -18,7 +18,8 @@ # This CMakeLists intended to be used in docs/EN # Refactored for internationalization ### -# Last Mod GP 12/2022 +# Last Mod GP 11/2023 +# Removed AWS # Removed HPCC in a VM # Removed Monitoring # Removed ECLWatch @@ -77,7 +78,7 @@ add_subdirectory(HPCCDataTutorial) add_subdirectory(HPCCSystemAdmin) add_subdirectory(HPCCSpark) add_subdirectory(HPCC4J) -add_subdirectory(InstantCloud) + add_subdirectory(Installing_and_RunningTheHPCCPlatform) add_subdirectory(JDBC-driver) add_subdirectory(RoxieReference) diff --git a/docs/EN_US/InstantCloud/AWS-Mods/AWSIncludes.xml b/docs/EN_US/InstantCloud/AWS-Mods/AWSIncludes.xml deleted file mode 100644 index 7239c530cb8..00000000000 --- a/docs/EN_US/InstantCloud/AWS-Mods/AWSIncludes.xml +++ /dev/null @@ -1,66 +0,0 @@ - - - - Find your Amazon Access Key ID and Secret Access Key - - - - Go to aws.amazon.com and login, - if needed. - - - - Select Account. - - - - Select Security - Credentials. - - - - On the page, look for the section called Access Credentials. - - - - Note your Access Key ID and - your Secret Access Key. - -
- Credentials - - - - - - -
-
-
- - Portions of this image are intentionally blurred - - - - - - - - - - Access Key ID - - - - - - Secret Access Key - - - - - - -
diff --git a/docs/EN_US/InstantCloud/CMakeLists.txt b/docs/EN_US/InstantCloud/CMakeLists.txt deleted file mode 100644 index 630f4204600..00000000000 --- a/docs/EN_US/InstantCloud/CMakeLists.txt +++ /dev/null @@ -1,17 +0,0 @@ -################################################################################ -# HPCC SYSTEMS software Copyright (C) 2012 HPCC Systems®. -# -# Licensed under the Apache License, Version 2.0 (the "License"); -# you may not use this file except in compliance with the License. -# You may obtain a copy of the License at -# -# http://www.apache.org/licenses/LICENSE-2.0 -# -# Unless required by applicable law or agreed to in writing, software -# distributed under the License is distributed on an "AS IS" BASIS, -# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied. -# See the License for the specific language governing permissions and -# limitations under the License. -################################################################################ -get_filename_component(DOC_DIR_NAME ${CMAKE_CURRENT_SOURCE_DIR} NAME) -include(${CMAKE_CURRENT_SOURCE_DIR}/../../BuildTools/cmake_config/${DOC_DIR_NAME}.txt) diff --git a/docs/EN_US/InstantCloud/InstantCloud.xml b/docs/EN_US/InstantCloud/InstantCloud.xml deleted file mode 100644 index c43ad890f2b..00000000000 --- a/docs/EN_US/InstantCloud/InstantCloud.xml +++ /dev/null @@ -1,1537 +0,0 @@ - - - - HPCC Systems<superscript>®</superscript> Instant Cloud for - AWS - - - HPCC Systems<superscript>®</superscript> Instant Cloud for - AWS - - - - - - - - - Boca Raton Documentation Team - - - - We welcome your comments and feedback about this document via - email to docfeedback@hpccsystems.com - - Please include Documentation - Feedback in the subject line and reference the document name, - page numbers, and current Version Number in the text of the - message. - - LexisNexis and the Knowledge Burst logo are registered trademarks - of Reed Elsevier Properties Inc., used under license. - - HPCC Systems is a registered trademark of LexisNexis Risk Data - Management Inc. - - Amazon Web Services, AWS, Amazon EC2, EC2, Amazon Elastic Compute - Cloud, Amazon S3, Amazon Simple Storage Service, are trademarks, - registered trademarks or trade dress of AWS in the U.S. and/or other - countries. - - Other products, logos, and services may be trademarks or - registered trademarks of their respective companies. - - All names and example data used in this manual are fictitious. Any - similarity to actual persons, living or dead, is purely - coincidental. - - - - - - - - - HPCC Systems - - - - - - - - - - - - Introduction - - This guide provides details and guidance in running an HPCC - Systems® Platform inside an Amazon Web Services - (AWS) Elastic Cloud (EC2) using the Instant Cloud for AWS page. - - This allows you to instantiate and - run HPCC Systems clusters of different sizes on the fly. - - This is useful for: - - - - Proof-of-concept - - - - Experimentation - - - - Learning - - - - Leveraging the HPCC Systems platform without incurring cost of - hardware and administration - - - - Create and use an HPCC Systems cluster immediately without - purchasing and installing new hardware - - - - You can create a small cluster for small tasks or larger clusters - for larger jobs. This flexibility allows you to match cost and processing - power to the job at hand. - - Instantiating temporary EC2 nodes allows you to "rent" computing - capacity without long term commitments. In this manner, you pay as you go - instead of incurring large fixed costs at the start. - - Keep in mind that you should terminate any - unneeded instances to avoid paying for computing time you don't need. - You are solely responsible for all AWS - charges. - - Instant Cloud is being updated to provide managed services - functionality like Amazon Elastic Map Reduce (EMR). S3 integration, - elasticity, backup, and recovery are features under consideration. - - - - - - - - - - - - - - We suggest reading this - document in its entirety before beginning. - - - - - - - Prerequisites and Assumptions - - You will need: - - - - An Amazon Web Services account with EC2 enabled - - - - A workstation with Internet access to access the Amazon Web - Services, This can be either a: - - - - Windows PC or - - - - Linux workstation with the ECL IDE or VS Code - - - - - Mac® workstation - with the ECL IDE or VS Code - - - - - - A Web browser (Firefox, Internet Explorer, Safari, or - Chrome) - - - - Optionally, you could benefit from having: - - - - An SSH tool, such as PuTTY - - - - A key generation and conversion tool, like PuTTYGen - - - - A secure copy tool (such as, WinSCP) - - - - Familiarity in navigating Linux file systems - - - - - - - - - - - - - - - - - - - - For detailed PuTTY/pcsp/PUTTYGen directions from - Amazon, see: http://docs.amazonwebservices.com/AmazonEC2/gsg/2006-06-26/putty.html - - - - - - - - - Using Instant Cloud Launch - - - Before you begin - - In this section, you will gather some information you need before - beginning. This includes: - - - - Your AWS Access Key ID and Secret Access Key - - - - The size of the cluster you want. - - - - - - - - - - Login - - - - Open a browser and go to https://aws.hpccsystems.com/. - - If not logged in, you will see the Login link at the top of the page. If you - see a Logout link, you are - already logged in. - - - - Specify your Access Key ID - and Secret Access Key. This - information is never stored on our system. - - If you don't have it handy, you can click on the link under - Can't find your Access Key ID? to - go to that section of the AWS Management Console.. - -
- Login - - - - - - -
- - Portions of this image are intentionally blurred -
- - - Check the box to accept the Terms of Use. - - - - Press the Login - button. - - The View Clusters window - displays. This shows any clusters you have started. From here, you - can access the link to launch a new cluster. - - - - Click on the Launch Cluster - link at the top. - - The Launch a New HPCC Systems Cluster - window displays. - - - -
-
- - - Launch a New HPCC Systems Cluster - - In this section, you will launch a set of Ubuntu machines to use - for your HPCC Systems Thor platform. The Instant Cloud page uses the - input you specify to create your cluster for you. - - When you press the Launch Cluster - button, it: - - - - Creates a unique Cluster Name. - - - - Creates a Security Group with the access to the TCP and UDP - ports enabled. - - - - Creates a Key Pair. - - - - Launches the number of m1.large nodes requested using the - provided AMI (ami-e01698d0). - - - - Gathers Private and Public IPs. - - - - Installs HPCC Systems platform packages. - - - - Configures the requested Thor Cluster, the requested Roxie - Cluster, and the required Support nodes. - - - - Creates the internal user (hpcc). - - - - Propagates the environment.xml file to all nodes. - - - - Starts up all components. - - - - - Launch a New Thor Cluster - - - - Specify the number of Thor nodes and the number of Roxie - nodes to instantiate. - -
- Launch a New Thor Cluster - - - - - - -
-
- - - Optionally, specify Snapshot ID(s) to attach data to your - landing zone. - - This would be a previously saved "snapshot" of a landing - zone data store. - - - - Press the Launch Cluster - button. - - The Cluster Launch Log - window displays. This shows details while it is - launching (it auto-refreshes during launch or termination). It - also shows your Cluster ID (a unique identifier) which can be - useful to identify the cluster when you have more than one - running. - - - - - - Wait until the Cluster Launch - Log says Status: Ready - to indicate completion of the startup processes. - -
- Launch Cluster - - - - - - -
-
- - - - - Click on the View - Clusters link to see running clusters. - - This list has links for the ECL Watch page, the Launch Log - page, the Configuration file for the cluster, a list of IPs, and - the SSH Key. - - It also has a link that allows you to Terminate the cluster instantiation. - -
- View Clusters - - - - - - -
-
-
-
- - - Terminating your instances - - If you need to save your data, you must to despray it first and - save it off of your cluster before shutting down. More information - about Data Handling in an HPCC Systems platform are available in the - Data Handling manual. See the Next Steps section for details - on downloading other manuals. - - To terminate your cluster: - - - - - Open the View Clusters - page using the link at the top of a page. - -
- Running Clusters - - - - - - -
-
- - - - - Click on the Terminate link next to the cluster - you wish to close. - -
- Terminate Cluster - - - - - - -
-
- - - Press the Terminate - Cluster button and confirm when prompted. - - The Launch Log page - displays and shows activity while terminating. - - - - - - Wait until the Cluster Launch Log says Status: Terminated. - -
- Terminated Cluster - - - - - - -
-
- - - Optionally, go to the AWS management console to confirm - your instances have properly terminated. - - You are solely responsible for - all charges to your AWS account. - -
- - -
- - - Other Tasks - - - - - - - View Clusters - - The View Clusters page - provides access to each cluster's Launch Date/Time, Cluster ID, - Number of Nodes, Zone, ECL Watch Page, Status, Launch Log, Config - File, IP Addresses, and SSH Key. - - It also provides a link to terminate a cluster with a single - click. - -
- Running Clusters - - - - - - -
-
- - - Manage your SSH keys - - The SSH Key management page allows you to download your - cluster's SSH key (.PEM file) to use to authenticate an SSH session, - such as a console session using PuTTY. It also provides a means to - delete it from the One-Click system. - - - - Open the View Clusters - page using the View - Clusters Link at the top of a page. - -
- Running Clusters - - - - - - -
-
- - - - - Click on the Key - link next to the cluster. - -
- Key Management - - - - - - -
-
- - - Click on the pem file - link to download the key. - - You should store this file in a safe place. - - - - Press the Delete SSH - Key button to delete the SSH key from the One-Click - system. - - Note: This does not remove the keys from your running - cluster. It only removes it from the Instant Cloud system and - prevents further downloads of the key. Once deleted, there is - no way to retrieve the key. - -
-
-
-
-
- - - Running ECL - - - - - Running ECL on your HPCC Systems cluster - - After your platform is running, and you can now create and run - some ECL - Enterprise Control Language (ECL) is a declarative, data centric - programming language used to manage all aspects of the massive data - joins, sorts, and builds that truly differentiate HPCC Systems (High - Performance Computing Cluster) from other technologies in its - ability to provide flexible data analysis on a massive scale. - code using either ECL IDE, the command line ECL compiler, - or the ECLPlus tool. - - - Install the ECL IDE and HPCC Systems Client Tools - - You only need to install the ECL IDE once. If you have already - installed it, you can skip this section. - - - - Note: - - - The ECL IDE only runs on Windows operating - systems. - - - - - - - In a Web browser, connect to ECL Watch using - http://<PUBLIC_DNS>:8010 (where - PUBLIC_DNS is the public DNS name of your ESP server). - - - - - - - - - - - - - - Your IP address could be different from the - ones provided in the example images. Please use the IP - address of your - node. - - - - - - - - - - From the ECL Watch Advanced menu, select the Downloads link. - -
- ECL Watch Resource Page - - - - - - -
- - Follow the link to the HPCC System's portal download - page. - - Alternatively, you could use your browser to go directly - to https://hpccsystems.com/download -
- - - Follow the instructions on that page to download the - ECL IDE and Client Tools for - Windows. - - - - Install the ECL IDE and Client Tools - for Windows. - - - - Once the ECL IDE is successfully installed, you can - proceed. - -
-
- - - Running a basic ECL program from the ECL IDE - - - - Open the ECL IDE on your Windows workstation, from your - start menu. (Start >> - All Programs >> HPCCSystems >> ECL IDE ). - - - - - - - - - - - - - - You can create a shortcut on your desktop to - provide quick access to the ECL IDE. - - - - - - - - On the Login Window, press the Preferences button. - - - - In the Server entry - control, type the Public IP of your ESP Server of your ESP - server) then press the Ok - button. - -
- Login Window - - - - - - -
-
- - - Enter the Login ID and - Password provided in the Login - dialog. - - - - - - - - - - Login ID - - hpccdemo - - - - Password - - hpccdemo - - - - - -
- Login Window - - - - - - -
-
- - - Open a new Builder Window - (CTRL+N) and write the following code: - - OUTPUT('Hello World'); - - - This could also be written as: - - 'Hello World'; -In the second program listing, the OUTPUT keyword is omitted. - This is possible because the language is declarative and the - OUTPUT action is implicit. - - - - Select thor as your - target cluster. - - Thor is the Data Refinery - component of your HPCC Systems. It is a disk based massively - parallel computer cluster, optimized for sorting, manipulating, - and transforming massive data. - -
- Select target - - - - - - -
-
- - - - - Press the syntax check button on the main toolbar (or - press F7). - -
- Syntax Check - - - - - - -
A successful syntax check displays the "No Errors" - message.
-
- - - - - Press the Submit button - (or press ctrl+enter). - -
- Completed job - - - - - - -
The green check mark indicates successful - completion.
-
- - - - - Click on the workunit number tab and then on the Result 1 - tab to see the output. - -
- Completed job output - - - - - - -
-
-
-
-
-
- - - More ECL Examples - - This section contains additional ECL examples you can use on your - HPCC Systems Thor platform. You can run these on a single-node system or a - larger multi-node cluster. - - - ECL Example: Anagram1 - - This example takes a STRING and produces every possible anagram - from it. This code is the basis for a second example which evaluates - which of these are actual words using a word list data file. - - - - Open the ECL IDE (Start - >> All Programs >> - HPCC Systems >> ECL IDE ) - and login to your HPCC Systems. - - - - Open a new Builder Window - (CTRL+N) and write the following code:STRING Word := 'FRED' :STORED('Word'); -R := RECORD - STRING SoFar {MAXLENGTH(200)}; - STRING Rest {MAXLENGTH(200)}; - END; -Init := DATASET([{'',Word}],R); -R Pluck1(DATASET(R) infile) := FUNCTION -R TakeOne(R le, UNSIGNED1 c) := TRANSFORM - SELF.SoFar := le.SoFar + le.Rest[c]; - SELF.Rest := le.Rest[..c-1]+le.Rest[c+1..]; -// Boundary Conditions handled automatically - END; -RETURN NORMALIZE(infile,LENGTH(LEFT.Rest),TakeOne(LEFT,COUNTER)); - END; -L := LOOP(Init,LENGTH(TRIM(Word)),Pluck1(ROWS(LEFT))); -OUTPUT(L); - - - - Select thor as your target - cluster. - - - - Press the syntax check button on the main toolbar (or press - F7) - - - - - - Press the Submit button (or - press ctrl+enter). - -
- Completed job - - - - - - -
The green check mark indicates successful - completion.
-
- - - - - Click on the workunit number tab and then on the Result 1 - tab to see the output. - -
- Completed job output - - - - - - -
-
-
- - -
- - - Anagram2 - - In this example, we will download an open source data file of - dictionary words, spray - A spray or import is - the relocation of a data file from one location (such as a Landing - Zone) to a Data Refinery cluster. The term spray was adopted due to - the nature of the file movement -- the file is partitioned across - all nodes within a cluster. - that file to our Thor cluster, then validate our anagrams - against that file so that we determine which are valid words. The - validation step uses a JOIN of the anagram list to the dictionary file. - Using an index and a keyed join would be more efficient, but this serves - as a simple example. - - - Download the word list - - We will download the word list from http://wordlist.sourceforge.net/ - Look for a link to the 2of12.txt file - on that page. - - - - Download the Official 12 Dicts - Package. The files are available in tar.gz or ZIP - format. - - - - Extract the 2of12.txt - file to a folder on your local machine. - - - - - - Load the Dictionary File to your Landing Zone - - In this step, you will copy the data files to a location from - which it can be sprayed to your HPCC Systems Thor cluster. A Landing - Zone is a storage location attached to your HPCC Systems. It has a - utility running to facilitate file spraying to a cluster. - - For smaller data files, maximum of 2GB, you can use the - upload/download file utility in ECL Watch. This data file is only ~400 - kb. - - Next you will distribute (or Spray) the dataset to all the nodes - in the HPCC Systems Thor cluster. The power of the HPCC Systems comes - from its ability to assign multiple processors to work on different - portions of the data file in parallel. Even if your deployment only - has a single node, the data must be sprayed to the cluster. - - - - In a Web browser, connect to ECL Watch using - http://<PUBLIC_DNS>:8010 (where - PUBLIC_DNS is the public DNS name of your ESP server). - - - - - - - - - - - - - - Your IP address could be different from the ones - provided in the example images. Please use the IP - address provided by your installation. - - - - - - - - - - From ECL Watch click on the Files icon, then click the Landing Zones link from the navigation - sub-menu. - - Press the Upload action - button. - -
- Upload - - - - - - -
-
- - - A dialog opens. Browse to - and select the file to upload and then press the Open button. - - The file you selected should appear in the File Name field. The data file is named: - 2of12.txt. - - - - Press the Start button to - complete the file upload. - -
-
- - - Spray the Data File to your <emphasis>Thor - Cluster</emphasis> - - To use the data file in our HPCC Systems Thor system, we must - "spray" it to all the nodes. A spray or - import is the relocation of a data file from one - location (such as a Landing Zone) to multiple file parts on nodes in a - cluster. - - The distributed or sprayed file is given a - logical-file-name as follows: ~thor::word_list_csv The system maintains a - list of logical files and the corresponding physical file locations of - the file parts. - - - - In a Web browser, connect to ECL Watch using - http://<PUBLIC_DNS>:8010 (where - PUBLIC_DNS is the public DNS name of your ESP server). - - - - Click on the Files icon, - then click the Landing Zones link - from the navigation sub-menu. Select the appropriate landing zone - (if there are more than one landing zones). Click the arrow to the - left of your landing zone to expand it. - - - - Select the file from your drop zone by checking the box next - to it. - - - - - - Check the box next to 2of12.txt, then press the Delimited button. - -
- Spray Delimited - - - - - - -
- - The DFU Spray Delimited - page displays. -
- - - Select mythor in the Target Group drop list. - - - - Complete the Target Scope as - thor. - - - - Fill in the rest of the parameters (if they are not filled - in already). - - - - Max Record Length 8192 - - - - Separator \, - - - - Line Terminator \n,\r\n - - - - Quote: ' - - - - - - Fill in the Target Name using the rest of the Logical File - name desired: word_list_csv - - - - - - - Make sure the Overwrite box - is checked. - - If available, make sure the Replicate box is checked. (The Replicate - option is only available on systems where replication has been - enabled.) - - - - - - Press the Spray button. - - A tab displays the DFU Workunit where you can see the - progress of the spray. - -
-
- - - Run the ECL program on Thor<parameter></parameter> - - - - Open a new Builder Window - (CTRL+N) and write the following code:IMPORT Std; -layout_word_list := record - string word; -end; -File_Word_List := dataset('~thor::word_list_csv', layout_word_list, - CSV(heading(1),separator(','),quote(''))); -STRING Word := 'teacher' :STORED('Word'); -STRING SortString(STRING input) := FUNCTION - OneChar := RECORD - STRING c; - END; - OneChar MakeSingle(OneChar L, unsigned pos) := TRANSFORM - SELF.c := L.c[pos]; - END; - Split := NORMALIZE(DATASET([input],OneChar), LENGTH(input), - MakeSingle(LEFT,COUNTER)); - SortedSplit := SORT(Split, c); - OneChar Recombine(OneChar L, OneChar R) := TRANSFORM - SELF.c := L.c+R.c; - END; - Recombined := ROLLUP(SortedSplit, Recombine(LEFT, RIGHT),ALL); - RETURN Recombined[1].c; -END; - -STRING CleanedWord := SortString(TRIM(Std.Str.ToUpperCase(Word))); - -R := RECORD - STRING SoFar {MAXLENGTH(200)}; - STRING Rest {MAXLENGTH(200)}; -END; -Init := DATASET([{'',CleanedWord}],R); -R Pluck1(DATASET(R) infile) := FUNCTION - R TakeOne(R le, UNSIGNED1 c) := TRANSFORM - SELF.SoFar := le.SoFar + le.Rest[c]; - SELF.Rest := le.Rest[..c-1]+le.Rest[c+1..]; - // Boundary Conditions - // handled automatically - END; - RETURN DEDUP(NORMALIZE(infile,LENGTH(LEFT.Rest),TakeOne(LEFT,COUNTER))); -END; -L := LOOP(Init,LENGTH(CleanedWord),Pluck1(ROWS(LEFT))); -ValidWords := JOIN(L,File_Word_List, -LEFT.SoFar=Std.Str.ToUpperCase(RIGHT.Word),TRANSFORM(LEFT)); -OUTPUT(CleanedWord); -COUNT(ValidWords); -OUTPUT(ValidWords) - - - - - Select thor as your - target cluster. - - - - Press the syntax check button on the main toolbar (or - press F7) - - - - Press the Submit button. - - - - When it completes, select the Workunit tab, then select the Result tab. - - - - Examine the result. - - - -
-
- - - Data Handling - - This section explains data handling in an AWS configuration. More - information about Data Handling in an HPCC Systems platform are available - in the Data Handling manual. - - - Using S3 buckets - - S3 buckets provide a means of persistent storage inside Amazon Web - Services. You must configure your AWS account to have an active Access - Key pair enable and create S3 buckets. Once you have created and - activated your access key pair and and created a unique S3 bucket, you - will use these for all future instantiations. - - - - - - - Install and Configure S3 packages on your Landing - Zone node - - To move files to or from S3 storage, the S3 packages must be - installed and configured on your Landing Zone node. - - - - Open a console window and connect to the Landing Zone (LZ) - node - - - - Run these commands: - - sudo apt-get install s3cmd -s3cmd --configure - - - - - Enter your Access - Key - - - - Enter your Secret Access - Key - - - - Leave encrypt password blank - - - - Leave path to GPG program blank - - - - Answer the question Use HTTPS? - - - - Enter no to improve performance - - - - Enter yes if you are concerned about data - privacy - - - - - - Leave proxy server blank - - - - Enter Yes to Test - Access - - - - Enter Yes to Save - Settings - - - - - - Creating and Using S3 Buckets - - To store data on S3, you must create a bucket that is unique to - the whole s3 system. Once created, this bucket persists even when you - close a instances of servers. - - You can despray a file from Thor to your landing zone, then copy - to an S3 bucket to for persistent storage. Later, you can copy files - from the S3 bucket to a landing zone and spray the file to a Thor - cluster. More information about Data Handling in an HPCC Systems - platform are available in the Data Handling - manual. - - - Create a bucket - - s3cmd mb s3://your-unique-bucket-name - - - - List Buckets - - s3cmd ls - - - - Upload a file to a bucket - - s3cmd put myfile.csv s3://your-unique-bucket-name - - - - - Retrieve a file from a bucket - - s3cmd get s3://your-unique-bucket-name/myfile.csv myfile.csv -See http://s3tools.org/s3cmd for - more information on how to use s3cmd - - - - - - - Next Steps - - To familiarize yourself with what your system can do, we recommend - following the steps in: - - The HPCC Systems Data - Tutorial - - - - The Six Degrees of Kevin - Bacon example - - - - Read Using Config Manager to - learn how to configure an HPCC Systems platform using Advanced - View. - - - - Use your new skills to process your own massive - dataset! - - - - The HPCC Systems Portal ( HPCCSystems.com ) is also a valuable - resource for more information including: - - - - Video Tutorials - - - - Additional examples - - - - White Papers - - - - Documentation - - - - User Forums - - - -
diff --git a/docs/PT_BR/CMakeLists.txt b/docs/PT_BR/CMakeLists.txt index fe49fc71b63..5837cf03f88 100644 --- a/docs/PT_BR/CMakeLists.txt +++ b/docs/PT_BR/CMakeLists.txt @@ -18,7 +18,8 @@ # This CMakeLists intended to be used in docs/PT_BR # Refactored for internationalization ### -# Last Mod GP 12/2022 +# Last Mod GP 11/2023 +# Removed it the AWS/Instacloud # Removed HPCC in a VM # Removed Monitoring # Removed ECLWatch diff --git a/docs/PT_BR/InstantCloud/AWS-Mods/AWSIncludes.xml b/docs/PT_BR/InstantCloud/AWS-Mods/AWSIncludes.xml deleted file mode 100644 index f32e7eb90d3..00000000000 --- a/docs/PT_BR/InstantCloud/AWS-Mods/AWSIncludes.xml +++ /dev/null @@ -1,63 +0,0 @@ - - - - Encontre sua Amazon Access Key ID e Secret Access Key - - - - Acesse aws.amazon.com e faça o login, se necessário. - - - - Selecione Account. - - - - Selecione Credenciais. - - - - Na página, procure a seção Access Credentials. - - - - Anote sua Access Key ID e sua Secrete Access Key - -
- Credenciais - - - - - - -
-
-
- - Partes desta imagem foram intencionalmente desfocadas - - - - - - - - - - Access Key ID - - - - - - Secret Access Key - - - - - - -
diff --git a/docs/PT_BR/InstantCloud/CMakeLists.txt b/docs/PT_BR/InstantCloud/CMakeLists.txt deleted file mode 100644 index fc688a101f2..00000000000 --- a/docs/PT_BR/InstantCloud/CMakeLists.txt +++ /dev/null @@ -1,17 +0,0 @@ -################################################################################ -# HPCC SYSTEMS software Copyright (C) 2019 HPCC Systems®. -# -# Licensed under the Apache License, Version 2.0 (the "License"); -# you may not use this file except in compliance with the License. -# You may obtain a copy of the License at -# -# http://www.apache.org/licenses/LICENSE-2.0 -# -# Unless required by applicable law or agreed to in writing, software -# distributed under the License is distributed on an "AS IS" BASIS, -# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied. -# See the License for the specific language governing permissions and -# limitations under the License. -################################################################################ -get_filename_component(DOC_DIR_NAME ${CMAKE_CURRENT_SOURCE_DIR} NAME) -include(${CMAKE_CURRENT_SOURCE_DIR}/../../BuildTools/cmake_config/${DOC_DIR_NAME}.txt) \ No newline at end of file diff --git a/docs/PT_BR/InstantCloud/InstantCloud.xml b/docs/PT_BR/InstantCloud/InstantCloud.xml deleted file mode 100644 index 5a7f02347dd..00000000000 --- a/docs/PT_BR/InstantCloud/InstantCloud.xml +++ /dev/null @@ -1,1568 +0,0 @@ - - - - HPCC Systems<superscript>®</superscript> Instant Cloud para - AWS - - - HPCC Systems<superscript>®</superscript> Instant Cloud para - AWS - - - - - - - - - Equipe de documentação de Boca Raton - - - - Sua opinião e comentários sobre este documento são muito - bem-vindos e podem ser enviados por e-mail para - docfeedback@hpccsystems.com - - Inclua a frase Feedback sobre - documentação na linha de assunto e indique o nome do - documento, o número das páginas e número da versão atual no corpo da - mensagem. - - LexisNexis e o logotipo Knowledge Burst são marcas comerciais - registradas da Reed Elsevier Properties Inc., usadas sob licença. - - HPCC Systems é uma marca comercial registrada da LexisNexis Risk - Data Management Inc. - - Amazon Web Services, AWS, Amazon EC2, EC2, Amazon Elastic Compute - Cloud, Amazon S3, Amazon Simple Storage Service, são marcas comerciais, - marcas registradas ou identidades visuais da AWS nos EUA e/ou em outros - países. - - Os demais produtos, logotipos e serviços podem ser marcas - comerciais ou registradas de suas respectivas empresas. - - Todos os nomes e dados de exemplo usados neste manual são - fictícios. Qualquer semelhança com pessoas reais, vivas ou mortas, é - mera coincidência. - - - - - - - - - - - - - SSystems - - - - - - - - - - - - Introdução - - Este guia fornece informações e orientação sobre como executar a - plataforma HPCC Systems® dentro do Amazon Web - Services (AWS) Elastic Cloud (EC2) usando a página Instant Cloud para AWS - . - - Isso permite instanciar e executar - clusters do HPCC Systems de diferentes tamanhos em tempo real. - - O procedimento é útil para: - - - - Validação de conceito - - - - Experimentação - - - - Aprendizagem - - - - Usar a plataforma HPCC Systems sem estar sujeito a custos - administrativos e de hardware. - - - - Crie e use um cluster do HPCC Systems imediatamente sem precisar - comprar ou instalar um novo hardware. - - - - É possível criar um cluster pequeno para tarefas menores ou clusters - maiores para tarefas grandes. Essa flexibilidade permite combinar custo e - poder de processamento para a tarefa em questão. - - Instanciar nós EC2 temporários permite “locar” a capacidade - computacional sem assumir compromissos em longo prazo. Dessa forma, você - paga por utilização em vez de desembolsar um valor fixo alto logo no - início. - - Lembre-se de que você deve encerrar quaisquer - instâncias desnecessárias para evitar pagar por um tempo de computação - desnecessário. Todos os custos da AWS - são de sua total responsabilidade. - - O Instant Cloud está sendo atualizado para fornecer serviços - gerenciados      como Amazon Elastic Map Reduce (EMR). Integração S3,      - elasticidade, backup e recuperação são recursos em consideração. - - - - - - - - - - - - - - Sugerimos a leitura - completa deste documento antes de começar. - - - - - - - Pré-requisitos e Premissas - - Você vai precisar de: - - - - Uma conta Amazon Web Services com EC2 habilitado - - - - Uma estação de trabalho com conexão à Internet para acessar o - Amazon Web Services; A estação de trabalho pode ser um: - - - - PC (Computador) Windows ou - - - - - - Um navegador de Internet (Firefox, Internet Explorer, ou - Chrome) - - - - Opcionalmente é desejável ter: - - - - Uma ferramenta SSH, como PuTTY - - - - Uma ferramenta de geração e conversão de chaves, como - PuTTYGen - - - - Uma ferramenta de cópia de segurança (tais como WinSCP) - - - - Familiaridade com navegação em sistemas de arquivo - Linux - - - - - - - - - - - - - - - - - - - - Para obter instruções detalhadas da Amazon sobre - PuTTY/pcsp/PUTTYGen , acesse: http://docs.amazonwebservices.com/AmazonEC2/gsg/2006-06-26/putty.html - - - - - - - - - Utilizando o Instant Cloud Launch - - - Antes de Começar - - Nesta seção, reuniremos algumas informações necessárias antes de - começar. Isso inclui: - - - - Sua ID de chave de acesso e a Chave de acesso secreta do - AWS - - - - O tamanho do cluster desejado. - - - - - - - - - - Login - - - - Abra o navegador e acesse https://aws.hpccsystems.com/. - - Caso não tenha feito o login, o link do Login será exibido no topo da página. Se a - tela exibir o link Logout , isso - significa que você já está logado no sistema. - - - - Especifique sua Access Key - ID e Secret Access - Key. Estas informações nunca serão armazenadas em - nossos sistemas. - - Caso estas informações não estejam acessíveis, clique no - link abaixo de Can't find your Access Key - ID? para ir à seção de AWS Management - Console. - -
- Login - - - - - - -
- - Partes desta imagem foram intencionalmente desfocadas -
- - - Marque a caixa de seleção para aceitar os Termos de - uso. - - - - Pressione o botão Login - . - - A janela View Clusters - será exibida. A janela mostrará todos os clusters iniciados. Aqui, - você pode acessar o link para iniciar um novo cluster. - - - - Clique no link Launch Cluster - no topo da página. - - A janela Launch a New HPCC - será exibida. - - - -
-
- - - Iniciar um Novo cluster HPCC - - Nesta seção, iniciaremos um conjunto de máquinas Ubuntu 12.04 que - serão usadas em sua plataforma Thor do HPCC Systems. A página Instant - Cloud usa a entrada que você especificar para criar os clusters. - - Ao pressionar o botão Launch Cluster - , você poderá: - - - - Cria um nome de cluster exclusivo. - - - - Cria um Grupo de segurança com acesso às portas TCP e UDP - habilitado. - - - - Cria um Par de chaves. - - - - Inicia o número de nós m1.large solicitados usando AMI - (ami-e01698d0) fornecida. - - - - Reúne IPs privado e público. - - - - Instala os pacotes da plataforma HPCC Systems. - - - - Configura o Cluster Thor, o Cluster Roxie, e os nós de suporte - exigidos. - - - - Cria o usuário interno (HPCC). - - - - Propaga o arquivo environment.xml para todos os nós. - - - - Inicializa todos os componentes. - - - - - Iniciar um Novo cluster Thor - - - - Especifique a quantidade de nós Thor e Roxie a ser - instanciada. - -
- Iniciar um Novo cluster Thor - - - - - - -
-
- - - Opcionalmente, especifique a(s) ID(s) da imagem para anexar - os dados à sua zona de entrada de arquivos. - - Isso seria uma "imagem" salva anteriormente da armazenagem - de dados da zona de entrada de arquivos. - - - - Pressione o botão Launch - Cluster . - - A janela Cluster Launch Log - será exibida. Essa janela mostra os detalhes durante a - inicialização (ela é atualizada automaticamente durante a - inicialização ou encerramento). Ela também exibe sua ID do Cluster - (um identificador exclusivo) que pode ser útil para identificar o - cluster quando mais de um cluster estiver sendo executado. - - - - - - Aguarde até que o Cluster Launch - Log diga Status: Ready - , indicando a conclusão dos processos de inicialização. - -
- Iniciar Cluster - - - - - - -
-
- - - - - Clique no link View - Clusters para ver os clusters que estão sendo - executados. - - Essa lista possui links para a página do ECL Watch, para a - página Iniciar Log, para o arquivo de configuração do cluster, - para a lista de IPs, e para a chave SSH. - - Também possui um link que permite Encerrar a instanciação do cluster. - -
- View Clusters - - - - - - -
-
-
-
- - - Encerrando as instâncias - - Se precisar salvar seus dados, primeiro será necessário fazer o - despray (consolidar dados dos nós) e salvar do seu cluster antes - desligar. Informações adicionais sobre o processamento de dados em uma - plataforma HPCC Systems estão disponíveis no manual Data - Handling (Processamento de dados). Consulte a seção “Próximos passos” para obter - informações sobre como fazer o download de outros manuais. - - Para encerrar seu cluster: - - - - - Abra a página View - Clusters usando o link localizado no topo da - página. - -
- Clusters em Execução - - - - - - -
-
- - - - - Clique no link Terminate próximo ao cluster que você - deseja fechar. - -
- Terminate Cluster - - - - - - -
-
- - - Pressione o botão Terminate - Cluster pressione o botão Encerrar Cluster e confirme - quando solicitado. - - A página Cluster Launch - Log será exibida, mostrando a atividade durante o - encerramento. - - - - - - Aguarde até que o Log de inicialização do cluster diga - Status: Terminated. - -
- Cluster Encerrado - - - - - - -
-
- - - Como alternativa, acesse o Console de Gerenciamento do AWS - (AWS management console) para confirmar que suas instâncias - foram encerradas de forma adequada. - - Todos os custos de sua conta AWS - são de sua total responsabilidade. - -
- - -
- - - Outras Tarefas - - - - - - - Visualizar Clusters - - Através da página View - Clusters você pode acessar a Data/Hora de inicialização - de cada cluster, a ID do cluster, o número de nós, a Zona, a página - do ECL Watch, o Status, o Log de inicialização, o Arquivo de - configuração, os endereços IP, e a chave SSH. - - A página também fornece um link para encerrar um cluster com - um único clique. - -
- Clusters em Execução - - - - - - -
-
- - - Gerenciar chaves SSH - - A página de gerenciamento da Chave SSH permite baixar a chave - SSH do seu cluster (arquivo .PEM) que será usada para autenticar a - seção SSH , como por exemplo uma seção de console que utiliza PuTTY. - A página também mostra como remover a chave do One-Click - System. - - - - Abra a página View - Clusters usando o link View Clusters localizado no topo da - página. - -
- Clusters em Execução - - - - - - -
-
- - - - - Clique no link Key - próximo ao cluster. - -
- Gerenciamento da chave - - - - - - -
-
- - - Clique no link arquivo pem - para baixar a chave. - - Este arquivo deve ser armazenado em um lugar - seguro. - - - - Pressione o botão Delete SSH Key - para remover a chave SSH do One-Click - system. - - Observação: Este procedimento não remove as chaves do - seu cluster em execução. Ele apenas remove as chaves do - sistema Instant Cloud e impede downloads futuros da chave. Uma - vez removida, a chave não pode ser recuperada. - -
-
-
-
-
- - - Executando ECL - - - - - Executando ECL no seu cluster HPCC Systems - - Agora que a plataforma está em execução, você pode criar e - executar alguns ECL - Enterprise Control - Language (ECL) é uma linguagem de programação declarativa - e centrada em dados usada para gerenciar todos os aspectos da - junção, classificação e compilação de dados massivos que realmente - diferenciam o HPCC (High Performance Computing Cluster) das demais - tecnologias na sua capacidade de fornecer análise de dados flexíveis - em escala massiva. - Codifique usando o ECL IDE, o compilador ECL da linha de - comando, ou a ferramenta ECLPlus. - - - Instalar o ECL IDE e HPCC Client Tools - - O ECL IDE precisa ser instalado apenas uma vez. Pule esta seção - caso ele já tenha sido instalado. - - - - Em um navegador da Internet, conecte-se ao ECL Watch - usando http://<PUBLIC_DNS>:8010 (onde - PUBLIC_DNS é o nome do DNS público do seu servidor ESP). - - - - - - - - - - - - - - Seu endereço IP poderá ser diferente dos - endereços fornecidos nas imagens de exemplo. Favor - usar o endereço IP do seu nó. - - - - - - - - - - No menu ECL Watch Advanced, selecione o link Additional Resources . - -
- Página ECL Watch Resource - - - - - - -
- - Siga o link para a página do portal de download do HPCC - System. -
- - - Clique no link ECL IDE . - (ao lado direito da coluna Download, abaixo do título Free - Community Edition) - - - - Siga as instruções na página da Internet para instalar o - ECL IDE. - - - - Instale o ECL IDE, seguindo os prompts no programa de - instalação. Após o ECL IDE ter sido instalado com sucesso, você - pode prosseguir. - -
-
- - - Executando o programa ECL do ECL IDE - - - - Abra o ECL IDE em sua estação de trabalho Windows, a - partir do menu Iniciar. (Start - >> All Programs >> - HPCCSystems >> ECL IDE ). - - - - - - - - - - - - - - Você pode criar um atalho em sua área de trabalho - para acessar rapidamente o ECL IDE. - - - - - - - - Na janela de Login , pressione o botão Preferences . - - - - No controle de entrada Server , digite o IP público do ESP - Server de seu servidor ESP) e pressione o botão Ok . - -
- Janela de Login - - - - - - -
-
- - - Digite a Login ID (ID do - Login) e senha - fornecidas na caixa de diálogo Login. - - - - - - - - - - Login ID - - hpccdemo - - - - Password - - hpccdemo - - - - - -
- Janela de Login - - - - - - -
-
- - - Abra uma nova Janela do - compilador (CTRL+N) e escreva o seguinte - código: - - OUTPUT('Hello World'); - - - Isso também poderia ser escrito como: - - 'Hello World'; -Na segunda listagem de programa, a palavra-chave OUTPUT é - ocultada. Isso é possível porque a linguagem é declarativa e a - ação OUTPUT é implícita. - - - - Selecione thor como - seu cluster de destino. - - Thor é o componente da - Refinaria de dados do seu HPCC. Trata-se de um cluster de - computador massivamente paralelo baseado em disco, otimizado - para classificar, manipular e transformar uma quantidade massiva - de dados. - -
- Selecionar destino - - - - - - -
-
- - - - - Pressione o botão de verificação de sintaxe localizado na - barra de ferramentas principal (ou pressione F7). - -
- Verificação de sintaxe - - - - - - -
Uma verificação se sintaxe bem-sucedida exibe a - mensagem “No errors...”.
-
- - - - - Pressione o botão Submit - (ou as teclas ctrl+enter). - -
- Job Concluído - - - - - - -
A marcação na cor verde indica uma conclusão - bem-sucedida.
-
- - - - - Clique na guia do número da workunit e, em seguida, na - guia Result 1 para ver os resultados. - -
- Resultado do job concluído - - - - - - -
-
-
-
-
-
- - - Mais exemplos ECL - - Esta seção contém exemplos adicionais de ECL que podem ser usados em - sua plataforma Thor do HPCC. Eles podem ser executados em um sistema de nó - único ou em um cluster maior com vários nós. - - - Exemplo ECL: Anagram1 - - Este exemplo pega uma STRING e gera todos os anagramas possíveis a - partir dela. Este código serve de base para um segundo exemplo que - analisa quais destas são palavras reais usando um arquivo de dados da - lista de palavras. - - - - Abra o ECL IDE (Start - >> All Programs >> - HPCC Systems >> ECL IDE ) e - faça o login no HPCC. - - - - Abra uma nova Janela do - compilador (CTRL+N) e escreva o seguinte - código:STRING Word := 'FRED' :STORED('Word'); -R := RECORD - STRING SoFar {MAXLENGTH(200)}; - STRING Rest {MAXLENGTH(200)}; - END; -Init := DATASET([{'',Word}],R); -R Pluck1(DATASET(R) infile) := FUNCTION -R TakeOne(R le, UNSIGNED1 c) := TRANSFORM - SELF.SoFar := le.SoFar + le.Rest[c]; - SELF.Rest := le.Rest[..c-1]+le.Rest[c+1..]; -// Boundary Conditions handled automatically - END; -RETURN NORMALIZE(infile,LENGTH(LEFT.Rest),TakeOne(LEFT,COUNTER)); - END; -L := LOOP(Init,LENGTH(TRIM(Word)),Pluck1(ROWS(LEFT))); -OUTPUT(L); - - - - Selecione thor como seu - cluster de destino. - - - - Pressione o botão de verificação de sintaxe localizado na - barra de ferramentas principal (ou pressione F7) - - - - - - Pressione o botão Submit - (ou as teclas ctrl+enter). - -
- Job Concluído - - - - - - -
A marcação na cor verde indica uma conclusão - bem-sucedida.
-
- - - - - Clique na guia do número da workunit e, em seguida, na guia - Result 1 para ver os resultados. - -
- Resultado do job concluído - - - - - - -
-
-
- - -
- - - Anagram2 - - Neste exemplo, vamos baixar um arquivo de dados de código público - de palavras do dicionário, spray. - Um spray ou - importação é a transferência de um arquivo de dados de um - local (como a zona de entrada de arquivos) para um cluster da - Refinaria de dados. O termo spray foi adotado devido à natureza da - transferência dos arquivos – o arquivo é particionado entre todos os - nós em um cluster. - esse arquivo para nosso cluster Thor, e em seguida validar - os anagramas em comparação com esse arquivo para determinar quais - palavras são válidas. A etapa de validação usa um JOIN da lista de - anagramas para o arquivo do dicionário. O uso de um índice e de um JOIN - indexado seria mais eficiente, mas isso serve apenas como um simples - exemplo. - - - Fazer o download da Lista de Palavras - - Vamos fazer o download da lista de palavras em http://wordlist.sourceforge.net/ - Look for a link to the 2of12.txt file - on that page. - - - - Faça o download o pacote Official 12 Dicts - . Os arquivos estão disponíveis no formato tar.gz ou - ZIP. - - - - Extraia o arquivo 2of12.txt para uma pasta em sua máquina - local. - - - - - - Carregar o arquivo de dicionário para sua Zona de Entrada de - Arquivo - - Nesta etapa, você copiará os arquivos de dados para um local - onde eles possam ser distribuídos aos nós de seu cluster Thor do HPCC. - Uma zona de entrada de arquivos é um local de armazenagem anexado ao - seu HPCC. Ela possui um utilitário em execução para facilitar o - spraying (processo de distribuir dados aos nós) para um - cluster. - - Para arquivos de dados menores, com tamanho máximo de 2GB, você - pode usar o utilitário enviar/baixar arquivo no ECL Watch. Este - arquivo de dados possui apenas 400 kb (aproximadamente). - - Em seguida, você distribuirá (ou fará o spray) o dataset para - todos os nós no cluster Thor do HPCC. O poder do HPCC vem da sua - capacidade de atribuir vários processadores para trabalhar nas - diferentes partes do arquivo de dados em paralelo. Até mesmo a versão, - que possui apenas um nó único, os dados precisam ser distribuídos aos - nós do cluster. - - - - Em um navegador da Internet, conecte-se ao ECL Watch usando - http://<PUBLIC_DNS>:8010 (onde - PUBLIC_DNS é o nome do DNS público do seu servidor ESP). - - - - - - - - - - - - - - Seu endereço IP poderá ser diferente dos - endereços fornecidos nas imagens de exemplo. Use o - endereço IP fornecido pela sua instalação. - - - - - - - - - - No ECL Watch, clique no ícone Files e no link Landing Zones localizados no submenu de - navegação. - - Pressione o botão de ação Upload - . - -
- Enviar - - - - - - -
-
- - - Uma caixa de diálogo será aberta. Navegue e selecione o arquivo a ser enviado - e pressione o botão Open . -
- O arquivo selecionado deve aparecer no - - - - - - -
- - campo File Name . O - arquivo de dados possui o seguinte nome: 2of12.txt.. -
- - - Pressione o botão Start - para concluir o envio do arquivo. - -
-
- - - Spray do arquivo de dados para o seu <emphasis>Thor - Cluster</emphasis> - - Para usar o arquivo de dados em seu Thor do HPCC System, é - preciso fazer o "spray” (distribuir) desse arquivo para todos os nós. - O spray ou importação é a - transferência de um arquivo de dados de um local (como a zona de - entrada de arquivos) para diversas partes do arquivo ou nós em um - cluster. - - O arquivo distribuído passa a ter um nome de arquivo - lógico como segue:~thor::word_list_csv O sistema mantém uma - lista de arquivos lógicos e as localizações dos arquivos físicos - correspondentes das partes do arquivo. - - - - Em um navegador da Internet, conecte-se ao ECL Watch usando - http://<PUBLIC_DNS>:8010 (onde - PUBLIC_DNS é o nome do DNS público do seu servidor ESP). - - - - Clique no hiperlink Arquivos e no link Zona de entrada de arquivos localizados no - submenu de navegação. Selecione a zona de entrada de arquivos - apropriada (caso haja mais de uma zona de entrada de arquivos). - Clique na seta à esquerda da sua zona de entrada de arquivos para - expandir. - - - - Selecione o arquivo na zona de entrada de arquivos marcando - a caixa ao lado dele. - - - - - - Marque a caixa ao lado de 2of12.txt, e pressione o botão - Delimited . - -
- Spray delimitado - - - - - - -
- - A página DFU Spray - Delimited será exibida. -
- - - Selecione "mythor" na lista suspensa do Grupo Target. - - - - Preencha o Targer Scope como - thor. - - - - Preencha os demais parâmetros (caso ainda não tenham sido - preenchidos). - - - - Máximo tamanho do registro 8192 - - - - Separador \, - - - - Terminador de linhas \n,\r\n - - - - Aspas: ' - - - - - - Preencha o Target Name usando o restante do nome do arquivo - lógico desejado: word_list_csv - - - - - - - Não se esqueça de marcar a caixa - Overwrite. - - Se disponível, certifique-se de que a caixa Replicate esteja marcada. (A opção replicar - está disponível apenas em sistemas em que a replicação tenha sido - ativada.) - - - - - - Pressione o botão Spray - . - - A guia exibe a tarefa DFU onde é possível ver o progresso do - spray (distribuição aos nós). - -
-
- - - Executar o ECL no Thor<parameter/> - - - - Abra uma nova Janela do - compilador (CTRL+N) e escreva o seguinte - código:IMPORT Std; -layout_word_list := record - string word; -end; -File_Word_List := dataset('~thor::word_list_csv', layout_word_list, - CSV(heading(1),separator(','),quote(''))); -STRING Word := 'teacher' :STORED('Word'); -STRING SortString(STRING input) := FUNCTION - OneChar := RECORD - STRING c; - END; - OneChar MakeSingle(OneChar L, unsigned pos) := TRANSFORM - SELF.c := L.c[pos]; - END; - Split := NORMALIZE(DATASET([input],OneChar), LENGTH(input), - MakeSingle(LEFT,COUNTER)); - SortedSplit := SORT(Split, c); - OneChar Recombine(OneChar L, OneChar R) := TRANSFORM - SELF.c := L.c+R.c; - END; - Recombined := ROLLUP(SortedSplit, Recombine(LEFT, RIGHT),ALL); - RETURN Recombined[1].c; -END; - -STRING CleanedWord := SortString(TRIM(Std.Str.ToUpperCase(Word))); - -R := RECORD - STRING SoFar {MAXLENGTH(200)}; - STRING Rest {MAXLENGTH(200)}; -END; -Init := DATASET([{'',CleanedWord}],R); -R Pluck1(DATASET(R) infile) := FUNCTION - R TakeOne(R le, UNSIGNED1 c) := TRANSFORM - SELF.SoFar := le.SoFar + le.Rest[c]; - SELF.Rest := le.Rest[..c-1]+le.Rest[c+1..]; - // Boundary Conditions - // handled automatically - END; - RETURN DEDUP(NORMALIZE(infile,LENGTH(LEFT.Rest),TakeOne(LEFT,COUNTER))); -END; -L := LOOP(Init,LENGTH(CleanedWord),Pluck1(ROWS(LEFT))); -ValidWords := JOIN(L,File_Word_List, -LEFT.SoFar=Std.Str.ToUpperCase(RIGHT.Word),TRANSFORM(LEFT)); -OUTPUT(CleanedWord); -COUNT(ValidWords); -OUTPUT(ValidWords) - - - - - Selecione thor como seu - cluster de destino. - - - - Pressione o botão de verificação de sintaxe localizado na - barra de ferramentas principal (ou pressione F7) - - - - Pressione o botão Submit - . - - - - Quando o envio estiver concluído, selecione a guia Workunit e em seguida a guia - Results. - - - - Examine o resultado. - - - -
-
- - - Manipulação dos Dados (Processamento dos Dados) - - Esta seção explica o manuseio de dados em uma configuração AWS. - Informações adicionais sobre o processamento de dados em uma plataforma - HPCC Systems estão disponíveis no manual Data Handling - (Processamento dos Dados) manual. - - - Utilizando o S3 buckets - - Os buckets do S3 fornecem um meio de armazenamento constante - dentro do Amazon Web Services. Você precisa configurar uma conta no AWS - para ativar um conjunto de Chaves de acesso habilitadas e criar buckets - do S3. Após ter criado e ativado seu conjunto de chaves de acesso, e - criado um bucket do S3 exclusivo, ambos serão usados em futuras - instanciações. - - - - - - - Instalar e configurar pacotes do S3 em seu nó da - zona de entrada de arquivos - - Para mover arquivos do – ou para – o armazenamento do S3, os - pacotes do S3 devem estar instalados e configurados no nó da sua zona - de entrada de arquivos. - - - - Abrir a janela do console e conectar-se ao nó da Zona de - entrada de arquivos (LZ) - - - - Execute esses comandos: - - sudo apt-get install s3cmd s3cmd --configure - - - - - Insira sua Access - Key - - - - Insira sua Secret Access - Key - - - - Deixe a senha criptografada em branco - - - - Deixe o caminho para o programa GPG em branco - - - - Responda à pergunta “Use HTTPS?” - - - - Digite “não” para melhorar o desempenho - - - - Digite “sim” se a privacidade de dados for uma - preocupação para você. - - - - - - Deixe o servidor proxy em branco - - - - Insira Yes em Test - Access - - - - Insira Yes em Save - Settings - - - - - - Criando e utilizando S3 Buckets - - Para armazenar dados no S3, é preciso criar um bucket exclusivo - para todo o sistema s3. Uma vez criado, esse bucket existirá mesmo ao - fechar as instâncias dos servidores. - - Você pode fazer o despray (consolidar dados dos nós) de um - arquivo do Thor para a zona de entrada de arquivos, e depois copiar - para um bucket do S3 para um armazenamento mais duradouro. Mais tarde, - você pode copiar os arquivos do bucket do S3 para a zona de entrada de - arquivos e fazer o spray do arquivo para o cluster Thor. Informações - adicionais sobre o processamento de dados em uma plataforma HPCC - Systems estão disponíveis no manual Processamento de - dados . - - - Criar um bucket - - s3cmd mb s3://your-unique-bucket-name - - - - Listar um Buckets - - s3cmd ls - - - - Enviar um arquivo para o bucket - - s3cmd put myfile.csv s3://your-unique-bucket-name - - - - - Obter um arquivo do bucket - - s3cmd get s3://your-unique-bucket-name/myfile.csv myfile.csv -Acesse http://s3tools.org/s3cmd para - obter mais informações sobre como usar o s3cmd - - - - - - - Próximos passos - - Para se familiarizar com o que o seu sistema é capaz de fazer, - recomendamos realizar as seguintes etapas: - - O Tutorial de dados do - HPCC - - - - Exemplo da teoria dos seis - graus de separação (de Kevin bacon). - - - - Ler Como usar o Gerenciador de - Configurações para aprender como configurar uma - plataforma do HPCC usando a Visão avançada. - - - - Use suas novas habilidades para processar seu próprio dataset - massivo! - - - - O Portal do HPCC Systems ( HPCCSystems.com ) também é um recurso - valioso para obter mais informações, incluindo: - - - - Vídeo tutoriais - - - - Exemplos adicionais - - - - Informe técnico - - - - Documentação - - - - Fóruns de usuários - - - -