از اکسل به عنوان ابزاری برای کپی داده ها از وب استفاده کنید

اسکراپینگ وب(Web scraping) عمل استخراج داده ها، اطلاعات یا تصاویر از یک وب سایت با استفاده از روشی خودکار است. آن را به عنوان کپی و پیست(copy and paste) تمام اتوماتیک در نظر بگیرید.(Think)

ما یا می نویسیم یا از یک برنامه برای رفتن به وب سایت هایی که می خواهیم استفاده می کنیم و از موارد خاصی که می خواهیم از آن وب سایت ها کپی می کنیم. این بسیار دقیق تر از دانلود کل یک وب سایت است.

مانند هر ابزاری، وب اسکرپینگ را می توان برای خوب یا بد استفاده کرد. برخی از دلایل بهتر برای حذف وب‌سایت‌ها، رتبه‌بندی آن‌ها در موتور جستجو(search engine) بر اساس محتوای آن، خرید مقایسه قیمت(price comparison shopping) ، یا نظارت بر اطلاعات بازار سهام است(stock market information) . حتی ممکن است از آن به عنوان یک ابزار تحقیقاتی استفاده کنید(research tool) .

چگونه می توانم وب سایت ها را با اکسل(Excel) خراش دهم ؟

باور کنید یا نه، اکسل(Excel) برای مدت طولانی، حداقل از اکسل 2003(Excel 2003) ، توانایی استخراج داده ها از وب سایت ها را داشته است . فقط خراش دادن وب چیزی است که بیشتر مردم به آن فکر(t think) نمی کنند ، چه رسد به اینکه به استفاده از یک برنامه صفحه گسترده(spreadsheet program) برای انجام کار فکر کنند. اما به طرز شگفت انگیزی آسان و قدرتمند است. بیایید با ساخت مجموعه ای از میانبرهای صفحه کلید مایکروسافت آفیس ، نحوه انجام آن را بیاموزیم.(Microsoft Office keyboard)

سایت هایی را که می خواهید خراش دهید پیدا کنید

اولین کاری که می‌خواهیم انجام دهیم این است که صفحات وب خاصی را که می‌خواهیم از آنها اطلاعات دریافت کنیم، پیدا کنیم. بیایید به منبع بروید و(source and search) در https://support.office.com/ جستجو کنید . ما قصد داریم از عبارت جستجو(search term) "میانبرهای متداول استفاده شده" استفاده کنیم. می‌توانیم با استفاده از نام برنامه خاص، مانند Outlook ، Excel ، Word و غیره، آن را مشخص‌تر کنیم. ممکن است ایده خوبی باشد که صفحه نتایج را نشانه گذاری کنید تا بتوانیم به راحتی به آنجا برگردیم.

روی(Click) نتیجه جستجو(search result) کلیک کنید ، "میانبرهای صفحه کلید در اکسل(Excel) برای ویندوز". پس از ورود به آن صفحه، لیست نسخه های اکسل(Excel) را پیدا کنید و روی نسخه های جدیدتر(Newer Versions) کلیک کنید . اکنون ما با جدیدترین و بهترین ها کار می کنیم.

می‌توانیم به صفحه نتایج جستجوی خود برگردیم و نتایج را برای سایر برنامه‌های آفیس(Office apps) در برگه‌های خودشان باز کنیم و آنها را نشانک کنیم. حتی برای این تمرین هم ایده خوبی است. اینجا جایی است که اکثر مردم در جمع آوری میانبرهای آفیس(Office) متوقف می شوند ، اما ما نه. ما آنها را در اکسل(Excel) قرار می دهیم تا هر زمان که بخواهیم هر کاری که می خواهیم با آنها انجام دهیم.

Excel و Scrape را باز کنید

اکسل(Excel) را باز کنید و یک کتاب کار جدید شروع کنید. کتاب کار را به عنوان میانبرهای آفیس(Office Shortcuts) ذخیره کنید . اگر OneDrive دارید، آن را در آنجا ذخیره کنید تا ویژگی AutoSave کار کند.

پس از ذخیره کتاب کار، روی تب Data کلیک کنید.

در نوار زبانه Data(Data tab) ، روی From Web کلیک کنید .

پنجره From Web Wizard باز خواهد شد. این جایی است که آدرس وب یا URL(web address or URL) وب سایتی را که می خواهیم داده ها را از آن حذف کنیم، قرار می دهیم. به مرورگر وب خود بروید و URL را کپی کنید.(copy)

URL را در قسمت URL جادوگر From Web(From Web wizard) قرار دهید . می‌توانیم انتخاب کنیم که از این در حالت Basic یا Advanced استفاده کنیم. حالت پیشرفته(Advanced mode) گزینه های بسیار بیشتری در مورد نحوه دسترسی به داده ها از وب سایت به ما می دهد. برای این تمرین فقط به حالت Basic نیاز داریم. روی (Click) OK کلیک کنید .

اکنون اکسل(Excel) سعی می کند به وب سایت متصل شود. این ممکن است چند ثانیه طول بکشد. در صورت مشاهده ، پنجره پیشرفت(progress window) را مشاهده خواهیم کرد.

پنجره Navigator باز می شود و ما لیستی از جداول را از وب سایت در سمت چپ می بینیم. وقتی یکی را انتخاب می کنیم، پیش نمایش جدول را در سمت راست می بینیم. بیایید جدول میانبرهای اغلب استفاده شده را انتخاب کنیم.(Frequently used shortcuts )

اگر لازم است به دنبال جدول مورد نظر خود باشیم، می‌توانیم روی تب Web View کلیک کنیم تا وب‌سایت واقعی را ببینیم. (Web View)وقتی آن را پیدا کردیم، می توانیم روی آن کلیک کنیم و برای واردات انتخاب می شود.

حالا روی دکمه Load در پایین این پنجره کلیک می کنیم. گزینه های دیگری نیز وجود دارد که می توانیم انتخاب کنیم، که پیچیده تر و فراتر از محدوده انجام اولین خراش ما هستند. فقط حواستان باشد که آنها آنجا هستند. قابلیت های اسکراپینگ وب اکسل بسیار قدرتمند است.

جدول وب(web table) پس از چند ثانیه در اکسل(Excel) بارگذاری می شود . ما داده ها را در سمت چپ می بینیم، جایی که عدد 1 در تصویر زیر است. شماره 2 پرس(Query) و جوی مورد استفاده برای دریافت داده ها از وب سایت را برجسته می کند. هنگامی که در یک کتاب کار چندین پرس و جو داریم، اینجاست که موردی را که باید استفاده کنیم انتخاب می کنیم.

توجه داشته باشید(Notice) که داده ها به صورت جدول اکسل وارد صفحه گسترده می شوند. از قبل برای ما تنظیم شده است تا بتوانیم داده ها را فیلتر یا مرتب کنیم.

ما می‌توانیم این فرآیند را برای تمام صفحات وب دیگری که دارای میانبرهای آفیس برای (Office)Outlook ، Word ، Access ، PowerPoint و هر برنامه آفیس(Office app) دیگری هستند، تکرار کنیم .

حفظ جریان داده های خراشیده شده(Scraped Data Current) در اکسل(Excel)

به عنوان یک امتیاز برای شما، ما می خواهیم یاد بگیریم که چگونه داده های خراشیده شده خود را در اکسل(Excel) تازه نگه داریم . این یک راه عالی برای نشان دادن قدرت اکسل(Excel) برای خراش دادن داده ها است. حتی با این کار، ما فقط ابتدایی ترین اسکراپینگی را انجام می دهیم که اکسل(Excel) می تواند انجام دهد.

برای این مثال، اجازه دهید از یک صفحه وب اطلاعات سهام مانند (stock information)https://www.cnbc.com/stocks/ استفاده کنیم.

کارهایی که قبلا انجام دادیم را مرور کنید و URL جدید را از نوار آدرس (address bar)کپی و جایگذاری(copy and paste) کنید .

به پنجره Navigator می‌روید(Navigator window) و جداول موجود را می‌بینید. بیایید شاخص های عمده سهام ایالات متحده(Major U.S. Stock Indices) را انتخاب کنیم .

هنگامی که داده ها خراشیده شدند، صفحه گسترده زیر را مشاهده خواهیم کرد.

در سمت راست، پرس و جو برای شاخص‌های عمده سهام ایالات متحده(Major U.S. Stock Indexes) را می‌بینیم . آن را انتخاب کنید(Select) تا برجسته شود. مطمئن(Make) شوید که در تب Table Tools و در قسمت (Table Tools)Design هستیم . سپس بر روی فلش رو به پایین زیر Refresh کلیک کنید . سپس روی Connection Properties کلیک کنید .

در پنجره Query Properties ، در زبانه (Query Properties )Usage ، می‌توانیم نحوه تازه‌سازی این اطلاعات را کنترل کنیم. می‌توانیم یک دوره زمانی خاص را برای بازخوانی، یا برای بازخوانی زمانی که کتاب کار را در دفعات بعد باز می‌کنیم، یا برای بازخوانی در پس‌زمینه، یا هر ترکیبی از این‌ها تنظیم کنیم. پس از انتخاب موارد مورد نیاز، روی OK کلیک کنید تا پنجره بسته شود و ادامه دهید.

خودشه! اکنون می‌توانید قیمت سهام، امتیازات ورزشی یا هر داده دیگری را که مرتباً تغییر می‌کند از صفحه‌گسترده اکسل(Excel spreadsheet) ردیابی کنید. اگر با معادلات و توابع اکسل(Excel) خوب هستید ، می توانید تقریباً هر کاری را که می خواهید با داده ها انجام دهید.

شاید سعی کنید روند سهام را شناسایی کنید، یک استخر ورزشی فانتزی در محل کار راه اندازی کنید، یا شاید فقط وضعیت آب و هوا را پیگیری کنید. چه کسی می داند؟ تخیل شما و داده های موجود در اینترنت(Internet) ، تنها محدودیت هستند.



About the author

من یک بازبین نرم افزار و مهندس بی سیم با بیش از 10 سال تجربه در این زمینه هستم. من در بررسی برنامه ها و نرم افزارهای تلفن همراه و همچنین کمک به مشتریان برای بهینه سازی شبکه های خود تخصص دارم. از طریق بررسی‌هایم، می‌توانم به شما در تصمیم‌گیری آگاهانه درباره محصولاتی که باید استفاده کنید، نحوه بهبود گردش کار و موارد دیگر کمک کنید. مهارت های من عبارتند از: ارتباط کتبی و شفاهی عالی، حل مسئله، دانش فنی قوی و توجه به جزئیات. من همچنین در کار مستقل و همکاری در پروژه ها مهارت دارم.



Related posts